O que é linhagem de dados?

Atra Blog

O que é linhagem de dados?

Atra Blog

A linhagem de dados basicamente ajuda a determinar a proveniência dos dados para sua organização. Ele pode fornecer um registro contínuo e continuamente atualizado de onde um ativo de dados se origina, como ele se move pela organização, como é transformado, onde é armazenado, quem o acessa e outros metadados importantes.

o que é linhagem de dados

A linhagem de dados responde à pergunta: “De onde vêm esses dados e para onde vão?” É uma representação visual do fluxo de dados que ajuda a rastrear os dados desde sua origem até seu destino. Ele explica os diferentes processos envolvidos no fluxo de dados e suas dependências. O gerenciamento de metadados é fundamental para capturar o fluxo de dados corporativos e apresentar a linhagem de dados na nuvem e no local.

Quais perguntas a Linhagem de dados responde?

A linhagem de dados esclarece como os dados fluem pela organização. Isso inclui a disponibilidade, propriedade, sensibilidade e qualidade dos dados. Isso ajuda a garantir que você possa gerar respostas confiáveis ​​para perguntas sobre seus dados:

  • Quais dados em minha empresa precisam ser controlados para conformidade com os regulamentos do setor ?
  • Quais fontes de dados têm as informações pessoais necessárias para desenvolver novas iniciativas de experiência do cliente ? E como esses dados são distribuídos pela organização?
  • Quais dados são apropriados para migrar para a nuvem e como isso afetará os usuários?
  • Onde temos dados fluindo para locais que violam as políticas de governança de dados?
  • Como a qualidade dos dados muda em vários saltos de linhagem?
  • Como os cientistas de dados podem melhorar a confiança nos dados necessários para análises avançadas?

Por que a linhagem de dados é importante?

A linhagem de dados é essencial para a governança de dados, incluindo conformidade regulatória, qualidade de dados, privacidade e segurança de dados. Também é vital para análise de dados e ciência de dados. A capacidade de mapear e verificar como os dados foram acessados ​​e alterados é fundamental para a transparência dos dados. Ele ajuda a gerar um registro detalhado de onde os dados específicos foram originados. Também mostra como os dados foram alterados, impactados e usados. A linhagem de dados também facilita a resposta a consultas de auditoria e relatórios para conformidade regulatória. Também ajuda a aumentar a postura de segurança, permitindo que as organizações rastreiem e identifiquem riscos potenciais nos fluxos de dados.

A linhagem de dados ajuda as organizações a adotar uma abordagem proativa para identificar e corrigir lacunas nos dados necessários para aplicativos de negócios. Isso é particularmente útil para análise de dados e programas de experiência do cliente. A coleta de dados confidenciais expõe as organizações ao escrutínio regulatório e a abusos comerciais. A linhagem de dados mostra como os dados confidenciais e outros dados críticos para os negócios fluem em toda a sua organização. Dessa forma, você pode garantir o alinhamento adequado da política com os controles em vigor.

Para operações de TI, a linhagem de dados ajuda a visualizar o impacto das alterações de dados em análises e aplicativos downstream. Também ajuda a entender o risco de mudanças nos processos de negócios. E permite que você adote uma abordagem mais proativa para o gerenciamento de mudanças. Ele também impulsiona a eficiência operacional reduzindo os processos manuais demorados e permite a redução de custos ao eliminar dados duplicados e silos de dados.

Além disso, a linhagem de dados ajuda a obter migrações de dados em nuvem bem-sucedidas e iniciativas de modernização que impulsionam a transformação. A linhagem de dados pode ajudar a visualizar como diferentes objetos de dados e fluxos de dados estão relacionados e conectados com gráficos de dados. Esse entendimento mais profundo torna mais fácil para os arquitetos de dados prever como a movimentação ou alteração de dados afetará os próprios dados. Prever o impacto nos processos e aplicativos downstream que dependem dele e validar as mudanças também se torna mais fácil.

Melhores práticas de linhagem de dados

Automatize a extração da linhagem de dados

Muitas organizações hoje contam com a captura manual da linhagem em arquivos do Microsoft Excel e ferramentas estáticas semelhantes. Essa prática não é adequada para o mundo dinâmico e ágil em que vivemos, onde os dados estão sempre mudando.

Incluir a origem dos metadados na linhagem de dados

Software ETL, ferramentas de BI, sistemas de gerenciamento de banco de dados relacional, ferramentas de modelagem, aplicativos corporativos e aplicativos personalizados criam seus próprios dados sobre seus dados. Esses metadados são essenciais para entender onde seus dados estiveram e como foram usados, da origem ao destino.

Envolva os proprietários de fontes de metadados na verificação da linhagem de dados

Comunique-se com os proprietários das ferramentas e aplicativos que criam metadados sobre seus dados. Eles sabem melhor do que ninguém como os metadados são oportunos, precisos e relevantes.

Planeje a extração progressiva dos metadados e da linhagem de dados

Rastreie o caminho que os dados percorrem em seus sistemas. Em seguida, extraia os metadados com a linhagem de dados de cada um desses sistemas em ordem. Isso torna mais fácil mapear as conexões, relacionamentos e dependências entre os sistemas e dentro dos dados.

Valide a linhagem de ponta a ponta progressivamente

Comece validando conexões de alto nível entre sistemas. Em seguida, faça uma busca detalhada no conjunto de dados conectado, seguido pelos elementos de dados. Finalmente, valide a documentação do nível de transformação.

Use um catálogo de dados de classe empresarial

Para uma linhagem granular de ponta a ponta na nuvem e no local, use um catálogo de dados inteligente, automatizado e de classe empresarial. Os recursos de AI e ML permitem que o catálogo de dados una automaticamente a linhagem de todas as fontes da sua empresa. Isso inclui a capacidade de extrair e inferir a linhagem dos metadados.

4 técnicas de linhagem de dados para começar a usar agora

1. Certifique-se de ter uma ampla conectividade de metadados

Para linhagem de dados de ponta a ponta, você precisa ser capaz de verificar todas as suas fontes de dados em ambientes corporativos multinuvem e locais. Isso varia de sistemas legados e de mainframe a aplicativos corporativos com codificação personalizada e até código AI/ML. Os recursos de descoberta baseados em IA podem simplificar o processo de identificação de sistemas conectados. Isso pode incluir o uso de metadados do software ETL e a descrição da linhagem de aplicativos personalizados que não permitem acesso direto aos metadados.

2. Aproveite a IA e o aprendizado de máquina

Os recursos de IA e aprendizado de máquina (ML) podem inferir a linhagem de dados quando for impraticável ou impossível fazê-lo por outros meios. Dados semelhantes têm uma linhagem semelhante. Mas, às vezes, não há uma maneira direta de extrair a linhagem de dados. Por exemplo, pode ser que os dados sejam movidos manualmente por FTP ou usando código. Nesse caso, a descoberta de similaridade de dados com tecnologia de IA permite inferir a linhagem de dados, encontrando conjuntos de dados semelhantes nas fontes. Os recursos de AI e ML também permitem a descoberta de relacionamento de dados. Isso é essencial para a análise de impacto.

Os recursos de linhagem de dados baseados em IA podem ajudá-lo a entender mais do que relacionamentos de fluxo de dados. Ele também traz insights sobre relacionamentos de “controle”, como junções e modelos lógicos para físicos. Por exemplo, excluir uma coluna usada em uma junção pode impactar um relatório que depende dessa junção. Uma solução baseada em IA que infere junções pode ajudar a fornecer linhagem de dados de ponta a ponta. Isso permite uma análise de impacto mais completa, mesmo quando essas relações não são documentadas.

3. Extraia metadados profundos e linhagem de fontes de dados complexas

É um desafio obter visibilidade de ponta a ponta da linhagem de dados em um complexo cenário de dados corporativos. Um que normalmente inclui centenas de fontes de dados. Isso pode ser de bancos de dados locais, data warehouses e data lakes e sistemas de mainframe. Ou pode vir de aplicativos SaaS e ambientes multi-nuvem. Para uma linhagem de dados abrangente, você deve usar uma solução baseada em IA. Um que extrai automaticamente os metadados mais granulares de uma ampla variedade de sistemas corporativos complexos. Isso inclui software ETL, scripts SQL, linguagens de programação, código de procedimentos armazenados, código de modelos AI/ML e aplicativos considerados “caixas pretas”.

4. Forneça recursos diferentes para usuários diferentes

Fornecer aos seus usuários de negócios e usuários técnicos o tipo certo e o nível de detalhes sobre seus dados é vital. Isso os ajuda a entender e confiar nele com maior confiança. Ter acesso aumenta sua produtividade e os ajuda a gerenciar dados. E vincula exibições de dados com informações lógicas e detalhadas subjacentes. Isso melhora a colaboração e diminui a carga sobre seus engenheiros de dados.

 

Créditos: Informatica

Os fundamentos da linhagem de dados na nuvem

Os fundamentos da linhagem de dados na nuvem

Por que a linhagem de dados é um recurso crítico para organizações que desejam ser mais orientadas por dados? E por que esse recurso deve ser implantado na nuvem?

O que é linhagem de dados e por que é importante?

A linhagem de dados é uma representação visual do fluxo de dados que ajuda a rastrear os dados desde sua origem até seu destino. Ele permite que você entenda como os dados mudam durante sua jornada, ao longo de todo o seu ciclo de vida. O Lineage ajuda a esclarecer as informações sobre a disponibilidade, propriedade, segurança e qualidade dos dados conforme eles fluem pela organização.

À medida que as organizações trabalham para serem mais orientadas por dados, torna-se cada vez mais crítico entender de onde os dados se originam, suas transformações e como estão sendo usados. A linhagem de dados fornece a transparência necessária para que os usuários tenham confiança nos dados que estão usando, o que é fundamental para alimentar iniciativas orientadas por dados.

Por que a linhagem de dados na nuvem é essencial?

A implantação da linhagem de dados como um recurso nativo da nuvem, assim como outras soluções na nuvem, oferece muitas vantagens. Um dos maiores benefícios é a aceleração do tempo de retorno: para muitos projetos, o simples provisionamento da infraestrutura necessária é extremamente demorado. Como você não precisa implantar e/ou gerenciar uma infraestrutura complexa com uma oferta nativa da nuvem, isso reduz significativamente o tempo entre a aquisição da solução e o momento em que os usuários podem extrair valor.

Outros benefícios incluem a flexibilidade para dimensionar recursos conforme necessário e liberar pessoal que, de outra forma, estaria gerenciando servidores, patches e atualizações, permitindo que eles se concentrem em tarefas de maior valor e recompensas. Você também pode acessar novos recursos automaticamente e imediatamente à medida que são lançados.

Quais são os diferentes tipos de linhagem de dados?

Uma ampla variedade de partes interessadas pode utilizar e se beneficiar da linhagem de dados. E a apresentação da linhagem pode variar de acordo com a persona, pois públicos diferentes têm necessidades diferentes.

A linhagem de negócios oferece uma visão resumida das fontes de dados e transformações. As partes interessadas nos negócios que criam relatórios financeiros ou geram painéis de marketing, por exemplo, querem saber se podem confiar e usar os dados subjacentes.

A linhagem técnica exibe os detalhes granulares que as partes interessadas técnicas desejam, pois geralmente utilizam a linhagem para iniciativas como a migração de dados para a nuvem. As equipes técnicas apreciam uma grande quantidade de detalhes, pois precisam entender de forma abrangente o impacto da implantação de novos sistemas, por exemplo.

Quais são alguns casos de uso típicos para linhagem de dados?

Embora haja uma coleção diversificada de casos de uso para linhagem de dados, algumas das perguntas mais comuns respondidas pela linhagem de dados incluem:

  • Conformidade regulatória: “Quais dados na minha empresa precisam estar em conformidade com regulamentos como a Lei Geral de Proteção de Dados (LGPD)?”
  • Modernização da nuvem: “Quais dados devemos migrar para um data warehouse na nuvem — e quais usuários serão afetados pela mudança?”
  • Análise: “Onde nossos cientistas de dados devem procurar dados confiáveis ​​que possam usar em projetos de análise avançada?”
  • Experiência do cliente: “Quais fontes de dados devemos usar para desenvolver novas iniciativas de experiência do cliente?”
  • Gerenciamento de mudanças e análise de impacto: “Quais relatórios serão afetados se eu modificar esta fonte de dados?”
  • Governança de IA: “Quais dados foram usados ​​para treinar e validar o modelo de IA? Quais aplicativos downstream estão usando esse modelo para tomada de decisão?”

Quais são os recursos obrigatórios para uma ferramenta de linhagem de dados?

Uma solução robusta de linhagem de dados deve ser capaz de oferecer suporte à junção automática de linhagem de dados de várias fontes. A varredura automatizada é a primeira, e talvez a mais crítica, etapa da captura da linhagem de dados. A definição manual da linhagem não apenas consumiria muitos recursos, mas também seria suscetível a erros. Além disso, a saída provavelmente ficaria desatualizada logo após ser documentada (e difícil de manter) devido a ambientes em constante mudança.

Para atender às demandas de hoje, uma solução completa deve ser capaz de derivar automaticamente a linhagem de ponta a ponta de uma grande quantidade de fontes de dados diversas e fragmentadas — tanto na nuvem quanto no local. Idealmente, a solução também deve automatizar a captura de detalhes detalhados da transformação de dados de fontes, incluindo scripts SQL, procedimentos armazenados, relatórios de inteligência de negócios e tarefas ETL.

Quais são os benefícios da linhagem de dados?

Conforme mencionado anteriormente, um dos principais benefícios da linhagem de dados é entender seus dados e aumentar a confiança nos dados que alimentam sua análise e IA. A linhagem de dados fornece a transparência necessária para oferecer suporte a análises de autoatendimento e iniciativas de IA. Ele também pode ajudar no gerenciamento da conformidade regulatória e na mitigação de riscos, além de obter visibilidade e insights de ponta a ponta para conduzir um gerenciamento de mudanças eficaz.

Em última análise, a linhagem de dados, dentro de uma solução de catálogo de dados inteligente , fornece as informações necessárias para melhorar a inteligência de dados geral. As organizações podem aproveitar essa inteligência de dados abrangente para ajudar a fazer recomendações preditivas que ajudam a:

  • Acelere e automatize a governança de dados para fornecer dados confiáveis
  • Habilite programas de compartilhamento de dados que capacitam os consumidores de dados a interagir com os dados
  • Gere análises, IA e resultados de negócios com dados confiáveis



Créditos: Informatica.

Como gerar resultados usando a inteligência de dados preditiva

Como gerar resultados usando a inteligência de dados preditiva

Como gerar resultados usando a inteligência de dados preditiva

Como gerar resultados usando a inteligência de dados preditiva

Desafios da inteligência de dados

Pode ser um desafio transformar grandes conjuntos de dados em insights analíticos inteligentes. Mas as recompensas são significativas — você pode usar esses insights para melhorar a experiência do cliente, aumentar as receitas e gerenciar riscos. Para transformar conjuntos de dados, você precisa de uma solução de inteligência de dados que possa fornecer uma melhor compreensão dos dados. Com a solução certa, os consumidores de dados podem fazer perguntas como:

  • De onde vieram os dados?
  • Posso confiar nos dados?
  • Esses dados são relevantes para minha necessidade de negócios?
  • Quem mais está usando os dados?

No entanto, mesmo com muitas ferramentas de inteligência de dados, continuamos a enfrentar desafios como estes:

Cadeias de fornecimento de dados lentas. Os consumidores de dados continuam a gastar mais tempo encontrando e preparando dados do que realmente usando-os! Existem muitos silos com dados não classificados e não categorizados.

Baixa confiança nos dados. Devido à falta de contexto e insight, a confiança nos dados permanece baixa. As abordagens rígidas baseadas em documentação não podem acompanhar e dimensionar os requisitos modernos.

Alto risco de dados. A maioria dos consumidores ainda não acredita que seus dados estão sendo usados com responsabilidade. Como consumidor de dados, como você pode garantir que está usando os dados no contexto de política correto?

Esses desafios e outros apontam por que precisamos de inteligência de dados para gerar confiança. Assim como a inteligência de negócios fornece insights sobre nossos negócios, a inteligência de dados nos fornece insights sobre nossos conjuntos de dados para que possamos gerenciar melhor e confiar em nossos ativos de dados. Isso ocorre porque a inteligência de dados abrange governança de dados, qualidade de dados , inventário de metadados  e linhagem de dados .

Também precisamos considerar como atualmente entregamos inteligência de dados. Ou seja, precisamos expandir nossa percepção e compreensão da inteligência de dados. Precisamos vincular a inteligência de dados à entrega de dados. Caso contrário, eles se tornarão metadados desconectados que foram costurados manualmente com fluxos de trabalho. Vincular a inteligência de dados à entrega de dados deve ajudar os administradores de dados, TI e consumidores de dados em suas próximas ações, para que possam obter valor mais rapidamente. Vincular a inteligência de dados à entrega de dados também deve impulsionar o envolvimento com os dados e permitir os principais resultados de negócios. Então, quais são nossas expectativas e requisitos quando se trata de inteligência de dados?

Inteligência de dados preditiva

A inteligência de dados preditiva se concentra no consumo de dados. Um dos principais componentes de uma solução de inteligência de dados é um mercado de dados. Esse mercado permite que usuários de negócios e consumidores de dados comprem dados. Os marketplaces oferecem visibilidade para o uso de dados junto com os tipos e a frequência das solicitações de dados. E é esse entendimento que permite que você concentre os esforços de governança nos resultados de negócios.

Para que os usuários finais possam obter dados relevantes e confiáveis mais rapidamente, você precisa conectar esse mercado de dados. Ele deve se conectar a uma base sólida de governança de dados, catálogo de dados e qualidade de dados. E, como mencionado acima, deve estar conectado à entrega de dados. 

A inteligência de dados preditiva permite automatizar a entrega de dados, desde a origem até o local ou aplicativo de consumo necessário. Outro ponto importante: as soluções de inteligência de dados devem aumentar os esforços humanos. Eles devem capturar padrões de consumo e automatizar a governança dos principais artefatos. A solução de inteligência de dados preditivos aumentada por IA nativa da nuvem da Informatica ajuda você a fazer exatamente isso.

Desde o primeiro dia, a inteligência preditiva de dados ajuda você a potencializar o consumo de dados importantes pelos negócios. Isso porque CLAIRE , a inteligência em nossa Nuvem de Gerenciamento Inteligente de Dados , é treinada em grandes quantidades de metadados e fornece aprendizado baseado em padrões de centenas de projetos de governança de dados. Essa inteligência acelera a automação da classificação, rotulagem e curadoria. E a CLAIRE continua aprendendo com os metadados específicos da sua organização. O que significa que esses insights se tornarão ainda mais precisos ao longo do tempo. E a inteligência de dados é fornecida no contexto. Isso torna a entrega de dados para todas as pessoas – como engenheiros de dados e equipes de operações de dados, por exemplo – também mais eficaz.

A exclusiva Nuvem Inteligente de Gerenciamento de Dados da Informatica torna mais fácil para você se tornar uma organização orientada por dados. Ele fornece recursos completos de gerenciamento de dados. Você pode automatizar o processo de ponta a ponta, desde a descoberta e o consumo de dados até a entrega de dados. E oferecemos todos esses recursos por meio de nossa abordagem inovadora de preços baseada no consumo.

Fornecendo inteligência preditiva de dados

Vamos dar uma olhada rápida em alguns dos principais serviços de nuvem da Informatica por trás de nossa inteligência de dados preditiva.

Mercado de dados em nuvem . Este é o único balcão onde todos os consumidores de dados podem navegar, encontrar, solicitar ou solicitar acesso aos dados. O mercado de dados em nuvem:

  • Oferece contexto sobre dados
  • Fornece informações sobre a qualidade dos dados
  • Permite o rastreamento de dados desde o pedido até a entrega enquanto também monitora o uso

Governança e Catálogo de Dados em Nuvem. Fornece governança unificada e recursos de catalogação em visões de negócios e técnicas. Sua inteligência e automação avançadas permitem acelerar a conexão entre metadados técnicos e de negócios.

Qualidade de dados na nuvem . Permite a identificação rápida e fácil de qualquer fraqueza em seus dados. Também permite corrigir quaisquer problemas ou preocupações identificadas com a qualidade dos dados. Observabilidade contínua de dados com scorecards de qualidade de dados integrados.

Melhor ainda, você pode aproveitar os recursos nativos da nuvem da inteligência preditiva de dados da Informatica de qualquer lugar. Governança de data warehouse em nuvem, compartilhamento de dados, qualidade e observabilidade de dados e muito mais.

 

Crédito: Informatica