O que é linhagem de dados?

Atra Blog

A linhagem de dados basicamente ajuda a determinar a proveniência dos dados para sua organização. Ele pode fornecer um registro contínuo e continuamente atualizado de onde um ativo de dados se origina, como ele se move pela organização, como é transformado, onde é armazenado, quem o acessa e outros metadados importantes.

o que é linhagem de dados

A linhagem de dados responde à pergunta: “De onde vêm esses dados e para onde vão?” É uma representação visual do fluxo de dados que ajuda a rastrear os dados desde sua origem até seu destino. Ele explica os diferentes processos envolvidos no fluxo de dados e suas dependências. O gerenciamento de metadados é fundamental para capturar o fluxo de dados corporativos e apresentar a linhagem de dados na nuvem e no local.

Quais perguntas a Linhagem de dados responde?

A linhagem de dados esclarece como os dados fluem pela organização. Isso inclui a disponibilidade, propriedade, sensibilidade e qualidade dos dados. Isso ajuda a garantir que você possa gerar respostas confiáveis ​​para perguntas sobre seus dados:

  • Quais dados em minha empresa precisam ser controlados para conformidade com os regulamentos do setor ?
  • Quais fontes de dados têm as informações pessoais necessárias para desenvolver novas iniciativas de experiência do cliente ? E como esses dados são distribuídos pela organização?
  • Quais dados são apropriados para migrar para a nuvem e como isso afetará os usuários?
  • Onde temos dados fluindo para locais que violam as políticas de governança de dados?
  • Como a qualidade dos dados muda em vários saltos de linhagem?
  • Como os cientistas de dados podem melhorar a confiança nos dados necessários para análises avançadas?

Por que a linhagem de dados é importante?

A linhagem de dados é essencial para a governança de dados, incluindo conformidade regulatória, qualidade de dados, privacidade e segurança de dados. Também é vital para análise de dados e ciência de dados. A capacidade de mapear e verificar como os dados foram acessados ​​e alterados é fundamental para a transparência dos dados. Ele ajuda a gerar um registro detalhado de onde os dados específicos foram originados. Também mostra como os dados foram alterados, impactados e usados. A linhagem de dados também facilita a resposta a consultas de auditoria e relatórios para conformidade regulatória. Também ajuda a aumentar a postura de segurança, permitindo que as organizações rastreiem e identifiquem riscos potenciais nos fluxos de dados.

A linhagem de dados ajuda as organizações a adotar uma abordagem proativa para identificar e corrigir lacunas nos dados necessários para aplicativos de negócios. Isso é particularmente útil para análise de dados e programas de experiência do cliente. A coleta de dados confidenciais expõe as organizações ao escrutínio regulatório e a abusos comerciais. A linhagem de dados mostra como os dados confidenciais e outros dados críticos para os negócios fluem em toda a sua organização. Dessa forma, você pode garantir o alinhamento adequado da política com os controles em vigor.

Para operações de TI, a linhagem de dados ajuda a visualizar o impacto das alterações de dados em análises e aplicativos downstream. Também ajuda a entender o risco de mudanças nos processos de negócios. E permite que você adote uma abordagem mais proativa para o gerenciamento de mudanças. Ele também impulsiona a eficiência operacional reduzindo os processos manuais demorados e permite a redução de custos ao eliminar dados duplicados e silos de dados.

Além disso, a linhagem de dados ajuda a obter migrações de dados em nuvem bem-sucedidas e iniciativas de modernização que impulsionam a transformação. A linhagem de dados pode ajudar a visualizar como diferentes objetos de dados e fluxos de dados estão relacionados e conectados com gráficos de dados. Esse entendimento mais profundo torna mais fácil para os arquitetos de dados prever como a movimentação ou alteração de dados afetará os próprios dados. Prever o impacto nos processos e aplicativos downstream que dependem dele e validar as mudanças também se torna mais fácil.

Melhores práticas de linhagem de dados

Automatize a extração da linhagem de dados

Muitas organizações hoje contam com a captura manual da linhagem em arquivos do Microsoft Excel e ferramentas estáticas semelhantes. Essa prática não é adequada para o mundo dinâmico e ágil em que vivemos, onde os dados estão sempre mudando.

Incluir a origem dos metadados na linhagem de dados

Software ETL, ferramentas de BI, sistemas de gerenciamento de banco de dados relacional, ferramentas de modelagem, aplicativos corporativos e aplicativos personalizados criam seus próprios dados sobre seus dados. Esses metadados são essenciais para entender onde seus dados estiveram e como foram usados, da origem ao destino.

Envolva os proprietários de fontes de metadados na verificação da linhagem de dados

Comunique-se com os proprietários das ferramentas e aplicativos que criam metadados sobre seus dados. Eles sabem melhor do que ninguém como os metadados são oportunos, precisos e relevantes.

Planeje a extração progressiva dos metadados e da linhagem de dados

Rastreie o caminho que os dados percorrem em seus sistemas. Em seguida, extraia os metadados com a linhagem de dados de cada um desses sistemas em ordem. Isso torna mais fácil mapear as conexões, relacionamentos e dependências entre os sistemas e dentro dos dados.

Valide a linhagem de ponta a ponta progressivamente

Comece validando conexões de alto nível entre sistemas. Em seguida, faça uma busca detalhada no conjunto de dados conectado, seguido pelos elementos de dados. Finalmente, valide a documentação do nível de transformação.

Use um catálogo de dados de classe empresarial

Para uma linhagem granular de ponta a ponta na nuvem e no local, use um catálogo de dados inteligente, automatizado e de classe empresarial. Os recursos de AI e ML permitem que o catálogo de dados una automaticamente a linhagem de todas as fontes da sua empresa. Isso inclui a capacidade de extrair e inferir a linhagem dos metadados.

4 técnicas de linhagem de dados para começar a usar agora

1. Certifique-se de ter uma ampla conectividade de metadados

Para linhagem de dados de ponta a ponta, você precisa ser capaz de verificar todas as suas fontes de dados em ambientes corporativos multinuvem e locais. Isso varia de sistemas legados e de mainframe a aplicativos corporativos com codificação personalizada e até código AI/ML. Os recursos de descoberta baseados em IA podem simplificar o processo de identificação de sistemas conectados. Isso pode incluir o uso de metadados do software ETL e a descrição da linhagem de aplicativos personalizados que não permitem acesso direto aos metadados.

2. Aproveite a IA e o aprendizado de máquina

Os recursos de IA e aprendizado de máquina (ML) podem inferir a linhagem de dados quando for impraticável ou impossível fazê-lo por outros meios. Dados semelhantes têm uma linhagem semelhante. Mas, às vezes, não há uma maneira direta de extrair a linhagem de dados. Por exemplo, pode ser que os dados sejam movidos manualmente por FTP ou usando código. Nesse caso, a descoberta de similaridade de dados com tecnologia de IA permite inferir a linhagem de dados, encontrando conjuntos de dados semelhantes nas fontes. Os recursos de AI e ML também permitem a descoberta de relacionamento de dados. Isso é essencial para a análise de impacto.

Os recursos de linhagem de dados baseados em IA podem ajudá-lo a entender mais do que relacionamentos de fluxo de dados. Ele também traz insights sobre relacionamentos de “controle”, como junções e modelos lógicos para físicos. Por exemplo, excluir uma coluna usada em uma junção pode impactar um relatório que depende dessa junção. Uma solução baseada em IA que infere junções pode ajudar a fornecer linhagem de dados de ponta a ponta. Isso permite uma análise de impacto mais completa, mesmo quando essas relações não são documentadas.

3. Extraia metadados profundos e linhagem de fontes de dados complexas

É um desafio obter visibilidade de ponta a ponta da linhagem de dados em um complexo cenário de dados corporativos. Um que normalmente inclui centenas de fontes de dados. Isso pode ser de bancos de dados locais, data warehouses e data lakes e sistemas de mainframe. Ou pode vir de aplicativos SaaS e ambientes multi-nuvem. Para uma linhagem de dados abrangente, você deve usar uma solução baseada em IA. Um que extrai automaticamente os metadados mais granulares de uma ampla variedade de sistemas corporativos complexos. Isso inclui software ETL, scripts SQL, linguagens de programação, código de procedimentos armazenados, código de modelos AI/ML e aplicativos considerados “caixas pretas”.

4. Forneça recursos diferentes para usuários diferentes

Fornecer aos seus usuários de negócios e usuários técnicos o tipo certo e o nível de detalhes sobre seus dados é vital. Isso os ajuda a entender e confiar nele com maior confiança. Ter acesso aumenta sua produtividade e os ajuda a gerenciar dados. E vincula exibições de dados com informações lógicas e detalhadas subjacentes. Isso melhora a colaboração e diminui a carga sobre seus engenheiros de dados.

 

Créditos: Informatica