Os fundamentos da linhagem de dados na nuvem

Por que a linhagem de dados é um recurso crítico para organizações que desejam ser mais orientadas por dados? E por que esse recurso deve ser implantado na nuvem?

O que é linhagem de dados e por que é importante?

A linhagem de dados é uma representação visual do fluxo de dados que ajuda a rastrear os dados desde sua origem até seu destino. Ele permite que você entenda como os dados mudam durante sua jornada, ao longo de todo o seu ciclo de vida. O Lineage ajuda a esclarecer as informações sobre a disponibilidade, propriedade, segurança e qualidade dos dados conforme eles fluem pela organização.

À medida que as organizações trabalham para serem mais orientadas por dados, torna-se cada vez mais crítico entender de onde os dados se originam, suas transformações e como estão sendo usados. A linhagem de dados fornece a transparência necessária para que os usuários tenham confiança nos dados que estão usando, o que é fundamental para alimentar iniciativas orientadas por dados.

Por que a linhagem de dados na nuvem é essencial?

A implantação da linhagem de dados como um recurso nativo da nuvem, assim como outras soluções na nuvem, oferece muitas vantagens. Um dos maiores benefícios é a aceleração do tempo de retorno: para muitos projetos, o simples provisionamento da infraestrutura necessária é extremamente demorado. Como você não precisa implantar e/ou gerenciar uma infraestrutura complexa com uma oferta nativa da nuvem, isso reduz significativamente o tempo entre a aquisição da solução e o momento em que os usuários podem extrair valor.

Outros benefícios incluem a flexibilidade para dimensionar recursos conforme necessário e liberar pessoal que, de outra forma, estaria gerenciando servidores, patches e atualizações, permitindo que eles se concentrem em tarefas de maior valor e recompensas. Você também pode acessar novos recursos automaticamente e imediatamente à medida que são lançados.

Quais são os diferentes tipos de linhagem de dados?

Uma ampla variedade de partes interessadas pode utilizar e se beneficiar da linhagem de dados. E a apresentação da linhagem pode variar de acordo com a persona, pois públicos diferentes têm necessidades diferentes.

A linhagem de negócios oferece uma visão resumida das fontes de dados e transformações. As partes interessadas nos negócios que criam relatórios financeiros ou geram painéis de marketing, por exemplo, querem saber se podem confiar e usar os dados subjacentes.

A linhagem técnica exibe os detalhes granulares que as partes interessadas técnicas desejam, pois geralmente utilizam a linhagem para iniciativas como a migração de dados para a nuvem. As equipes técnicas apreciam uma grande quantidade de detalhes, pois precisam entender de forma abrangente o impacto da implantação de novos sistemas, por exemplo.

Quais são alguns casos de uso típicos para linhagem de dados?

Embora haja uma coleção diversificada de casos de uso para linhagem de dados, algumas das perguntas mais comuns respondidas pela linhagem de dados incluem:

  • Conformidade regulatória: “Quais dados na minha empresa precisam estar em conformidade com regulamentos como a Lei Geral de Proteção de Dados (LGPD)?”
  • Modernização da nuvem: “Quais dados devemos migrar para um data warehouse na nuvem — e quais usuários serão afetados pela mudança?”
  • Análise: “Onde nossos cientistas de dados devem procurar dados confiáveis ​​que possam usar em projetos de análise avançada?”
  • Experiência do cliente: “Quais fontes de dados devemos usar para desenvolver novas iniciativas de experiência do cliente?”
  • Gerenciamento de mudanças e análise de impacto: “Quais relatórios serão afetados se eu modificar esta fonte de dados?”
  • Governança de IA: “Quais dados foram usados ​​para treinar e validar o modelo de IA? Quais aplicativos downstream estão usando esse modelo para tomada de decisão?”

Quais são os recursos obrigatórios para uma ferramenta de linhagem de dados?

Uma solução robusta de linhagem de dados deve ser capaz de oferecer suporte à junção automática de linhagem de dados de várias fontes. A varredura automatizada é a primeira, e talvez a mais crítica, etapa da captura da linhagem de dados. A definição manual da linhagem não apenas consumiria muitos recursos, mas também seria suscetível a erros. Além disso, a saída provavelmente ficaria desatualizada logo após ser documentada (e difícil de manter) devido a ambientes em constante mudança.

Para atender às demandas de hoje, uma solução completa deve ser capaz de derivar automaticamente a linhagem de ponta a ponta de uma grande quantidade de fontes de dados diversas e fragmentadas — tanto na nuvem quanto no local. Idealmente, a solução também deve automatizar a captura de detalhes detalhados da transformação de dados de fontes, incluindo scripts SQL, procedimentos armazenados, relatórios de inteligência de negócios e tarefas ETL.

Quais são os benefícios da linhagem de dados?

Conforme mencionado anteriormente, um dos principais benefícios da linhagem de dados é entender seus dados e aumentar a confiança nos dados que alimentam sua análise e IA. A linhagem de dados fornece a transparência necessária para oferecer suporte a análises de autoatendimento e iniciativas de IA. Ele também pode ajudar no gerenciamento da conformidade regulatória e na mitigação de riscos, além de obter visibilidade e insights de ponta a ponta para conduzir um gerenciamento de mudanças eficaz.

Em última análise, a linhagem de dados, dentro de uma solução de catálogo de dados inteligente , fornece as informações necessárias para melhorar a inteligência de dados geral. As organizações podem aproveitar essa inteligência de dados abrangente para ajudar a fazer recomendações preditivas que ajudam a:

  • Acelere e automatize a governança de dados para fornecer dados confiáveis
  • Habilite programas de compartilhamento de dados que capacitam os consumidores de dados a interagir com os dados
  • Gere análises, IA e resultados de negócios com dados confiáveis



Créditos: Informatica.