Você conhece o Dataform?

Dataform é uma ferramenta de gerenciamento e manipulação de dados que permite aos profissionais especializados a construir e manter pipelines de dados de forma eficaz e rápida. 

No final de 2020 o Google adquiriu o Dataform, e em 2022 a ferramenta foi lançada em preview com algumas das funcionalidades da versão antiga do Dataform. 

Em maio de 2023, o Dataform foi lançado em GA, assim implementando algumas funcionalidades importantes que faltavam da versão antiga da ferramenta, como a capacidade de criar agendamentos de workflows. Desde sua implementação no Google Cloud, o Dataform possui uma interface nova integrada ao Google Cloud e que se localiza dentro do serviço do BigQuery.

Com o objetivo de reduzir esse esforço, o Dataform apresenta uma solução que permite criar transformações de dados e criação de pipelines de dados complexos, utilizando a linguagem SQL. Isso significa que os profissionais podem se concentrar no desenvolvimento de suas habilidades em SQL, eliminando a necessidade de aprender múltiplas linguagens para executar tarefas de transformação de dados. Essa abordagem torna o processo mais eficiente, reduzindo o tempo e os custos associados à implementação de pipelines de transformação de dados com o Dataform.

O Dataform permite realizar as seguintes ações de transformação de dados:

  • Desenvolva e execute fluxos de trabalho SQL para transformação de dados.
  • Colabore com membros da equipe no desenvolvimento de fluxos de trabalho SQL com o Git.
  • Gerenciar um grande número de tabelas e as dependências delas.
  • Declarar dados de origem e gerenciar dependências de tabela.
  • Confira uma visualização da árvore de dependências do seu fluxo de trabalho SQL.
  • Gerenciar dados com código SQL em um repositório central.
  • Reutilizar código com JavaScript.
  • Testar a exatidão dos dados com testes de qualidade nas tabelas de origem e de saída.
  • Código SQL de controle de versões.
  • Documentar tabelas de dados no código SQL.

Principais vantagens do Dataform:

  • Facilidade de uso: sendo uma ferramenta de baixo código que permite aos analistas criar pipelines de dados sem a necessidade de conhecimento de programação avançado.
  • Escalabilidade: é escalável para lidar com grandes conjuntos de dados e pipelines complexos.
  • Gerenciamento de dados: fornece recursos de gerenciamento de dados para garantir a qualidade e a consistência dos dados.
  • Controle de versão: usa o Git para controle de versão, o que permite aos analistas rastrear as alterações nos pipelines de dados.
  • Testes automatizados: permite aos analistas escrever testes automatizados para seus pipelines de dados.
  • Documentação: gera automaticamente documentação para pipelines de dados.

Reutilização de código no Dataform

A reutilização de código é uma das funcionalidades do Dataform que consiste em aproveitar trechos de código já escritos para criar novas transformações de dados, evitando a repetição e a inconsistência. A reutilização de código no Dataform pode ser feita de várias formas, tais como:

  • Usando declarações SQL parametrizadas, que permitem passar argumentos dinâmicos para uma consulta SQL e alterar o comportamento da transformação de acordo com o contexto.
  • Usando funções, que podem ser chamadas em qualquer lugar do projeto e que encapsulam a lógica comum ou complexa de uma transformação.
  • Usando includes, que são arquivos que contêm código SQL e/ou JavaScript que pode ser importado e executado em outros arquivos, facilitando a organização e a modularização do código.
  • Usando operações, que são tarefas que podem ser executadas antes ou depois de uma transformação, como copiar arquivos, enviar notificações ou executar testes.
  • Usando constantes para padronização o workflow

A reutilização de código no Dataform traz diversos benefícios para os desenvolvedores de dados, como:

  • Aumentar a produtividade e a eficiência, pois reduz o tempo e o esforço necessários para escrever e manter o código.
  • Melhorar a qualidade e a confiabilidade dos dados, pois evita erros e inconsistências causados pela duplicação de código.
  • Facilitar a colaboração e a integração, pois permite compartilhar e reutilizar o código entre diferentes membros da equipe e diferentes projetos.

Como parceiros oficiais do Google, trabalhamos em conjunto para coordenar todas as etapas do treinamento, implementação, suporte e outras etapas essenciais para a migração para a nuvem. Nossa missão é garantir que seu negócio se destaque em segurança e inovação para se tornar um Case de Sucesso.

Créditos: Guilherme Barros.

Fonte: Google.