Melhore o desempenho da integração de dados na nuvem e reduza custos com otimização avançada de empilhamento
Em sua jornada de análise baseada em nuvem, você provavelmente está usando ETL (extrair, transformar, carregar) ou ELT (extrair, carregar, transformar) para mover dados de seus sistemas de negócios baseados em transações (como ERP ou CRM) para uma nuvem -data lake nativo e/ou data warehouse. Nesse caso, tenho certeza de que você também está procurando maneiras de economizar tempo, melhorar o desempenho e reduzir custos.
Se você usa ETL ou ELT para seu pipeline de dados, você precisa transformar seus dados em algum momento para garantir que até mesmo os dados transacionais estejam prontos para análise. A principal diferença com o ETL é que a extração e a transformação acontecem antes de carregar os dados no data warehouse. Com o ELT, os dados são carregados primeiro em um data lake ou área de preparação de data warehouse e, em seguida, alguma lógica de transformação é usada para enviar os dados transformados para o data warehouse.
A transformação de dados é uma etapa vital, independentemente de você escolher ETL ou ELT . Os dados que você extrai estão em um estado otimizado para atualizações de transações ou projetado para representação orientada a objetos de entidades, o que geralmente não é útil para consumo de análise. Dito isso, é provável que você esteja usando alguma lógica de transformação (muitas vezes muito intensiva em computação) para remodelar seus dados transacionais em um estado que cientistas de dados, engenheiros de ML e analistas de dados possam usar.
É aqui que a otimização avançada de empilhamento pode ajudar.
O que é otimização avançada de empilhamento?
A otimização de empilhamento avançada (APDO) é uma técnica de otimização de custo e desempenho em que, em vez de executar a lógica de transformação dentro do mecanismo ETL de terceiros, a lógica é traduzida em comandos SQL ou específicos do ecossistema da nuvem e enviada para o data warehouse na nuvem. Isso elimina as tarefas demoradas de retirá-lo da infraestrutura de nuvem, transformá-lo e movê-lo de volta para a nuvem novamente. E o tempo de processamento geral reduzido reduz o custo de saída de dados, resultando em um custo-benefício significativo para o cliente.
Sem falar que a nuvem veio para ficar. Em uma pesquisa recente da Accenture, 90% dos executivos de negócios e TI concordam que, para serem ágeis e resilientes, suas organizações precisam acelerar sua transformação digital com a nuvem em seu núcleo. Acreditamos que o uso do APDO pode ajudá-lo a ter sucesso em suas iniciativas de gerenciamento de dados baseados em nuvem .
Então, como funciona o APDO?
Vamos considerar o seguinte caso de uso, em que os dados estão sendo transportados do Azure Data Lake Storage Gen2 (ADLS Gen2), a origem, para o Snowflake, o destino. Uma maneira de abordar isso é extrair e extrair os dados do ADLS Gen2 para um mecanismo ETL de terceiros, realizar todas as transformações e, em seguida, mover (novamente) os dados de volta para o data warehouse. Isso requer uma movimentação bidirecional de dados de e para sua infraestrutura de nuvem, resultando em custos significativos de rede e E/S de dados.
Com o APDO, todas as transformações subjacentes são traduzidas em comandos e instruções SQL específicos do ecossistema e, em seguida, são executadas na própria infraestrutura de nuvem subjacente. Aqui, você não precisa mover os dados para fora da infraestrutura de nuvem para transformar os dados.
Abaixo estão os exemplos de instruções SQL e mapeamento que foram acionados nos bastidores e executados na própria plataforma de nuvem:
Para saber mais sobre como o APDO ajuda a reduzir custos e acelerar o processamento de dados, assista a este pequeno vídeo .
Principais Benefícios da Otimização Avançada de Empilhamento da Informatica
Embora a redução de custos devido à saída zero de dados continue sendo um dos principais benefícios do uso do APDO, também existem outras vantagens:
- Sem dependência de fornecedor: Ao contrário de outros fornecedores de ELT proeminentes, o recurso APDO da Informatica não está conectado a nenhum fornecedor específico de data warehouse em nuvem. Na verdade, oferecemos suporte a todas as principais plataformas de nuvem e principais data warehouses, incluindo Amazon Redshift , Microsoft Azure Synapse Analytics , Snowflake , Databricks e Google BigQuery . Isso ajuda você a permanecer fracamente acoplado à infraestrutura subjacente, portanto, se você quiser mudar de provedores de nuvem e/ou data warehouse ao longo de sua jornada de dados, poderá fazê-lo sem problemas.
- Desempenho aprimorado: como não há transporte de dados para dentro e para fora de sua infraestrutura de nuvem e o processamento é feito usando computação em nuvem elástica, o desempenho melhorará significativamente. Em nossos testes internos, descobrimos que o APDO é até 50 vezes mais rápido que o ETL tradicional para alguns casos de uso.
- Vários conectores: conforme declarado, o APDO da Informatica oferece suporte a todas as principais plataformas de nuvem, data lakes e data warehouses. Isso é importante porque garante amplo suporte à conectividade.
- Ativação sem código: A ativação do APDO no Informatica Cloud Data Integration é simples e não requer comandos complexos. Tudo o que você precisa fazer é selecionar “empilhamento avançado” como a opção de tempo de execução em uma simples opção suspensa na GUI.
- Suporte à transformação: a Informatica oferece suporte a todas as transformações comumente usadas em forma de empilhamento (por exemplo, filtros, sequência, consulta personalizada e upserts) e algumas regras de transformação avançadas, como roteador, união e classificador. Também oferecemos suporte a padrões, como dimensão de mudança lenta (SCD), que contém dados relativamente estáticos que podem mudar lentamente, mas de forma imprevisível, em vez de de acordo com uma programação regular. 2
Principais casos de uso para APDO
Existem dois casos de uso principais para APDO. Ambos permitem maximizar o valor de seu investimento existente em um data warehouse em nuvem, aproveitando seu poder de processamento escalável:
- Empilhamento do ecossistema:abrange a movimentação e transformação de dados entre um data lake e um data warehouse. Na Figura 4, a Informatica lê os dados de data lakes como Amazon S3 ou ADLS e usa comandos de ecossistema de nuvem para mover dados para o data warehouse de nuvem.
- Empilhamento de data warehouse na nuvem: nesse caso de uso, a movimentação de dados ocorre em um data warehouse na nuvem, como Amazon Redshift, Azure Synapse, Google BigQuery ou Snowflake. Conforme mostrado na Figura 5, toda a lógica de transformação é traduzida em instruções SQL e executada no data warehouse na nuvem.
Veja a otimização de empilhamento avançada em ação
Se você está usando o Informatica Cloud Data Integration ou deseja trazer integração escalável, econômica e produtiva para sua arquitetura de dados, o APDO é essencial para atender às suas necessidades de gerenciamento de dados em nuvem.
A ATRA tem parceria com a Informatica® para oferecer os melhores produtos e serviços em integração de dados, migração de dados, movimentação de dados, Information Lifecycle Management e Master Data Management. Quer saber mais? Entre em contato conosco!
Créditos: Informatica