Delta Lake UniForm

Armazenamento de alto desempenho e independente de formato para seu lakehouse de dados abertos

Introdução Assista à demonstração

Delta Lake: em funcionamento por O'Reilly

Orientação passo a passo sobre os conceitos básicos do Delta Lake

Baixar

O Delta Lake UniForm unifica os dados em seu lakehouse, em todos os formatos e tipos, para todas as suas cargas de trabalho de analítica e IA.

Aberto em todos os formatos

Use suas ferramentas de analítica e IA existentes, independentemente do formato de dados abertos. O UniForm traduz automática e instantaneamente entre formatos, para que você possa manter uma única cópia dos dados de origem e ainda usar seu cliente Iceberg ou Hudi favorito para ler suas tabelas Delta por meio do endpoint do Unity Catalog. Com o UniForm, seus dados permanecem portáteis, sem dependência do provedor.

Conectado entre ecossistemas

O Delta Lake tem um vasto ecossistema de conectores e é compatível com vários frameworks e linguagens. O Delta Sharing é o primeiro protocolo aberto do setor para compartilhamento seguro de dados, facilitando compartilhar dados com outras organizações, independentemente de onde os dados estejam. A integração nativa com o Unity Catalog permite gerenciar e auditar centralmente os dados compartilhados entre as organizações. Ela também permite que você compartilhe com confiança ativos de dados com fornecedores e parceiros para uma melhor coordenação dos seus negócios, atendendo aos critérios de segurança e compliance. E, por meio de integrações com as principais ferramentas e plataformas, você pode visualizar, consultar, enriquecer e governar dados compartilhados de suas ferramentas de escolha.

“Na M Science, o Delta Lake UniForm nos oferece a flexibilidade de escrever uma única cópia de nossos dados que pode ser consultada por qualquer mecanismo compatível com Delta ou Iceberg — essa é a chave para reduzir custos e acelerar o tempo de retorno do investimento.”

— Ben Tallman, diretor de tecnologia, M Science

Desempenho rápido e confiável

O Delta Lake oferece grande escala e velocidade, com cargas de dados e consultas sendo executadas até 1,7 vez mais rápido do que com outros formatos de armazenamento. Usado na produção por mais de 10.000 clientes, o Delta Lake escala para processar mais de 40 milhões de eventos por segundo em um único pipeline. Mais de 5 exabytes/dia são processados usando o Delta Lake.

Quando o UniForm está habilitado em tabelas Delta Lake, a gravação de outros metadados de formato não compromete o desempenho da consulta. As tabelas UniForm oferecem desempenho de leitura equivalente ao dos formatos proprietários em seus mecanismos nativos.

Orientado por IA para melhor relação preço/desempenho

A Databricks Data Intelligence Platform otimiza seus dados com base em seus padrões de uso. Aprimoramentos de desempenho orientados por IA — desenvolvidos pelo DatabricksIQ, o mecanismo de inteligência de dados para Databricks — administram, configuram e ajustam automaticamente seus dados.

O clustering líquido oferece o desempenho de uma tabela bem ajustada e particionada sem as dores de cabeça tradicionais que vêm com o particionamento, como a preocupação com a possibilidade de particionar colunas de alta cardinalidade ou reescritas caras ao alterar colunas de partição. O resultado são tabelas rápidas e bem agrupadas com configuração mínima.

A otimização preditiva otimiza automaticamente seus dados para obter o melhor desempenho e preço. Ela aprende com seus padrões de uso de dados, cria um plano para as otimizações corretas a serem realizadas e, em seguida, executa essas otimizações em uma infraestrutura serverless hiperotimizada.

“As otimizações preditivas da Databricks otimizaram de forma inteligente nosso armazenamento do Unity Catalog, o que gerou economias de 50% em custos anuais de armazenamento e acelerou nossas consultas em mais de 2x. Elas aprenderam a priorizar nossas maiores e mais acessadas tabelas. E tudo isso automaticamente, economizando um tempo valioso da nossa equipe."

— Shu Li, líder de engenharia de dados, Anker

Segurança e governança em escala

O Delta Lake reduz o risco pois permite uma governança de dados com base em controles de acesso refinados, o que, tipicamente, não é possível em data lakes. Você pode atualizar com rapidez e precisão os dados em seu data lake para cumprir regulamentos como a GDPR e manter uma melhor governança de dados por meio de logs de auditoria. Esses recursos são integrados nativamente e aprimorados no Databricks como parte do Unity Catalog, o primeiro catálogo de dados multicloud para o lakehouse.

Data engineering automatizada e confiável

Simplifique sua engenharia de dados com Delta Live Tables — uma maneira fácil de criar e gerenciar pipelines de dados para obter dados novos e de alta qualidade no Delta Lake. As Delta Live Tables ajudam as equipes de data engineering a simplificar o desenvolvimento e o gerenciamento de ETL por meio da criação de pipelines declarativos, que aumentam a confiabilidade dos dados facilitam o estabelecimento de operações de produção em escala de nuvem, auxiliando na construção da fundação do lakehouse.

Casos de uso

Saiba mais

Descubra mais

Unity Catalog

Saiba mais

Delta Sharing

Saiba mais

DatabricksIQ

Saiba mais

Clientes

“A Databricks nos ajudou a diminuir nosso tempo de ida ao mercado, melhorar a utilização de analytics e de nossa operação para atender às novas demandas do setor de saúde.”
– Peter James, arquiteto-chefe, Healthdirect Australia

Saiba mais

“Aproveitando o Databricks e o Delta Lake, já conseguimos democratizar os dados em escala e, ao mesmo tempo, reduzir o custo de execução de cargas de trabalho de produção em 60%. Isso nos poupou milhões de dólares.”
— Steve Pulec, diretor de tecnologia, YipitData

Saiba mais

“O Delta Lake provê as transações ACID que simplificam as operações de pipeline para melhorar a confiabilidade e a consistência dos dados. Ao mesmo tempo, recursos como cache e indexação automática permitem acesso eficiente e de alto desempenho aos dados.”
— Lara Minor, gerente sênior de dados empresariais, Columbia Sportswear

Saiba mais

“O Delta Lake criou uma abordagem simplificada para gerenciar pipelines de dados. Isso nos levou a reduzir custos operacionais e, ao mesmo tempo, acelerar a produção de insights e análises em nossos processos de data science.”
— Parijat Dey, vice-presidente assistente de transformação e tecnologia digital, Viacom18

Saiba mais