Ir para o conteúdo principal

Data Engineering

Pipelines de dados prontos para produção para análise e IA

Insira e transforme facilmente dados em lote e de transmissão na Databricks Data Intelligence Platform. Orquestre fluxos de trabalho de produção confiáveis enquanto a Databricks gerencia automaticamente sua infraestrutura em escala e fornece governança unificada. Acelere a inovação aumentando a produtividade da sua equipe com um mecanismo de inteligência integrado alimentado por IA que entende seus dados e seus pipelines.

“Somos capazes de ingerir grandes quantidades de dados estruturados e não estruturados provenientes de diferentes sistemas, padronizá-los e, em seguida, criar modelos de ML que fornecem alertas e recomendações que capacitam os funcionários em nossos call centers, lojas e online.”

— Kate Hopkins, vice-presidente, AT&T
AT&T logo

Produtos relacionados

Operate from First Principles

Dados confiáveis de pipelines confiáveis

A validação integrada da qualidade dos dados e a confiabilidade comprovada da plataforma ajudam as equipes de dados a garantir que os dados estejam corretos, completos e atualizados para casos de uso downstream.

Raise the Bar

Custo/desempenho otimizado

A arquitetura lakehouse Serverless com inteligência de dados automatiza as operações complexas por trás da criação e execução de pipelines, eliminando as suposições e a sobrecarga manual das otimizações.

We Put the Company First

Acesso democratizado aos dados

Projetado para capacitar os profissionais de dados a gerenciar pipelines de lotes ou de transmissão — ingerindo, transformando e orquestrando dados de acordo com sua aptidão técnica, interface preferida e necessidade de ajuste fino — tudo em uma plataforma unificada.

multicloud

Construa na plataforma de inteligência de dados

A plataforma de inteligência de dados fornece a melhor base para construir e compartilhar ativos de dados confiáveis que são governados centralmente e extremamente rápidos.

demarketecture

Pipelines de dados gerenciados

Os dados precisam ser ingeridos e transformados para que fiquem prontos para análise e IA. A Databricks fornece poderosos recursos de pipeline de dados para engenheiros de dados, cientistas de dados e analistas com Delta Live Tables. O DLT é a primeira estrutura que utiliza uma abordagem declarativa simples para construir pipelines de dados em lote ou transmissão de dados, ao mesmo tempo em que automatiza complexidades operacionais, como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros e otimização de desempenho. Com os DLTs, a equipe de engenharia também pode tratar seus dados como código e aplicar as melhores práticas de engenharia de software como testes, monitoramento e documentação para criar pipelines confiáveis em escala.

“[Com o DLT], a equipe colabora muito bem agora, trabalhando em conjunto todos os dias para dividir o pipeline em suas próprias histórias e cargas de trabalho.”

— Dr. Chris Inkpen, Global Solutions Architect, Honeywell Energy & Environmental Solutions

honeywell logo

Orquestração unificada de fluxo de trabalho

O Databricks Workflows oferece uma solução de orquestração simples e confiável para dados e IA na plataforma de inteligência de dados. O Databricks Workflows permite definir fluxos de trabalho de várias etapas para implementar pipelines de ETL, fluxos de trabalho de treinamento de ML e muito mais. Ele oferece recursos aprimorados de fluxo de controle e é compatível com diferentes tipos de tarefas e opções de acionamento. Como orquestrador nativo da plataforma, o Databricks Workflows também fornece observabilidade avançada para monitorar e visualizar a execução do fluxo de trabalho, além de recursos de alerta para quando surgirem problemas. As opções serverless compute permitem que você aproveite o dimensionamento inteligente e a execução eficiente de tarefas.

"Com o Databricks Workflows, temos uma pegada de tecnologia menor, o que sempre significa implantações mais rápidas e fáceis. É mais simples ter tudo em um só lugar.”

— Ivo Van de Grift, líder técnico da equipe de dados, Ahold Delhaize (Etos)

ahold delhaize logo

Alimentado por inteligência de dados

O DatabricksIQ é o mecanismo de inteligência de dados que traz a IA para todas as partes da plataforma de inteligência de dados para aumentar a produtividade dos engenheiros de dados por meio de ferramentas como o Databricks Assistant. Utilizando IA generativa e uma compreensão abrangente do seu ambiente Databricks, o Databricks Assistant pode gerar ou explicar código SQL ou Python, detectar problemas e sugerir correções. O DatabricksIQ também entende seus pipelines e pode otimizá-los usando orquestração inteligente e gerenciamento de fluxo, fornecendo serverless compute.

Mecanismo de transmissão de dados de última geração

O Apache Spark™ Structured Streaming é o mecanismo de transmissão de código aberto mais popular do mundo. Ele é amplamente adotado em organizações em código aberto e é a principal tecnologia que alimenta os pipelines de dados de transmissão no Databricks, o melhor lugar para executar cargas de trabalho do Spark. O Spark Structured Streaming fornece uma API única e unificada para processamento em lote e transmissão, facilitando a implementação de cargas de trabalho de dados de transmissão sem alterar o código ou aprender novas habilidades. Alterne facilmente entre processamento contínuo e acionado para otimizar a latência ou o custo.

Governança, confiabilidade e desempenho de dados de última geração

Com a engenharia de dados no Databricks, você se beneficia dos componentes fundamentais da plataforma de inteligência de dados — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, um formato de armazenamento de código aberto que fornece confiabilidade por meio de transações ACID e tratamento escalável de metadados com desempenho extremamente rápido. Isso se combina com o Unity Catalog, que inclui governança detalhada para todos os seus dados e ativos de IA, simplificando a forma como você governa, com um modelo consistente para descobrir, acessar e compartilhar dados entre as nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto do setor para compartilhamento de dados fácil e seguro com outras organizações.

Integrações

Aproveite um ecossistema aberto de parceiros tecnológicos para se integrar perfeitamente às ferramentas de engenharia de dados líderes do setor.

Ingestão de dados e ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

Clientes

“Repetidamente, descobrimos que, mesmo para as perguntas aparentemente mais desafiadoras, podemos contratar um engenheiro de dados sem contexto sobre os dados, direcioná-lo para um pipeline de dados e obter rapidamente as respostas de que precisamos.”
— Barb MacLean, vice-presidente sênior, Coastal Community Bank

Leia o blog

“O Delta Live Tables acelerou muito nossa velocidade de desenvolvimento. No passado, tínhamos que usar processos de ETL complicados para analisar dados brutos. Hoje, temos apenas um notebook simples que faz isso e, em seguida, usamos o Delta Live Tables para transformar os dados em Prata ou Ouro, conforme necessário.”
— Advait Raje, líder de equipe, engenharia de dados, Trek Bicycle

Leia o blog

“Usamos o Databricks Workflows como nossa ferramenta de orquestração default para realizar ETL e permitir a automação de cerca de 300 Jobs, dos quais aproximadamente 120 estão programados para serem executados regularmente.”
— Robert Hamlet, engenheiro-chefe de dados, serviços de dados corporativos, Cox Automotive

Leia o blog

"Nosso foco em otimizar o preço/desempenho foi atendido diretamente pela Databricks. A plataforma de inteligência de dados nos ajudou a reduzir custos sem sacrificar o desempenho em cargas de trabalho mistas, o que nos permite otimizar as operações de dados e IA hoje e no futuro."
— Mohit Saxena, cofundador e CTO do Grupo, InMobi

Leia o blog

Perguntas frequentes

A engenharia de dados é a prática de pegar dados brutos de uma fonte de dados e processá-los para que sejam armazenados e organizados para um caso de uso posterior, como análise de dados, Business Intelligence (BI) ou treinamento em modelos de machine learning (ML). Em outras palavras, é o processo de preparar dados para que o valor possa ser extraído deles. Um exemplo de padrão comum de engenharia de dados é o ETL (extrair, transformar, carregar), que define um pipeline de dados que extrai dados de uma fonte de dados, os transforma e os carrega (ou armazena) em um sistema de destino, como um data warehouse.