Data Engineering

Pipelines de dados prontos para produção para análise e IA

Insira e transforme facilmente dados em lote e de transmissão na Databricks Data Intelligence Platform. Orquestre fluxos de trabalho de produção confiáveis enquanto a Databricks gerencia automaticamente sua infraestrutura em escala e fornece governança unificada. Acelere a inovação aumentando a produtividade da sua equipe com um mecanismo de inteligência integrado alimentado por IA que entende seus dados e seus pipelines.

Saiba mais

“Somos capazes de ingerir grandes quantidades de dados estruturados e não estruturados provenientes de diferentes sistemas, padronizá-los e, em seguida, criar modelos de ML que fornecem alertas e recomendações que capacitam os funcionários em nossos call centers, lojas e online.”

— Kate Hopkins, vice-presidente, AT&T

Saiba mais

Produtos relacionados

Delta Live Tables

Fluxos de trabalho da Databricks

Streaming de dados

Databricks Assistant

Unity Catalog

Delta Lake

Pipelines de dados gerenciados

Os dados precisam ser ingeridos e transformados para que fiquem prontos para análise e IA. A Databricks fornece poderosos recursos de pipeline de dados para engenheiros de dados, cientistas de dados e analistas com Delta Live Tables. O DLT é a primeira estrutura que utiliza uma abordagem declarativa simples para construir pipelines de dados em lote ou transmissão de dados, ao mesmo tempo em que automatiza complexidades operacionais, como gerenciamento de infraestrutura, orquestração de tarefas, tratamento e recuperação de erros e otimização de desempenho. Com os DLTs, a equipe de engenharia também pode tratar seus dados como código e aplicar as melhores práticas de engenharia de software como testes, monitoramento e documentação para criar pipelines confiáveis em escala.

“[Com o DLT], a equipe colabora muito bem agora, trabalhando em conjunto todos os dias para dividir o pipeline em suas próprias histórias e cargas de trabalho.”

— Dr. Chris Inkpen, Global Solutions Architect, Honeywell Energy & Environmental Solutions

honeywell logo

Saiba mais

Orquestração unificada de fluxo de trabalho

O Databricks Workflows oferece uma solução de orquestração simples e confiável para dados e IA na plataforma de inteligência de dados. O Databricks Workflows permite definir fluxos de trabalho de várias etapas para implementar pipelines de ETL, fluxos de trabalho de treinamento de ML e muito mais. Ele oferece recursos aprimorados de fluxo de controle e é compatível com diferentes tipos de tarefas e opções de acionamento. Como orquestrador nativo da plataforma, o Databricks Workflows também fornece observabilidade avançada para monitorar e visualizar a execução do fluxo de trabalho, além de recursos de alerta para quando surgirem problemas. As opções serverless compute permitem que você aproveite o dimensionamento inteligente e a execução eficiente de tarefas.

"Com o Databricks Workflows, temos uma pegada de tecnologia menor, o que sempre significa implantações mais rápidas e fáceis. É mais simples ter tudo em um só lugar.”

— Ivo Van de Grift, líder técnico da equipe de dados, Ahold Delhaize (Etos)

ahold delhaize logo

Saiba mais

Alimentado por inteligência de dados

O DatabricksIQ é o mecanismo de inteligência de dados que traz a IA para todas as partes da plataforma de inteligência de dados para aumentar a produtividade dos engenheiros de dados por meio de ferramentas como o Databricks Assistant. Utilizando IA generativa e uma compreensão abrangente do seu ambiente Databricks, o Databricks Assistant pode gerar ou explicar código SQL ou Python, detectar problemas e sugerir correções. O DatabricksIQ também entende seus pipelines e pode otimizá-los usando orquestração inteligente e gerenciamento de fluxo, fornecendo serverless compute.

Saiba mais

Mecanismo de transmissão de dados de última geração

O Apache Spark™ Structured Streaming é o mecanismo de transmissão de código aberto mais popular do mundo. Ele é amplamente adotado em organizações em código aberto e é a principal tecnologia que alimenta os pipelines de dados de transmissão no Databricks, o melhor lugar para executar cargas de trabalho do Spark. O Spark Structured Streaming fornece uma API única e unificada para processamento em lote e transmissão, facilitando a implementação de cargas de trabalho de dados de transmissão sem alterar o código ou aprender novas habilidades. Alterne facilmente entre processamento contínuo e acionado para otimizar a latência ou o custo.

Saiba mais

Governança, confiabilidade e desempenho de dados de última geração

Com a engenharia de dados no Databricks, você se beneficia dos componentes fundamentais da plataforma de inteligência de dados — Unity Catalog e Delta Lake. Seus dados brutos são otimizados com o Delta Lake, um formato de armazenamento de código aberto que fornece confiabilidade por meio de transações ACID e tratamento escalável de metadados com desempenho extremamente rápido. Isso se combina com o Unity Catalog, que inclui governança detalhada para todos os seus dados e ativos de IA, simplificando a forma como você governa, com um modelo consistente para descobrir, acessar e compartilhar dados entre as nuvens. O Unity Catalog também fornece suporte nativo para Delta Sharing, o primeiro protocolo aberto do setor para compartilhamento de dados fácil e seguro com outras organizações.

Explore o treinamento em engenharia de dados

Aprimore suas habilidades com treinamentos sob demanda pela Databricks Academy

Comece a aprender agora

Integrações

Aproveite um ecossistema aberto de parceiros tecnológicos para se integrar perfeitamente às ferramentas de engenharia de dados líderes do setor.

Ingestão de dados e ETL

+ qualquer outro cliente compatível com Apache Spark™

Clientes

“Repetidamente, descobrimos que, mesmo para as perguntas aparentemente mais desafiadoras, podemos contratar um engenheiro de dados sem contexto sobre os dados, direcioná-lo para um pipeline de dados e obter rapidamente as respostas de que precisamos.”
— Barb MacLean, vice-presidente sênior, Coastal Community Bank

Leia o blog

“O Delta Live Tables acelerou muito nossa velocidade de desenvolvimento. No passado, tínhamos que usar processos de ETL complicados para analisar dados brutos. Hoje, temos apenas um notebook simples que faz isso e, em seguida, usamos o Delta Live Tables para transformar os dados em Prata ou Ouro, conforme necessário.”
— Advait Raje, líder de equipe, engenharia de dados, Trek Bicycle

Leia o blog

“Usamos o Databricks Workflows como nossa ferramenta de orquestração default para realizar ETL e permitir a automação de cerca de 300 Jobs, dos quais aproximadamente 120 estão programados para serem executados regularmente.”
— Robert Hamlet, engenheiro-chefe de dados, serviços de dados corporativos, Cox Automotive

Leia o blog

"Nosso foco em otimizar o preço/desempenho foi atendido diretamente pela Databricks. A plataforma de inteligência de dados nos ajudou a reduzir custos sem sacrificar o desempenho em cargas de trabalho mistas, o que nos permite otimizar as operações de dados e IA hoje e no futuro."
— Mohit Saxena, cofundador e CTO do Grupo, InMobi

Leia o blog

Perguntas frequentes

O que é a engenharia de dados?

A engenharia de dados é a prática de pegar dados brutos de uma fonte de dados e processá-los para que sejam armazenados e organizados para um caso de uso posterior, como análise de dados, Business Intelligence (BI) ou treinamento em modelos de machine learning (ML). Em outras palavras, é o processo de preparar dados para que o valor possa ser extraído deles. Um exemplo de padrão comum de engenharia de dados é o ETL (extrair, transformar, carregar), que define um pipeline de dados que extrai dados de uma fonte de dados, os transforma e os carrega (ou armazena) em um sistema de destino, como um data warehouse.

O que é pipeline de dados?

O que é streaming de dados?

Quais recursos de engenharia de dados o Databricks oferece?

Recursos

Tudo pronto para começar?

Experimente gratuitamente Junte-se à comunidade

Data Engineering

Pipelines de dados prontos para produção para análise e IA

Produtos relacionados

Dados confiáveis de pipelines confiáveis

Custo/desempenho otimizado

Acesso democratizado aos dados

Construa na plataforma de inteligência de dados

Pipelines de dados gerenciados

Orquestração unificada de fluxo de trabalho

Alimentado por inteligência de dados

Mecanismo de transmissão de dados de última geração

Governança, confiabilidade e desempenho de dados de última geração

Integrações

Clientes

Perguntas frequentes

Recursos

e-books e whitepapers

Blogs e eventos

Demonstrações e documentos

Tudo pronto para começar?