Data Engineering

Produktionsreife Datenpipelines für Analytics und KI

Erfassen Sie Batch- und Streaming-Daten in einfacher Weise auf der Databricks Data Intelligence Platform. Orchestrieren Sie zuverlässige Produktionsabläufe, während Databricks Ihre Infrastruktur automatisch umfassend verwaltet und Ihnen einheitliche Governance bietet. Beschleunigen Sie Innovation, indem Sie die Produktivität Ihres Teams mit einer integrierten, KI-gesteuerten Intelligence-Engine steigern, die Ihre Daten und Ihre Pipelines versteht.

„Wir sind in der Lage, enorme Mengen an strukturierten und unstrukturierten Daten aus unterschiedlichen Systemen zu erfassen, zu standardisieren und daraus dann ML-Modelle zu erstellen, die Warnhinweise und Empfehlungen liefern, mit denen wir die Beschäftigten in unseren Call Centern, Filialen und online unterstützen.“

– Kate hopkins, Vice president, AT&T

Mehr Informationen

Verwandte Produkte

Delta Live Tables

Databricks Workflows

Datenstreaming

Databricks Assistant

Unity Catalog

Delta Lake

Verwaltete Datenpipelines

Daten müssen erfasst und transformiert werden, um sie für Analysen und KI aufzubereiten. Mit Delta-Live-Tables (DLT) bietet Databricks leistungsstarke Datenpipeline-Funktionen für Data Engineers, Data Scientists und Analysten. DLT ist das erste Framework, das mithilfe eines einfachen, deklarativen Ansatzes Datenpipelines für Batch- oder Streaming-Daten erstellt. Gleichzeitig automatisiert es komplexe betriebliche Aufgaben wie Infrastrukturmanagement, Orchestrierung, Fehlerbehandlung, Wiederherstellung und Leistungsoptimierung. Mit DLT können Engineers ihre Daten als Code behandeln und Best Practices der Softwareentwicklung anwenden: Tests, Monitoring und Dokumentation. So lassen sich zuverlässige Pipelines in großer Zahl bereitstellen.

„[Dank DLT] kooperiert das Team jetzt wunderbar. Tag für Tag profitieren neue Storys und Workloads von der Pipeline.“

– Dr. Chris Inkpen, Global Solutions Architect, Honeywell Energy & Environmental Solutions

honeywell logo

Mehr Informationen

Vereinheitlichte Workflow-Orchestrierung

Databricks Workflows bietet eine einfache und zugleich verlässliche Orchestrierungslösung für Daten und KI auf der Data Intelligence Platform. Mit Databricks Workflows können Sie mehrstufige Workflows definieren, um ETL-Pipelines, ML-Trainingsworkflows und mehr zu implementieren. Die Lösung bietet optimierte Steuerungsmöglichkeiten und unterstützt verschiedene Aufgabentypen und Triggeroptionen. Als plattformeigener Orchestrator bietet Databricks Workflows außerdem fortschrittliche Funktionen für Monitoring, Visualisierung der Workflow-Ausführung und Warnungen bei Problemen. Optionen für Serverless Compute ermöglichen die Nutzung einer intelligenten Skalierung sowie eine effiziente Taskausführung.

„Mit Databricks Workflows ist der technische Aufwand geringer, und das hat immer schnellere und einfachere Implementierungen zur Folge. Es ist einfach bequemer, alles an einem zentralen Ort zu haben.“

— Ivo van de Grift, Data Team Tech Lead, Ahold Delhaize (Etos)

ahold delhaize logo

Mehr Informationen

Powered by Data Intelligence

DatabricksIQ ist die Data-Intelligence-Engine, die KI in alle Bereiche der Data Intelligence Platform einbringt, um die Produktivität von Data Engineers durch Tools wie Databricks Assistant zu steigern. Mithilfe von generativer KI und eines umfassenden Verständnisses Ihrer Databricks-Umgebung kann Databricks Assistant SQL- oder Python-Code generieren oder aufschlüsseln, Probleme erkennen und Lösungsvorschläge geben. DatabricksIQ erfasst außerdem Ihre Pipelines und kann sie mithilfe von intelligenter Orchestrierung und Ablaufverwaltung so optimieren, dass Sie Serverless Compute nutzen können.

Die Streaming-Engine der nächsten Generation

Apache Spark™ Structured Streaming ist die beliebteste Open-Source-Streaming-Engine weltweit. Sie wird von vielen Unternehmen im Open-Source-Bereich genutzt und ist die grundlegende Technologie für Streaming-Datenpipelines auf Databricks, dem wohl geeignetsten Umfeld für die Ausführung von Spark-Workloads. Spark Structured Streaming implementiert eine zentrale, einheitliche API für die Batch- und Stream-Verarbeitung, sodass Streaming-Daten-Workloads bequem implementiert werden können, ohne Code ändern oder neue Kompetenzen erwerben zu müssen. Wechseln Sie unkompliziert zwischen fortlaufender und getriggerter Verarbeitung, um Optimierungen wahlweise mit Blick auf die Latenz oder die Kosten vorzunehmen.

Mehr Informationen

Modernste Data Governance, Zuverlässigkeit und Leistung

Data Engineering auf Databricks bedeutet, dass Sie von den grundlegenden Komponenten der Data Intelligence Platform – Unity Catalog und Delta Lake – profitieren. Ihre Rohdaten sind für Delta Lake optimiert, ein Open-Source-Speicherformat, das durch ACID-Transaktionen Zuverlässigkeit garantiert und skalierbare Metadatenbearbeitung mit rasanter Performance verknüpft. In Kombination mit Unity Catalog erhalten Sie differenzierte Governance für alle Ihre Daten- und KI-Assets. So wird die Art und Weise, wie Sie Governance durchsetzen, mit einem einheitlichen Modell vereinfacht, um Daten cloudübergreifend zu entdecken, abzurufen und zu teilen. Zudem bietet Unity Catalog native Unterstützung für Delta Sharing, das branchenweit erste offene Protokoll für den einfachen und sicheren Datenaustausch mit anderen Unternehmen.

Ausbildung zum Data Engineer ansehen

Kompetenzen erweitern mit On-Demand-Schulungen über die Databricks Academy

Jetzt anfangen zu lernen

Integrationen

Machen Sie sich ein offenes Ökosystem mit Technologiepartnern zunutze, um eine nahtlose Integration mit branchenführenden Data-Engineering-Tools zu ermöglichen.

Datenaufnahme und ETL

+ jeder sonstige Apache Spark™-kompatible Client

Kunden

„Immer wieder stellen wir fest, dass wir selbst bei den scheinbar anspruchsvollsten Fragen einen Data Engineer ohne jeglichen Datenkontext auf eine Datenpipeline ansetzen können und dann im Handumdrehen die benötigten Antworten erhalten.“
– Barb MacLean, Senior Vice President, Coastal Community Bank

Blog lesen

„Delta Live Tables hat unser Entwicklungstempo erheblich beschleunigt. Früher mussten wir komplizierte ETL-Prozesse nutzen, um aus Rohdaten aufbereitete Informationen zu gewinnen. Heute haben wir nur ein einfaches Notebook, das diese Aufgabe erledigt, und dann transformieren wir die Daten mit Delta Live Tables nach Bedarf in die Silber- oder Goldschicht.“
– Advait Raje, Teamleiter Data Engineering, Trek Bicycle

Blog lesen

„Wir verwenden Databricks Workflows als standardmäßiges Orchestrierungstool für ETL und die Automatisierung von etwa 300 Jobs, von denen ca. 120 regelmäßig ausgeführt werden sollen.“
– Robert Hamlet, Lead Data Engineer, Enterprise Data Services, Cox Automotive

Blog lesen

„Unser Bestreben, das Preis-Leistungs-Verhältnis zu optimieren, wurde von Databricks voll und ganz erfüllt. Die Data Intelligence Platform hat uns geholfen, Kosten zu senken, ohne Abstriche bei der Verarbeitung gemischter Workloads machen zu müssen. So können wir den Daten- und KI-Betrieb heute und auch in Zukunft optimieren.“
– Mohit Saxena, Mitbegründer und Group CTO, InMobi

Blog lesen

FAQ

Was ist Data Engineering?

Als Data Engineering bezeichnet man die Verarbeitung von Rohdaten aus einer Datenquelle, damit sie für einen nachgelagerten Anwendungsfall – wie Datenanalyse, Business Intelligence (BI) oder Machine-Learning-Modelle (ML) – in geeigneter Weise gespeichert und organisiert werden können. Anders ausgedrückt: Es geht darum, Daten so aufzubereiten, dass aus ihnen ein Mehrwert generiert werden kann. Ein Beispiel für ein gängiges Data-Engineering-Muster ist ETL (Extrahieren, Transformieren, Laden). Hierbei wird eine Datenpipeline definiert, die Daten aus einer Datenquelle extrahiert, sie transformiert und dann in ein Zielsystem wie beispielsweise ein Data Warehouse lädt (also dort speichert).

Was ist eine Datenpipeline?

Was ist Daten-Streaming?

Welche Data-Engineering-Funktionen bietet Databricks?

Ressourcen

Möchten Sie loslegen?

Kostenlos testen Mitglied der Community werden

Data Engineering

Produktionsreife Datenpipelines für Analytics und KI

Verwandte Produkte

Belastbare Daten aus zuverlässigen Pipelines

Optimales Preis-Leistungs-Verhältnis

Demokratisierter Datenzugriff

Entwickeln auf der Data Intelligence Platform

Verwaltete Datenpipelines

Vereinheitlichte Workflow-Orchestrierung

Powered by Data Intelligence

Die Streaming-Engine der nächsten Generation

Modernste Data Governance, Zuverlässigkeit und Leistung

Integrationen

Kunden

FAQ

Ressourcen

E-Books und Whitepapers

Blogposts und Veranstaltungen

Demos und Dokumente

Möchten Sie loslegen?