Delta Lake UniForm

Un système de stockage hautement performant et indépendant du format pour votre data lakehouse ouvert

Démarrer Regarder la démo

Delta Lake : Up & Running, par O’Reilly

Guide détaillé sur les bases du Delta Lake

TÉLÉCHARGER MAINTENANT

Delta Lake UniForm unifie les données du lakehouse, quels que soient leur format et leur type, pour les mettre à disposition de toutes vos charges d'analytique et d'IA.

Ouvert et compatible avec tous les formats

Utilisez vos outils d'analytique et d'IA habituels quel que soit le format des données ouvertes. UniForm traduit automatiquement et instantanément d'un format à l'autre. Vous ne conservez ainsi qu'un seul exemplaire de vos données sources. Et vous pouvez utiliser votre client Iceberg ou Hudi habituel pour lire vos tables Delta par le biais du point de terminaison Unity Catalog. Avec UniForm, vos données restent portables et vous gardez toute votre indépendance vis-à-vis des fournisseurs.

Connecter les écosystèmes

Delta Lake s'accompagne d'un vaste écosystème de connecteurs et prend en charge de nombreux frameworks et langages différents. Delta Sharing est le premier protocole ouvert pour le partage sécurisé des données. Il permet d'échanger facilement des données avec d'autres organisations, quel que soit l'endroit où elles se trouvent. L'intégration native avec le Unity Catalog vous permet de gérer et d'auditer les données partagées dans toutes les organisations, de manière centralisée. Cela vous permet également de partager en toute confiance des assets de données avec vos fournisseurs et partenaires pour une meilleure coordination de votre activité, tout en répondant aux critères de sécurité et de conformité. Et grâce aux intégrations avec les principaux outils et plateformes, vous pouvez visualiser, interroger, enrichir et régir les données partagées à partir des outils de votre choix.

« Chez M Science, Delta Lake UniForm nous donne la possibilité d'écrire une seule version de nos données. Celles-ci peuvent ensuite être interrogées par n'importe quel moteur compatible avec Delta ou Iceberg. Cette flexibilité est indispensable pour réduire les coûts et les délais de rentabilisation. »

— Ben Tallman, Directeur technique, M Science

Des performances fiables et rapides

Delta Lake permet d'atteindre une échelle et une vitesse considérables. Les charges de données et les requêtes s'exécutent jusqu'à 1,7 fois plus rapidement qu'avec les autres formats de stockage. Utilisé en production par plus de 10 000 clients, Delta Lake est capable de traiter plus de 40 millions d'événements par seconde avec un seul pipeline. Ce sont plus de 5 exaoctets qui sont traités chaque jour avec Delta Lake.

Lorsque UniForm est activé sur des tables Delta Lake, l'écriture de métadonnées dans d'autres formats ne dégrade pas les performances des requêtes. Les tables UniForm offrent des performances de lecture comparables aux formats propriétaires utilisés avec leur moteur natif.

L'IA au service du rapport prix-performance

La Data Intelligence Platform de Databricks optimise vos données en fonctions de vos usages. Les améliorations de performance basées sur l'IA – alimentées par DatabricksIQ, le moteur d'intelligence des données de Databricks –, administrent, configurent et optimisent automatiquement vos données.

Le clustering fluide délivre les performances d'une table idéalement ajustée et partitionnée, sans les questions qui y sont traditionnellement associées. Ne vous demandez pas si vous pouvez partitionner des colonnes à haute cardinalité, ou combien vous coûteront les réécritures en cas de changement de colonne de partition. Le résultat : des tables extrêmement rapides, regroupées en clusters optimisés, avec un minimum de configuration.

L'optimisation prédictive organise automatiquement vos données pour parvenir au meilleur rapport prix-performance. Elle apprend vos habitudes d'utilisation, élabore un plan d'optimisation puis le met à exécution sur une infrastructure serverless hyperoptimisée.

« Les optimisations prédictives de Databricks ont intelligemment équilibré le stockage de notre Unity Catalog. Cela nous a permis de diviser par deux nos coûts annuels de stockage, tout en doublant, voire plus, la vitesse de nos requêtes. Il a appris à donner la priorité aux tables les plus volumineuses et à celles que nous utilisons le plus souvent. Tout cela automatiquement, ce qui a fait gagner un temps précieux à notre équipe. »

— Shu Li, Data Engineering Lead, Anker

Sécurité et gouvernance à l'échelle

Delta Lake réduit les risques grâce à une gouvernance des données reposant sur la finesse des contrôles d'accès, ce qui n'est en principe pas possible avec les data lakes. Vous pouvez mettre à jour rapidement et avec précision les données de votre data lake pour vous conformer à des réglementations comme le RGPD. Vous maintenez aussi une meilleure gouvernance des données grâce à la journalisation des audits. Ces fonctionnalités sont nativement intégrées et améliorées pour Databricks dans le cadre du Unity Catalog, le premier catalogue de données multicloud pour le Lakehouse.

Data engineering automatisé et fiable

Simplifiez votre data engineering avec Delta Live Tables. Ce framework vous permet de construire et de gérer facilement des pipelines afin d'obtenir des données fraîches et de grande qualité sur Delta Lake. Delta Live Tables aide les équipes de data engineering à simplifier le développement et la gestion de l'ETL, grâce à la création de pipelines déclaratifs, à l'amélioration de la fiabilité des données et la mise en place d'opérations de production à l'échelle du Cloud. Cela facilite aussi la construction des fondations de Lakehouse.

Cas d’utilisation

En savoir plus

Unity Catalog

Delta Sharing

DatabricksIQ

Clients

« Databricks nous a fourni les analyses, les délais de mise sur le marché et le coup de pouce opérationnel dont nous avions besoin pour répondre aux nouvelles exigences du secteur de la santé. » – Peter James, Architecte en chef, Healthdirect Australia

« En exploitant Databricks et Delta Lake, nous avons déjà pu démocratiser les données à l'échelle, tout en réduisant de 60 % le coût d'exécution des tâches de production, ce qui nous fait économiser des millions de dollars. »
- Steve Pulec, Directeur technique, YipitData

« »Delta Lake offre des fonctionnalités ACID qui simplifient les opérations de pipeline de données afin d'améliorer la fiabilité et la cohérence des données. Parallèlement, des fonctionnalités telles que la mise en cache et l'indexation automatique permettent un accès efficace et performant aux données. »
- Lara Minor, Senior Enterprise Data Manager, Columbia Sportswear

« Delta Lake a créé une approche simplifiée de la gestion des pipelines de données. Nous avons ainsi pu réduire les coûts opérationnels tout en accélérant la production d'analyses et les processus de data science. »
- Parijat Dey, Vice-président adjoint, en charge de la transformation numérique et de la technologie, Viacom18