データエンジニアリング

分析と AI のための本番運用対応データパイプライン

Databricks データインテリジェンスプラットフォームは、バッチ／ストリーミングデータを取り込み、変換を容易にします。インフラの自動スケーリング機能や統合ガバナンスを提供し、信頼性の高い本番ワークフローのオーケストレーションを可能にします。また、組み込みの AI で強化されたインテリジェンスエンジンがデータとパイプラインを理解し、生産性を向上させ、イノベーションを加速させます。

詳しく見る

「さまざまなシステムから送られてくる膨大な量の構造化・非構造化データを取り込み、標準化し、ML モデルを構築して、コールセンターや店舗、オンラインの従業員をサポートするアラートとレコメンデーションを提供できるようになりました。」

AT&T 社 VP Kate Hopkins 氏

詳しく見る

関連製品

Delta Live Tables

Databricks Workflows

データストリーミング

Databricks Assistant

Unity Catalog

Delta Lake

データパイプラインの管理

データを取り込んで変換し、分析や AI に利用できるようにする必要があります。Databricks は、Delta Live Tables により、データエンジニア、データサイエンティスト、アナリストに強力なデータパイプライン機能を提供します。DLT は、バッチデータやストリーミングデータに ETL および ML パイプラインを構築する、シンプルな宣言型アプローチを使用した初の ETL フレームワークです。インフラ管理、タスクオーケストレーション、エラー処理やリカバリ、性能の最適化といった複雑な運用タスクを自動化します。エンジニアは DLT を使用することで、データをコードとして扱うことができ、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し、信頼性の高いパイプラインを大規模に展開できます。

「（DLT の導入により）チームは見事に協力し合い、パイプラインを各自のストーリーと仕事量に分けながら毎日作業しています。」

Honeywell Energy & Environmental Solutions 社グローバルソリューションアーキテクト Chris Inkpen 博士

honeywell logo

詳しく見る

統合されたワークフローオーケストレーション

Databricks Workflows は、データインテリジェンスプラットフォーム上のデータと AI のためのシンプルで信頼性の高いオーケストレーションソリューションを提供します。Databricks Workflows では、マルチステップワークフローを定義して、ETL パイプラインや ML トレーニングワークフローなどを実装できます。制御フロー機能が強化され、さまざまなタスクタイプとトリガーオプションがサポートされます。Databricks Workflows は、プラットフォームネイティブのオーケストレータとして、ワークフローの実行を監視・可視化する高度な観測機能と、問題発生時のアラート機能を提供します。サーバーレスコンピュートオプションは、スマートなスケーリングと効率的なタスク実行を可能にします。

「Databricks Workflows を使用することで、技術的なフットプリントが小さくなり、常に迅速で容易な導入が可能になります。全てを 1 か所に集約することで、よりシンプルになりました。」

Ahold Delhaize 社（Etos）データチーム技術リーダー Ivo Van de Grift 氏

ahold delhaize logo

詳しく見る

データインテリジェンス

DatabricksIQ は、データインテリジェンスプラットフォームのあらゆる部分に AI を導入し、Databricks Assistant などのツールによってデータエンジニアの生産性を高めるデータインテリジェンスエンジンです。Databricks Assistant は、生成 AI と Databricks 環境の包括的な理解を活用して、SQL または Python コードを生成または説明し、問題を検出して修正を提案します。DatabricksIQ はまた、パイプラインを理解し、インテリジェントなオーケストレーションとフロー管理を使用してパイプラインを最適化し、サーバーレスコンピュートを提供します。

詳しく見る

次世代のデータストリーミングエンジン

Apache Spark™ Structured Streaming は、世界で最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織に広く採用されており、Spark ワークロードの実行に最適な Databricks 上のストリーミングデータパイプラインを強化する中核技術です。Spark Structured Streaming により、バッチおよびストリーム処理の単一の統合 API が提供されるため、コードの変更や新しいスキルの習得なしに、ストリーミングデータのワークロードを容易に導入できます。連続処理とトリガー処理を簡単に切り替えて、待ち時間やコストを最適化できます。

詳しく見る

最先端のデータガバナンス、信頼性、性能

Databricks のデータエンジニアリングでは、データインテリジェンスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。Delta Lake は、ACIDトランザクションによる信頼性、スケーラブルなメタデータ処理、高速性能を提供するオープンソースのストレージフォーマットで、未加工データを最適化します。Unity Catalog と組み合わせることで、あらゆるデータと AI 資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全体でデータの発見、アクセス、共有ができるため、ガバナンスが簡素化されます。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。

データエンジニアリングトレーニングを見る

Databricks アカデミーのオンデマンドトレーニングでスキルアップ

今すぐスタート

統合

テクノロジーパートナーのオープンなエコシステムを活用し、業界をリードするデータエンジニアリングツールとシームレスに統合します。

データインジェストと ETL

＋ Apache SparkTM 互換クライアント

導入事例

「最も困難と思われる質問であっても、データに関するコンテキストを持たないデータエンジニアを捕まえてデータパイプラインに向かわせれば、必要な答えをすぐに得られることが何度もありました。」Coastal Community 銀行シニア VP Barb MacLean 氏

ブログを読む

「Delta Live Tables により、開発速度が大幅に加速されました。以前は、未加工データを解析するために複雑な ETL プロセスを使用しなければなりませんでした。現在では、シンプルなノートブックを 1 つ用意するだけです。あとは Delta Live Tables を使用して、必要に応じてシルバーやゴールドにデータを変換しています。」Trek Bicycle 社データエンジニアリング部門チームリーダー Advait Raje 氏

ブログを読む

「Databricks Workflows をデフォルトのオーケストレーションツールとして使用して ETL を実行し、約 300 件のジョブの自動化を実現しています。そのうちの約 120 件は、定期的に実行されるようにスケジュールされています。」Cox Automotive 社エンタープライズデータサービス部門リードデータエンジニア Robert Hamlet 氏

ブログを読む

「Databricks は、価格と性能を最適化するという課題に正面から応えてくれました。データインテリジェンスプラットフォームは、混在するワークロードの性能を犠牲にすることなくコストを削減し、現在および将来にわたってデータと AI の運用を最適化するのに役立ちました。」- InMobi 社共同創業者兼グループ CTO Mohit Saxena 氏

ブログを読む

よくある質問

データエンジニアリングとは

データエンジニアリングは、データソースから未加工データを取得し、データ分析、ビジネスインテリジェンス（BI）、機械学習（ML）モデルのトレーニングなど、下流のユースケースのために保存・整理できるように処理することです。言い換えれば、データから価値を引き出せるようにデータを準備するプロセスです。一般的なデータエンジニアリングの例として、ETL（抽出、変換、ロード）があります。これは、データソースからデータを抽出し、変換して、データウェアハウスのようなターゲットシステムにロード（または格納）するデータパイプラインを定義するものです。

データパイプラインとは

データストリーミングとは

Databricks はどのようなデータエンジニアリング機能を提供していますか？

リソース

無料お試し・その他ご相談を承ります

無料トライアルコミュニティに参加する

データエンジニアリング

分析と AI のための本番運用対応データパイプライン

関連製品

信頼性のあるパイプラインからの信頼できるデータ

コストと性能の最適化

データアクセスの一元化

データインテリジェンスプラットフォームの構築

データパイプラインの管理

統合されたワークフローオーケストレーション

データインテリジェンス

次世代のデータストリーミングエンジン

最先端のデータガバナンス、信頼性、性能

統合

導入事例

よくある質問

リソース

eBook・ホワイトペーパー

ブログ・イベント

デモ・資料

無料お試し・その他ご相談を承ります