メインコンテンツへジャンプ

データエンジニアリング

分析と AI のための本番運用対応データパイプライン

Databricks データインテリジェンスプラットフォームは、バッチ/ストリーミングデータを取り込み、変換を容易にします。インフラの自動スケーリング機能や統合ガバナンスを提供し、信頼性の高い本番ワークフローのオーケストレーションを可能にします。また、組み込みの AI で強化されたインテリジェンスエンジンがデータとパイプラインを理解し、生産性を向上させ、イノベーションを加速させます。

「さまざまなシステムから送られてくる膨大な量の構造化・非構造化データを取り込み、標準化し、ML モデルを構築して、コールセンターや店舗、オンラインの従業員をサポートするアラートとレコメンデーションを提供できるようになりました。」

AT&T 社 VP Kate Hopkins 氏
AT&T logo

関連製品

Operate from First Principles

信頼性のあるパイプラインからの信頼できるデータ

データ品質検証機能と実証済みのプラットフォームの信頼性により、データチームは、データが正確で完全であり、下流のユースケースに適した最新のものであることを確認できます。

Raise the Bar

コストと性能の最適化

データインテリジェンスを備えたサーバーレスのレイクハウスアーキテクチャは、パイプラインの構築と実行の背後にある複雑な操作を自動化し、最適化から推測作業と手作業のオーバーヘッドを取り除きます。

We Put the Company First

データアクセスの一元化

データ実務者がバッチまたはストリーミングのパイプラインを管理できるように設計されており、技術的な適性、好みのインターフェース、ファインチューニングの必要性に応じて、データの取り込み、変換、オーケストレーションが可能です。

multicloud

データインテリジェンスプラットフォームの構築

データインテリジェンスプラットフォームは、データ資産の構築と共有、一元管理を可能にし、高速で信頼性の高いデータソースを提供します。

demarketecture

データパイプラインの管理

データを取り込んで変換し、分析や AI に利用できるようにする必要があります。Databricks は、Delta Live Tables により、データエンジニア、データサイエンティスト、アナリストに強力なデータパイプライン機能を提供します。DLT は、バッチデータやストリーミングデータに ETL および ML パイプラインを構築する、シンプルな宣言型アプローチを使用した初の ETL フレームワークです。インフラ管理、タスクオーケストレーション、エラー処理やリカバリ、性能の最適化といった複雑な運用タスクを自動化します。エンジニアは DLT を使用することで、データをコードとして扱うことができ、テスト、監視、文書化などのソフトウェアエンジニアリングのベストプラクティスを適用し、信頼性の高いパイプラインを大規模に展開できます。

「(DLT の導入により)チームは見事に協力し合い、パイプラインを各自のストーリーと仕事量に分けながら毎日作業しています。」

Honeywell Energy & Environmental Solutions 社 グローバルソリューションアーキテクト Chris Inkpen 博士

honeywell logo

統合されたワークフローオーケストレーション

Databricks Workflows は、データインテリジェンスプラットフォーム上のデータと AI のためのシンプルで信頼性の高いオーケストレーションソリューションを提供します。Databricks Workflows では、マルチステップワークフローを定義して、ETL パイプラインや ML トレーニングワークフローなどを実装できます。制御フロー機能が強化され、さまざまなタスクタイプとトリガーオプションがサポートされます。Databricks Workflows は、プラットフォームネイティブのオーケストレータとして、ワークフローの実行を監視・可視化する高度な観測機能と、問題発生時のアラート機能を提供します。サーバーレスコンピュートオプションは、スマートなスケーリングと効率的なタスク実行を可能にします。

「Databricks Workflows を使用することで、技術的なフットプリントが小さくなり、常に迅速で容易な導入が可能になります。全てを 1 か所に集約することで、よりシンプルになりました。」

Ahold Delhaize 社(Etos)データチーム技術リーダー Ivo Van de Grift 氏

ahold delhaize logo

データインテリジェンス

DatabricksIQ は、データインテリジェンスプラットフォームのあらゆる部分に AI を導入し、Databricks Assistant などのツールによってデータエンジニアの生産性を高めるデータインテリジェンスエンジンです。Databricks Assistant は、生成 AI と Databricks 環境の包括的な理解を活用して、SQL または Python コードを生成または説明し、問題を検出して修正を提案します。DatabricksIQ はまた、パイプラインを理解し、インテリジェントなオーケストレーションとフロー管理を使用してパイプラインを最適化し、サーバーレスコンピュートを提供します。

次世代のデータストリーミングエンジン

Apache Spark™ Structured Streaming は、世界で最も人気のあるオープンソースのストリーミングエンジンです。オープンソースで組織に広く採用されており、Spark ワークロードの実行に最適な Databricks 上のストリーミングデータパイプラインを強化する中核技術です。Spark Structured Streaming により、バッチおよびストリーム処理の単一の統合 API が提供されるため、コードの変更や新しいスキルの習得なしに、ストリーミングデータのワークロードを容易に導入できます。連続処理とトリガー処理を簡単に切り替えて、待ち時間やコストを最適化できます。

最先端のデータガバナンス、信頼性、性能

Databricks のデータエンジニアリングでは、データインテリジェンスプラットフォームの基本コンポーネントである Unity Catalog と Delta Lake のメリットを享受できます。Delta Lake は、ACIDトランザクションによる信頼性、スケーラブルなメタデータ処理、高速性能を提供するオープンソースのストレージフォーマットで、未加工データを最適化します。Unity Catalog と組み合わせることで、あらゆるデータと AI 資産に対するきめ細かなガバナンスを実現します。単一の一貫性のあるモデルを使用してクラウド全体でデータの発見、アクセス、共有ができるため、ガバナンスが簡素化されます。また、Unity Catalog は、他の組織と容易かつセキュアにデータを共有するための業界初のオープンプロトコル Delta Sharing をネイティブにサポートしています。

統合

テクノロジーパートナーのオープンなエコシステムを活用し、業界をリードするデータエンジニアリングツールとシームレスに統合します。

データインジェストと ETL

fivetran
dbt
arcion
matillion
informatica
confluent
qlikq
airbyte
prophecy
streamsets
alteryx
snaplogic

導入事例

「最も困難と思われる質問であっても、データに関するコンテキストを持たないデータエンジニアを捕まえてデータパイプラインに向かわせれば、必要な答えをすぐに得られることが何度もありました。」Coastal Community 銀行 シニア VP Barb MacLean 氏

ブログを読む

「Delta Live Tables により、開発速度が大幅に加速されました。以前は、未加工データを解析するために複雑な ETL プロセスを使用しなければなりませんでした。現在では、シンプルなノートブックを 1 つ用意するだけです。あとは Delta Live Tables を使用して、必要に応じてシルバーやゴールドにデータを変換しています。」Trek Bicycle 社 データエンジニアリング部門 チームリーダー Advait Raje 氏

ブログを読む

「Databricks Workflows をデフォルトのオーケストレーションツールとして使用して ETL を実行し、約 300 件のジョブの自動化を実現しています。そのうちの約 120 件は、定期的に実行されるようにスケジュールされています。」Cox Automotive 社 エンタープライズデータサービス部門 リードデータエンジニア Robert Hamlet 氏

ブログを読む

「Databricks は、価格と性能を最適化するという課題に正面から応えてくれました。データインテリジェンスプラットフォームは、混在するワークロードの性能を犠牲にすることなくコストを削減し、現在および将来にわたってデータと AI の運用を最適化するのに役立ちました。」- InMobi 社 共同創業者兼グループ CTO Mohit Saxena 氏

ブログを読む

よくある質問

データエンジニアリングは、データソースから未加工データを取得し、データ分析、ビジネスインテリジェンス(BI)、機械学習(ML)モデルのトレーニングなど、下流のユースケースのために保存・整理できるように処理することです。言い換えれば、データから価値を引き出せるようにデータを準備するプロセスです。一般的なデータエンジニアリングの例として、ETL(抽出、変換、ロード)があります。これは、データソースからデータを抽出し、変換して、データウェアハウスのようなターゲットシステムにロード(または格納)するデータパイプラインを定義するものです。

無料お試し・その他ご相談を承ります