データエンジニアリング

ページ 1

ノートブックでシンプルに！DLTパイプライン開発

June 25, 2024 ゾーイ・デュラン、ドミニク・クレイマー、プラディープ・ゴパナパリ・ヴェンカタ、ディラン・スティール、ジュリア・マーティンによる投稿 in エンジニアリングのブログ

史上最大規模のData + AI Summitが開催されてからわずか数週間が経ちました。このサミットでは、データエンジニアリングのための統合されたインテリジェントなソリューションである Databricks LakeFlow を紹介しました。 Databricksのデータエンジニアリングのこの戦略的方向性に非常に興奮していますが、現在もユーザー向けの製品エクスペリエンスへの投資も続けています。 DLT 開発エクスペリエンスの向上は、DLT を使用してデータパイプラインを構築する開発者の効率と満足度に直接影響するため、中心的な焦点となっています。ノートブックを使用した DLT 開発エクスペリエンスにいくつかの機能強化が加えられたことをお知らせします。これらの新機能は、シームレスで直感的な DLT 開発インターフェースを提供し、パイプラインを迅速かつ効率的に構築およびデバッグするのに役立ちます。 Delta Live Tables (DLT) は、信頼性の高いデータパイプラインの構築、テスト、保守を簡素化および高

Databricks LakeFlowの登場: データエンジニアリングのための統一されたインテリジェントソリューション

June 13, 2024 Michael Armbrust、ビラル・アスラムによる投稿 in プラットフォームブログ

Translation Review by saki.kitaoka 本日、私たちはDatabricks LakeFlowを発表します。これは、プロダクションデータパイプラインを構築および運用するために必要なすべてを含む新しいソリューションです。MySQL、Postgres、SQL Server、Oracleなどのデータベースや、Salesforce、Microsoft Dynamics、NetSuite、Workday、ServiceNow、Google Analyticsなどの企業アプリケーション向けの新しいネイティブで高スケーラビリティのコネクタが含まれています。ユーザーは標準SQLおよびPythonを使用して、バッチおよびストリーミングでデータを変換できます。さらに、Apache Spark向けのリアルタイムモードを発表し、従来のマイクロバッチよりもはるかに高速なレイテンシでストリーム処理が可能になります。最後に、CI/CDを使用してワークフローをオーケストレーションおよびモニタリングし、本番環境にデプ

Delta LakeとApache Sparkにオープンバリアントデータ型を導入

June 3, 2024 ケント・マーテン、ジーン・パン、李晨浩、ハン・シャオによる投稿 in エンジニアリングのブログ

半構造化データ用のバリアントと呼ばれる新しいデータ型を発表できることを嬉しく思います。バリアント（Variant）は、これらのデータを JSON 文字列として保存する場合と比べて、パフォーマンスが桁違いに向上すると同時に、高度にネストされ進化するスキーマをサポートするための柔軟性も維持します。半構造化データの取り扱いは、長い間レイクハウスの基盤的な機能の一つです。エンドポイント検出と対応（EDR）、広告クリック分析、IoTテレメトリーなどは、半構造化データに依存する人気のユースケースの一部です。私たちがより多くの顧客を専有のデータウェアハウスから移行させる中で、彼らが専有のデータウェアハウスで提供されるバリアントデータ型に依存していることを聞き、ロックインを避けるためにオープンソース標準が欲しいという声がありました。オープンバリアントタイプは、Apache SparkオープンソースコミュニティとLinux Foundation Delta Lakeコミュニティの両方とのコラボレーションの結果です: バリア

データエンジニアのための Databricks Assistant のヒントとコツ

May 2, 2024 ジャッキー・チャン、ラフィー・カーランシック、リチャード・トムリンソンによる投稿 in 製品

生成AI革命はチームの働き方を変えつつあり、Databricks Assistantはこれらの進歩を最大限に活用しています。会話型インターフェイスを介してデータをクエリできるため、 Databricksワークスペース内での生産性が向上します。アシスタントは Databricks用のデータインテリジェンスエンジンであるDatabricksIQ を搭載しており、データのセキュリティを確保し、応答が正確で、企業の詳細に合わせて調整されていることを確認します。 Databricks Assistantを使用すると、タスクを自然言語で記述して、開発者のエクスペリエンスを中断することなく、複雑なコードを生成、最適化、またはデバッグできます。この投稿では、ブログ「 Databricks Assistantを最大限に活用するための5つのヒント」を拡張し、アシスタントが退屈な作業の排除、生産性と没入感の向上、価値実現までの時間の短縮によってデータエンジニアの生活をどのように改善できるかに焦点を当てます。さまざまなデータ

State Reader APIの発表：新しい "Statestore" データソース

March 28, 2024 クレイグ・ルカシック、イム・ジョンテクによる投稿 in エンジニアリングのブログ

Databricks Runtime 14.3には、構造化ストリーミングの内部ステートデータへのアクセスと分析を可能にする新しい機能、 State Reader API が含まれています。 State Reader APIは、JSON、CSV、Avro、Protobufなどのよく知られた Sparkデータフォーマットとは一線を画しています。その主な目的は、ステートフルな構造化ストリーミングワークロードの開発、デバッグ、トラブルシューティングを容易にすることです。 Apache Spark 4.0.0（今年後半にリリース予定）には、State Reader APIが含まれます。新しいAPIはどのような課題に対応しているのか？ Apache Spark™...

2023年のPySpark：1年を振り返って

March 25, 2024 Hyukjin Kwon、上新卓也、アリソン・ワン、鄭瑞鳳、Xinrong Meng、イ・ヘジュン、アマンダ・リューによる投稿 in 業界

2023年にリリースされたApache Spark 3.4と3.5で、私たちはPySparkのパフォーマンス、柔軟性、使いやすさの改善に重点を置きました。このブログ記事では、主な改善点をご紹介します。 2023年にApache Spark 3.4と3.5で追加された最も重要な機能の概要です： Spark Connect は、任意のアプリケーションからSparkクラスタへのリモート接続を可能にする、クライアントとサーバーを分離したアーキテクチャを導入しています。これにより、サービスとしてのSparkは、安定性、アップグレード可能性、可観測性を高めながら実現されます。 Arrowに最適化されたPythonユーザー定義関数（UDF ）では、Arrowのカラムナーフォーマットを活用することで、通常のPython UDFの2倍のパフォーマンスを実現し、飛躍的な効率の向上を示しました。 Pythonのユーザー定義テーブル関数（UDTF）により、ユーザーはPySparkでネイティブにテーブルベースの変換を実行できるように

DataFrameの等式関数を使ったPySparkテストのシンプル化

March 6, 2024 イ・ヘジュン、アリソン・ワン、アマンダ・リューによる投稿 in エンジニアリングのブログ

DataFrameの等式テスト関数は、PySparkのユニットテストを簡素化するためにApache Spark™ 3.5とDatabricks Runtime 14.2で導入されました。このブログ記事で説明した機能一式は、次期Apache Spark 4.0とDatabricks Runtime 14.3から利用可能になります。 DataFrameの等式テスト関数を使用して、より信頼性の高いDataFrame変換を記述 PySparkでデータを扱うには、DataFrameに変換、集約、操作を適用します。変換が蓄積されるにつれて、コードが期待通りに動作することをどうやって確信できるでしょうか？ PySparkの等式テストユーティリティ関数は、データを期待される結果と照らし合わせてチェックする効率的で効果的な方法を提供し、予期しない差異を特定して分析プロセスの初期段階でエラーを検出するのに役立ちます。さらに、デバッグに多くの時間を費やすことなく、即座に対策を講じることができるように、違いを正確に特定する直感的

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインの最新パフォーマンス改善へのディープダイブ

February 28, 2024 モジガン・マゾウチ、ムリティウンジャイ・クマール、アニッシュ・シュリゴンデカー、カーティケヤン・ラマサミによる投稿 in エンジニアリングのブログ

この投稿は、ステートフル・パイプラインの最新のパフォーマンス改善に関する2部構成のシリーズの第2部です。このシリーズの最初の部分は、 Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善でカバーされています。 Project Lightspeedの更新ブログでは、ステートフルパイプラインに追加したさまざまなパフォーマンス改善の概要を紹介しました。このセクションでは、パフォーマンス分析中に観察されたさまざまな問題を掘り下げ、それらの問題に対処するために実施した具体的な機能強化の概要を説明します。 RocksDBステートストア・プロバイダの改善メモリ管理 RocksDBは主にメモリを memtables 、ブロックキャッシュ、その他のピン留めブロックに使用します。以前は、マイクロバッチ内のすべての更新は、 WriteBatchWithIndex を使用してメモリにバッファリングされていました。さらに、ユーザーは書き込みバッファとブロックキャッシュの使用に

Apache Spark 構造化ストリーミングにおけるステートフルパイプラインのパフォーマンス改善

イントロダクション Apache Spark™ の構造化ストリーミングは、Spark SQLエンジン上に構築された、スケーラビリティと耐障害性を提供する人気のオープンソースストリーム処理プラットフォームです。 Databricksレイクハウスプラットフォーム上のほとんどの増分的およびストリーミングワークロードは、 Delta Live Tables および Auto Loader を含む構造化ストリーミングを利用しています。ここ数年、あらゆる業界における多様なユースケースにおいて、構造化ストリーミングの使用と採用が飛躍的に伸びています。 Databricksでは、1週間に1,400万以上の構造化ストリーミングジョブが実行されており、その数は年間2倍以上のペースで増加しています。ほとんどの構造化ストリーミングのワークロードは、分析ワークロードと運用ワークロード...

レイクハウス・モニタリング: データとAIの品質監視のための統合ソリューション

December 12, 2023 ジャクリーン・リー、アルキス・ポリゾティス、Kasey Uhlenhuth による投稿 in プラットフォームブログ

はじめに Databricks Lakehouse Monitoring (レイクハウス・モニタリング)を使用すると、データからフィーチャー、MLモデルまで、すべてのデータパイプラインを追加のツールや複雑な操作なしに監視できます。 Unity Catalog に組み込まれているため、ガバナンスと並行して品質を追跡し、データとAI資産のパフォーマンスについて深い洞察を得ることができます。Lakehouse Monitoringは完全にサーバーレスなので、インフラストラクチャやコンピュート構成のチューニングを心配する必要はありません。 Lakehouseのモニタリングに対する統一されたアプローチにより、 Databricks Data Intelligence Platform で直接、品質の追跡、エラーの診断、ソリューションの検索が簡単に行えます。Lakehouse Monitoringを最大限に活用する方法を本記事ではご紹介します。なぜレイクハウス・モニタリングなのか？データパイプラインは順調に動いているよう