オープンソース | Databricks Blog

ページ 1

BigQuery が Delta Lake をファーストパーティでサポートします

June 6, 2024 ジョナサン・ブリトー、バヴィン・クカディア、スーザン・ピアースによる投稿 in エンジニアリングのブログ

BigQuery は Delta Lake のファーストパーティサポートを備え、Delta Lake のコネクタエコシステムを拡大し、Databricks との統合をシンプルにします

GGML GGUF ファイルフォーマットの脆弱性

March 22, 2024 ニール・アーチボルドによる投稿 in エンジニアリングのブログ

GGUFファイルフォーマットは、GGMLライブラリのモデル重みの保存と読み込みに使用されるバイナリファイルフォーマットです。ライブラリのドキュメントには、以下のような形式が記述されています： "GGUFは、GGMLによる推論のためのモデルや、GGMLに基づく実行形式を保存するためのファイルフォーマットです。 GGUFは、モデルの読み込みと保存を高速化し、読みやすくするために設計されたバイナリフォーマットです。モデルは伝統的にPyTorchや他のフレームワークを使用して開発され、GGMLで使用するためにGGUFに変換されます。" GGUF フォーマットは、学習済みの機械学習モデルを配布するために最近普及しており、低レベルのコンテキストからモデルを利用する際に、Llama-2で最も一般的に使用されるフォーマットの1つとなっています。 llama.cpp、pythonの llm モジュール、Huggingfaceのようなggufファイルをロードするときの ctransformers ライブラリなど、このローダーに

PySparkによるパラメータ化クエリ

January 3, 2024 マシュー・パワーズ、ダニエル・テネドリオ、Hyukjin Kwon による投稿 in エンジニアリングのブログ

PySparkは常にデータを問い合わせるための素晴らしいSQLとPython APIを提供してきました。 Databricks Runtime 12.1とApache Spark 3.4の時点で、パラメータ化されたクエリは、Pythonicプログラミングパラダイムを使用してSQLでデータをクエリする安全で表現力豊かな方法をサポートしています。この投稿では、PySparkでパラメータ化されたクエリを作成する方法と、それがあなたのコードにとって良いデザインパターンである場合について説明します。パラメータは、Sparkコードの再利用やテストを容易にするのに役立ちます。また、良いコーディングの実践も奨励しています。この記事では、PySparkのクエリをパラメータ化する2つの異なる方法を示します： PySpark カスタム文字列フォーマットパラメータマーカー両方のタイプのPySparkパラメータ付きクエリの使い方を見て、組み込みの機能が他の選択肢よりも優れている理由を探ってみましょう。パラメータ化されたクエリ

Apache Spark™ 3.5のご紹介

September 15, 2023 Yuanjian Li、ダニエル・テネドリオ、マーティン・グルンド、アラン・フォルティング、Hyukjin Kwon、ヘルマン・ファン・ヘーベル、Wenchen Fan、ウェイチェン・シュー、Gengliang Wang、アリソン・ワン、イム・ジョンテク、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

翻訳：Junichi Maruyama. - Original Blog Link 本日、Databricks Runtime 14.0の一部として、Databricks上でApache Spark™ 3.5が利用可能になったことを発表いたします。Spark 3.5のリリースに多大な貢献をしていただいたApache Sparkコミュニティに深く感謝いたします。 Sparkをこれまで以上にアクセスしやすく、多用途で効率的なものにするという我々のミッションに沿った今回のアップデートには、以下のような新機能と改良が盛り込まれています： The English SDK for Apache Spark enables users to...

Apache Sparkのための新しいプログラミング言語としての「英語」

June 29, 2023 Gengliang Wang、Xiangrui Meng、Reynold Xin（レイノルド・シン）、アリソン・ワン、アマンダ・リュー、Denny Lee による投稿 in オープンソース

翻訳: Masahiko Kitamura オリジナル記事： Introducing English as the New Programming Language for Apache Spark はじめに私たちは、皆様のSpark体験を豊かにするために設計された革新的なツールである、Apache Sparkの英語SDKを発表できることを嬉しく思います。Apache Spark™は、世界208の国と地域から年間10億以上のダウンロードを記録し、大規模データ分析を大きく発展させました。ジェネレーティブAIの革新的なアプリケーションであるEnglish SDKは、Sparkをこれまで以上にユーザーフレンドリーで親しみやすいものにすることで、この活気あるコミュニティの拡大を目指します！動機 GitHub Copilotは、AIによるコード開発の分野に革命をもたらした。強力な反面、ユーザーは生成されたコードを理解してコミットする必要がある。レビュアーもコードを理解しないとレビューできない。これは、より広範に採用され

Databricks ❤️ Hugging Face

April 26, 2023 Ali Ghodsi、Patrick Wendell（パトリック・ウェンデル）、マディ・ドーソン、Lu Wang、Xiangrui Meng、ニコラス・ペラエスによる投稿 in オープンソース

Original Blog : Databricks ❤️ Hugging Face 翻訳： junichi.maruyama ジェネレーティブAIが世界を席巻しています。データ＆AIカンパニーである私たちは、オープンソースの大規模言語モデル「Dolly」と、そのファインチューニングに使用した研究・商用利用のための社内クラウドソーシングデータセット「databricks-dolly-15k」をリリースし、この旅に参加しています。モデルもデータセットも、Hugging Faceで公開されています。そして今日、私たちはHugging Faceコードベースへの最初の公式コミットを発表し、ユーザーがApache Spark™データフレームからHugging Faceデータセットを簡単に作成できるようにすることに興奮しています。「Databricksがモデルやデータセットをコミュニティに公開することは素晴らしいことですが、今回、Hugging Faceに直接オープンソースを提供することで、その作業を拡張していることがわか

Spark Connect がApache Spark 3.4で利用可能になりました

April 18, 2023 アラン・フォルティング、Hyukjin Kwon、Xiao Li、ヘルマン・ファン・ヘーベル、ステファニア・レオーネ、マーティン・グルンド、Reynold Xin（レイノルド・シン）、Kris Mo による投稿 in エンジニアリングのブログ

Original Blog : Spark Connect Available in Apache Spark 3.4 翻訳： junichi.maruyama 昨年、Data and AI SummitでSpark Connectが紹介されました。最近リリースされたApache SparkTM 3.4の一部として、Spark Connectは一般的に利用できるようになりました。また、最近Databricks ConnectをSpark...

DatabricksとApache Spark ClustersにおけるRayのサポートを発表

February 28, 2023 ウェイチェン・シュー、ベン・ウィルソン、Jiajun Yao、Zhe Zhang、Eric Liang、Xiangrui Meng、コーリー・ズマールによる投稿 in エンジニアリングのブログ

Original : Announcing Ray support on Databricks and Apache Spark Clusters 翻訳： junichi.maruyama Ray は、スケーラブルなAIおよびPythonワークロードを実行するための著名なコンピュートフレームワークで、さまざまな分散機械学習ツール、大規模なハイパーパラメータチューニング機能、強化学習アルゴリズム、モデル提供などを提供します。同様に、Apache Spark™は、 Spark MLlib や、 XGBoost , TensorFlow...

Apache Spark™ 3.2 の概要

October 19, 2021 Gengliang Wang、Wenchen Fan、Hyukjin Kwon、Xiao Li、Reynold Xin（レイノルド・シン）による投稿 in エンジニアリングのブログ

Apache Spark™ 3.2 が、 Databricks ランタイム 10.0 の一部として Databricks 上で利用できるようになりました。Spark 3.2 のリリースにあたり、Apache Spark コミュニティの皆様の多大な貢献に感謝します。 Maven での Spark のダウンロード数が急増しています。月間のダウンロード数は 2,000万に達し、対前年比では 2 倍の成長率を示しています。Spark...

空間分割 - デカルト積を回避しながらポリゴンデータの結合・解析を効率化する方法

October 11, 2021 ミロシュ・コリック、ロバート・ウィフィン、Pritesh Patel、Charis Doidge、Steve Kingston、Linda Sheard による投稿 in エンジニアリングのブログ

この記事は、オードナンス・サーベイ、Microsoft、データブリックスの共同執筆によるものです。オードナンス・サーベイのシニアデータエンジニア Charis Doidge 氏、同シニアデータサイエンティスト Steve Kingston 氏、Microsoft 高度分析・AI 担当クラウドソリューションアーキテクト Linda Sheard 氏のご協力に感謝します。このブログでは、オードナンス・サーベイ（Ordnance Survey、英国陸地測量部）、データブリックス、Microsoft が共同で取り組む British National Grid（BNG）を用いた空間分割について解説します。オードナンス・サーベイは、公共部門地理空間協定（Public Sector Geospatial...