Gemini API デベロッパーコンテストにご参加ください。詳細

このページは Cloud Translation API によって翻訳されました。

Gemini

Gemini は、デベロッパーがコンテンツを生成して問題を解決できる生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計、トレーニングされています。このガイドでは、各モデルバリアントに関する情報を提供し、どちらがユースケースに最も適しているかを判断するのに役立ちます。

モデルバリエーション

Gemini API には、特定のユースケース向けに最適化されたさまざまなモデルが用意されています。利用可能な Gemini のバリエーションの概要は次のとおりです。

モデルバリアント	入力	出力	最適な用途
Gemini 1.5 Pro `gemini-1.5-pro`	音声、画像、動画、テキスト	テキスト	複雑な推論タスク（コードとテキストの生成、テキスト編集、問題解決、データの抽出、生成など）
Gemini 1.5 Flash `gemini-1.5-flash`	音声、画像、動画、テキスト	テキスト	さまざまなタスクに対応する高速で汎用性の高いパフォーマンス
Gemini 1.0 Pro `gemini-1.0-pro`	テキスト	テキスト	自然言語タスク、マルチターンのテキストチャットとコードチャット、コード生成
Gemini 1.0 Pro Vision `gemini-pro-vision`	画像、動画、テキスト	テキスト	画像関連のタスク（画像の説明の生成や画像内のオブジェクトの識別など）
テキストエンベディング `text-embedding-004`	テキスト	テキストエンベディング	テキスト文字列の関連性の測定

次の表に、すべてのモデルバリアントに共通する Gemini モデルの属性を示します。

属性	説明
トレーニングデータ	Gemini のナレッジの締め切りは 2023 年 11 月です。それ以降に発生したイベントに関する情報は制限されます。
サポートされている言語	対応言語を見る
構成可能なモデルパラメータ	トップ P トップ K Temperature 停車シーケンス最大出力長回答候補の数

これらの各パラメータの詳細については、生成モデルガイドのモデルパラメータのセクションをご覧ください。

Gemini 1.5 Pro

Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダルモデルです。

コード生成
テキスト生成
テキスト編集
問題を解決する
推奨事項の生成
情報抽出
データの抽出または生成
AI エージェントの作成

1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。

1.5 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。

モデルの詳細

プロパティ	説明
モデルコード	`models/gemini-1.5-pro-latest`
入力	音声、画像、動画、テキスト
出力	テキスト
サポートされている生成方法	`generateContent`
入力トークンの上限^[**]	1,048,576
出力トークンの上限 ^[**]	8,192
プロンプトあたりの画像の最大数	3,600
動画の長さの上限	1 時間
音声の最大長	約 9.5 時間
プロンプトあたりの音声ファイルの最大数	1
モデルの安全性	自動的に適用される安全性設定（デベロッパーが調整可能）。詳しくは、安全性設定に関するページをご覧ください。
レート制限^[*]	無料: 2 rpm 32,000 TPM 50 RPD 46,080,000 TPD Pay-as-you-go: 360 rpm 200 万 TPM 10,000 RPD 14,400,000,000 TPD 200 万件のコンテキスト: 1 rpm 200 万 TPM 50 RPD
システム指示	サポート対象
JSON モード	サポート対象
最新バージョン	`gemini-1.5-pro-latest`
最新の安定版	`gemini-1.5-pro`
安定版	`gemini-1.5-pro-001`
最新のアップデート	2024 年 5 月

Gemini 1.5 Flash

Gemini 1.5 Flash は、さまざまなタスクに合わせてスケーリングできる、高速で汎用性の高いマルチモーダルモデルです。

モデルの詳細

プロパティ	説明
モデルコード	`gemini-1.5-flash-latest`
入力	音声、画像、動画、テキスト
出力	テキスト
サポートされている生成方法	`generateContent`
入力トークンの上限^[**]	1,048,576
出力トークンの上限 ^[**]	8,192
プロンプトあたりの画像の最大数	3,600
動画の長さの上限	1 時間
音声の最大長	約 9.5 時間
プロンプトあたりの音声ファイルの最大数	1
モデルの安全性	自動的に適用される安全性設定（デベロッパーが調整可能）。詳しくは、安全性設定に関するページをご覧ください。
レート制限^[*]	無料: 15rpm 100 万 TPM 1,500 RPD Pay-as-you-go: 1,000 rpm 200 万 TPM
システム指示	サポート対象
JSON モード	サポート対象
モデルのチューニング	近日提供予定
最新バージョン	`gemini-1.5-flash-latest`
最新の安定版	`gemini-1.5-flash`
安定版	`gemini-1.5-flash-001`
最新のアップデート	2024 年 5 月

Gemini 1.0 Pro

Gemini 1.0 Pro は、マルチターンのテキストチャットやコードチャット、コード生成などのタスクを処理する NLP モデルです。

1.0 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。

モデルの詳細

プロパティ	説明
モデルコード	`models/gemini-1.0-pro`
入力	テキスト
出力	テキスト
サポートされている生成方法	Python: `generate_content` REST: `generateContent`
レート制限^[*]	無料: 15rpm 32,000 TPM 1,500 RPD 46,080,000 TPD Pay-as-you-go: 360 rpm 120,000 TPM 30,000 RPD 172,800,000 TPD
システム指示	サポート対象外
JSON モード	サポート対象外
モデルのチューニング	サポート対象: `gemini-1.0-pro-001`
最新バージョン	`gemini-1.0-pro-latest`
最新の安定版	`gemini-1.0-pro`
安定版	`gemini-1.0-pro-001`
最新のアップデート	2024 年 2 月

注: gemini-pro は gemini-1.0-pro のエイリアスです。

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision は、パフォーマンスが最適化されたマルチモーダルモデルで、ビジュアル関連のタスクを実行できるものです。たとえば、1.0 Pro Vision では、画像の説明の生成、画像内のオブジェクトの特定、画像内の場所やオブジェクトに関する情報の提供などを行うことができます。

1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。

モデルの詳細

プロパティ	説明
モデルコード	`models/gemini-pro-vision`
入力	テキスト、動画、画像
出力	テキスト
サポートされている生成方法	Python: `generate_content` REST: `generateContent`
入力トークンの上限 ^[*]	12,288
出力トークンの上限 ^[*]	4,096
最大画像サイズ	上限なし
プロンプトあたりの画像の最大数	16
動画の長さの上限	2 分
メッセージあたりの動画の最大数	1
モデルの安全性	自動的に適用される安全性設定（デベロッパーが調整可能）。詳しくは、安全性設定に関するページをご覧ください。
レート制限^[*]	1 分あたり 60 回のリクエスト
最新バージョン	`gemini-1.0-pro-vision-latest`
最新の安定版	`gemini-1.0-pro-vision`
最新のアップデート	2023 年 12 月

テキストの埋め込みと埋め込み

テキストエンベディング

Text Embedding モデルを使用して、入力テキストのテキストエンベディングを生成できます。テキストエンベディングモデルの詳細については、テキストエンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。

Text Embedding モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキストエンベディングでは、768 未満のエラスティックなエンベディングサイズを使用できます。弾力性のあるエンベディングを使用すると、より小さな出力ディメンションを生成できます。また、パフォーマンスをわずかに低下させるだけで、コンピューティングとストレージの費用を節約できる可能性があります。

モデルの詳細

プロパティ	説明
モデルコード	`models/text-embedding-004`（Vertex AI では `text-embedding-preview-0409`）
入力	テキスト
出力	テキストエンベディング
入力トークンの上限	2,048
出力ディメンションサイズ	768
サポートされている生成方法	Python: `embed_content` REST: `embedContent`
モデルの安全性	調整可能な安全設定はありません。
レート制限^[*]	1 分あたり 1,500 回のリクエスト
最新のアップデート	2024 年 4 月

エンベディング

エンベディングモデルを使用すると、入力テキストのテキストエンベディングを生成できます。

エンベディングモデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。

エンベディングモデルの詳細

プロパティ	説明
モデルコード	`models/embedding-001`
入力	テキスト
出力	テキストエンベディング
入力トークンの上限	2,048
出力ディメンションサイズ	768
サポートされている生成方法	Python: `embed_content` REST: `embedContent`
モデルの安全性	調整可能な安全設定はありません。
レート制限^[*]	1 分あたり 1,500 回のリクエスト
最新のアップデート	2023 年 12 月

AQA

AQA モデルを使用すると、ドキュメント、コーパス、または一連の文に対して、Attributed Question-Answering（AQA）関連のタスクを実行できます。AQA モデルは、回答可能な確率を推定し、提供された情報源に基づく質問への回答を返します。

モデルの詳細

プロパティ	説明
モデルコード	`models/aqa`
入力	テキスト
出力	テキスト
サポートされている生成方法	Python: `GenerateAnswerRequest` REST: `generateAnswer`
サポートされている言語	英語
入力トークンの上限^[**]	7,168
出力トークンの上限 ^[**]	1,024
モデルの安全性	自動的に適用される安全性設定（デベロッパーが調整可能）。詳しくは、安全性設定に関するページをご覧ください。
レート制限^[*]	1 分あたり 60 回のリクエスト
最新のアップデート	2023 年 12 月

これらのモデルバリエーションの機能については、例をご覧ください。

[*] トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ～ 80 英単語です。

[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数

容量制限により、指定された最大レート制限は保証されません。

モデルバージョン名のパターン

Gemini モデルには、プレビュー バージョンと安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。

最新: 指定した世代とバリエーションのモデルの最新バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプにのみ使用してください。

最新バージョンを指定するには、<model>-<generation>-<variation>-latest のパターンを使用します。例: gemini-1.0-pro-latest。
最新の安定版: 指定したモデル世代とバリエーション向けにリリースされた最新の安定版を指します。

最新の安定版を指定するには、<model>-<generation>-<variation> のパターンを使用します。例: gemini-1.0-pro
安定版: 特定の安定版モデルを指します。安定版のモデルは変わりません。ほとんどの本番環境アプリは、特定の安定版モデルを使用する必要があります。

安定版を指定するには、<model>-<generation>-<variation>-<version> のパターンを使用します。例: gemini-1.0-pro-001。

対応言語

Gemini モデルは、次の言語で動作するようにトレーニングされています。

アラビア語（ar）
ベンガル語（bn）
ブルガリア語（bg）
中国語（簡体および繁体）（zh）
クロアチア語（hr）
チェコ語（cs）
デンマーク語（da）
オランダ語（nl）
英語（en）,
エストニア語（et）
フィンランド語（fi）
フランス語（fr）
ドイツ語（de）
ギリシャ語（el）
ヘブライ語（iw）
ヒンディー語（hi）
ハンガリー語（hu）
インドネシア語（id）
イタリア語（it）
日本語（ja）
韓国語（ko）
ラトビア語（lv）,
リトアニア語（lt）
ノルウェー語（no）
ポーランド語（pl）
ポルトガル語（pt）
ルーマニア語（ro）
ロシア語（ru）
セルビア語（sr）
スロバキア語（sk）
スロベニア語（sl）
スペイン語（es）
スワヒリ語（sw）
スウェーデン語（sv）
タイ語（th）
トルコ語（tr）
ウクライナ語（uk）
ベトナム語（vi）

Gemini

モデル バリエーション

Gemini 1.5 Pro

モデルの詳細

Gemini 1.5 Flash

モデルの詳細

Gemini 1.0 Pro

モデルの詳細

Gemini 1.0 Pro Vision

モデルの詳細

テキストの埋め込みと埋め込み

テキスト エンベディング

モデルの詳細

エンベディング

エンベディング モデルの詳細

AQA

モデルの詳細

モデル バージョン名のパターン

対応言語

モデルバリエーション

テキストエンベディング

エンベディングモデルの詳細

モデルバージョン名のパターン