Gemini は、デベロッパーがコンテンツを生成して問題を解決できる生成 AI モデルのファミリーです。これらのモデルは、テキストと画像の両方を入力として処理するように設計、トレーニングされています。このガイドでは、各モデル バリアントに関する情報を提供し、どちらがユースケースに最も適しているかを判断するのに役立ちます。
モデル バリエーション
Gemini API には、特定のユースケース向けに最適化されたさまざまなモデルが用意されています。利用可能な Gemini のバリエーションの概要は次のとおりです。
モデル バリアント | 入力 | 出力 | 最適な用途 |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
音声、画像、動画、テキスト | テキスト | 複雑な推論タスク(コードとテキストの生成、テキスト編集、問題解決、データの抽出、生成など) |
Gemini 1.5 Flash
gemini-1.5-flash |
音声、画像、動画、テキスト | テキスト | さまざまなタスクに対応する高速で汎用性の高いパフォーマンス |
Gemini 1.0 Pro
gemini-1.0-pro |
テキスト | テキスト | 自然言語タスク、マルチターンのテキスト チャットとコードチャット、コード生成 |
Gemini 1.0 Pro Vision
gemini-pro-vision
|
画像、動画、テキスト | テキスト | 画像関連のタスク(画像の説明の生成や画像内のオブジェクトの識別など) |
テキスト エンベディング
text-embedding-004 |
テキスト | テキスト エンベディング | テキスト文字列の関連性の測定 |
次の表に、すべてのモデル バリアントに共通する Gemini モデルの属性を示します。
属性 | 説明 |
---|---|
トレーニング データ | Gemini のナレッジの締め切りは 2023 年 11 月です。それ以降に発生したイベントに関する情報は制限されます。 |
サポートされている言語 | 対応言語を見る |
構成可能なモデル パラメータ |
|
これらの各パラメータの詳細については、生成モデルガイドのモデル パラメータのセクションをご覧ください。
Gemini 1.5 Pro
Gemini 1.5 Pro は、次のような幅広い推論タスク向けに最適化された中規模のマルチモーダル モデルです。
- コード生成
- テキスト生成
- テキスト編集
- 問題を解決する
- 推奨事項の生成
- 情報抽出
- データの抽出または生成
- AI エージェントの作成
1.5 Pro では、1 時間の動画、9.5 時間分の音声、30,000 行を超えるコードや 700,000 語を超えるコードベースなど、大量のデータを一度に処理できます。
1.5 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-1.5-pro-latest |
入力 | 音声、画像、動画、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限 [**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] |
|
システム指示 | サポート対象 |
JSON モード | サポート対象 |
最新バージョン | gemini-1.5-pro-latest |
最新の安定版 | gemini-1.5-pro |
安定版 | gemini-1.5-pro-001 |
最新のアップデート | 2024 年 5 月 |
Gemini 1.5 Flash
Gemini 1.5 Flash は、さまざまなタスクに合わせてスケーリングできる、高速で汎用性の高いマルチモーダル モデルです。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | gemini-1.5-flash-latest |
入力 | 音声、画像、動画、テキスト |
出力 | テキスト |
サポートされている生成方法 |
generateContent
|
入力トークンの上限[**] | 1,048,576 |
出力トークンの上限 [**] | 8,192 |
プロンプトあたりの画像の最大数 | 3,600 |
動画の長さの上限 | 1 時間 |
音声の最大長 | 約 9.5 時間 |
プロンプトあたりの音声ファイルの最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] |
|
システム指示 | サポート対象 |
JSON モード | サポート対象 |
モデルのチューニング | 近日提供予定 |
最新バージョン | gemini-1.5-flash-latest |
最新の安定版 | gemini-1.5-flash |
安定版 | gemini-1.5-flash-001 |
最新のアップデート | 2024 年 5 月 |
Gemini 1.0 Pro
Gemini 1.0 Pro は、マルチターンのテキスト チャットやコードチャット、コード生成などのタスクを処理する NLP モデルです。
1.0 Pro は、ゼロショット、ワンショット、少数ショット学習タスクに対応できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-1.0-pro |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
レート制限[*] |
|
システム指示 | サポート対象外 |
JSON モード | サポート対象外 |
モデルのチューニング | サポート対象: gemini-1.0-pro-001 |
最新バージョン | gemini-1.0-pro-latest |
最新の安定版 | gemini-1.0-pro |
安定版 | gemini-1.0-pro-001 |
最新のアップデート | 2024 年 2 月 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision は、パフォーマンスが最適化されたマルチモーダル モデルで、ビジュアル関連のタスクを実行できるものです。たとえば、1.0 Pro Vision では、画像の説明の生成、画像内のオブジェクトの特定、画像内の場所やオブジェクトに関する情報の提供などを行うことができます。
1.0 Pro Vision は、ゼロショット、ワンショット、少数ショットのタスクを処理できます。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/gemini-pro-vision |
入力 | テキスト、動画、画像 |
出力 | テキスト |
サポートされている生成方法 |
generate_content
generateContent
|
入力トークンの上限 [*] | 12,288 |
出力トークンの上限 [*] | 4,096 |
最大画像サイズ | 上限なし |
プロンプトあたりの画像の最大数 | 16 |
動画の長さの上限 | 2 分 |
メッセージあたりの動画の最大数 | 1 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新バージョン | gemini-1.0-pro-vision-latest |
最新の安定版 | gemini-1.0-pro-vision |
最新のアップデート | 2023 年 12 月 |
テキストの埋め込みと埋め込み
テキスト エンベディング
Text Embedding モデルを使用して、入力テキストのテキスト エンベディングを生成できます。テキスト エンベディング モデルの詳細については、テキスト エンベディングに関する Vertex AI の生成 AI のドキュメントをご覧ください。
Text Embedding モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。テキスト エンベディングでは、768 未満のエラスティックなエンベディング サイズを使用できます。弾力性のあるエンベディングを使用すると、より小さな出力ディメンションを生成できます。また、パフォーマンスをわずかに低下させるだけで、コンピューティングとストレージの費用を節約できる可能性があります。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード |
models/text-embedding-004 (Vertex AI では text-embedding-preview-0409 ) |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力ディメンション サイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全設定はありません。 |
レート制限[*] | 1 分あたり 1,500 回のリクエスト |
最新のアップデート | 2024 年 4 月 |
エンベディング
エンベディング モデルを使用すると、入力テキストのテキスト エンベディングを生成できます。
エンベディング モデルは、最大 2,048 トークンのテキストに対して 768 次元のエンベディングを作成するように最適化されています。
エンベディング モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/embedding-001 |
入力 | テキスト |
出力 | テキスト エンベディング |
入力トークンの上限 | 2,048 |
出力ディメンション サイズ | 768 |
サポートされている生成方法 |
embed_content
embedContent
|
モデルの安全性 | 調整可能な安全設定はありません。 |
レート制限[*] | 1 分あたり 1,500 回のリクエスト |
最新のアップデート | 2023 年 12 月 |
AQA
AQA モデルを使用すると、ドキュメント、コーパス、または一連の文に対して、Attributed Question-Answering(AQA)関連のタスクを実行できます。AQA モデルは、回答可能な確率を推定し、提供された情報源に基づく質問への回答を返します。
モデルの詳細
プロパティ | 説明 |
---|---|
モデルコード | models/aqa |
入力 | テキスト |
出力 | テキスト |
サポートされている生成方法 |
GenerateAnswerRequest
generateAnswer
|
サポートされている言語 | 英語 |
入力トークンの上限[**] | 7,168 |
出力トークンの上限 [**] | 1,024 |
モデルの安全性 | 自動的に適用される安全性設定(デベロッパーが調整可能)。詳しくは、安全性設定に関するページをご覧ください。 |
レート制限[*] | 1 分あたり 60 回のリクエスト |
最新のアップデート | 2023 年 12 月 |
これらのモデル バリエーションの機能については、例をご覧ください。
[*] トークンは Gemini モデルで約 4 文字に相当します。100 トークンは約 60 ~ 80 英単語です。
[**] RPM: 1 分あたりのリクエスト数
TPM: 1 分あたりのトークン数
RPD: 1 日あたりのリクエスト数
TPD: 1 日あたりのトークン数
容量制限により、指定された最大レート制限は保証されません。
モデル バージョン名のパターン
Gemini モデルには、プレビュー バージョンと安定版があります。コードでは、次のいずれかのモデル名形式を使用して、使用するモデルとバージョンを指定できます。
最新: 指定した世代とバリエーションのモデルの最新バージョンを指します。基盤となるモデルは定期的に更新され、プレビュー版の場合もあります。このエイリアスは、探索的テストのアプリとプロトタイプにのみ使用してください。
最新バージョンを指定するには、
<model>-<generation>-<variation>-latest
のパターンを使用します。例:gemini-1.0-pro-latest
。最新の安定版: 指定したモデル世代とバリエーション向けにリリースされた最新の安定版を指します。
最新の安定版を指定するには、
<model>-<generation>-<variation>
のパターンを使用します。例:gemini-1.0-pro
安定版: 特定の安定版モデルを指します。安定版のモデルは変わりません。ほとんどの本番環境アプリは、特定の安定版モデルを使用する必要があります。
安定版を指定するには、
<model>-<generation>-<variation>-<version>
のパターンを使用します。例:gemini-1.0-pro-001
。
対応言語
Gemini モデルは、次の言語で動作するようにトレーニングされています。
- アラビア語(
ar
) - ベンガル語(
bn
) - ブルガリア語(
bg
) - 中国語(簡体および繁体)(
zh
) - クロアチア語(
hr
) - チェコ語(
cs
) - デンマーク語(
da
) - オランダ語(
nl
) - 英語(
en
), - エストニア語(
et
) - フィンランド語(
fi
) - フランス語(
fr
) - ドイツ語(
de
) - ギリシャ語(
el
) - ヘブライ語(
iw
) - ヒンディー語(
hi
) - ハンガリー語(
hu
) - インドネシア語(
id
) - イタリア語(
it
) - 日本語(
ja
) - 韓国語(
ko
) - ラトビア語(
lv
), - リトアニア語(
lt
) - ノルウェー語(
no
) - ポーランド語(
pl
) - ポルトガル語(
pt
) - ルーマニア語(
ro
) - ロシア語(
ru
) - セルビア語(
sr
) - スロバキア語(
sk
) - スロベニア語(
sl
) - スペイン語(
es
) - スワヒリ語(
sw
) - スウェーデン語(
sv
) - タイ語(
th
) - トルコ語(
tr
) - ウクライナ語(
uk
) - ベトナム語(
vi
)