参加 Gemini API 开发者竞赛！了解详情

Gemini

Gemini 是一系列生成式 AI 模型，可让开发者生成内容和解决问题。这些模型经过设计和训练，可将文本和图片同时处理为输入。本指南提供了有关每个模型变体的信息，可帮助您确定哪个模型变体最契合您的用例。

模型变体

Gemini API 提供了针对特定应用场景进行了优化的不同模型。下面简要介绍了可用的 Gemini 变体：

模型变体	输入	输出	优化目标
Gemini 1.5 Pro `gemini-1.5-pro`	音频、图片、视频和文本	文字	复杂的推理任务，例如代码和文本生成、文本编辑、问题解决、数据提取和生成
Gemini 1.5 Flash `gemini-1.5-flash`	音频、图片、视频和文本	文字	快速灵活地处理各种任务
Gemini 1.0 Pro `gemini-1.0-pro`	文字	文字	自然语言任务、多轮文本和代码聊天以及代码生成
Gemini 1.0 Pro Vision `gemini-pro-vision`	图片、视频和文字	文字	视觉相关任务，例如生成图片描述或识别图片中的对象
文本嵌入 `text-embedding-004`	文字	文本嵌入	衡量文本字符串的相关性

下表介绍了所有模型变体共有的 Gemini 模型属性：

属性	说明
训练数据	Gemini 的知识截止日期为 2023 年 11 月。对于该时间之后的事件，相关知识会受到限制。
支持的语言	查看支持的语言
可配置的模型参数	前 p 前 k 个温度停止序列最大输出长度候选响应数量

如需了解其中每个参数的信息，请参阅生成模型指南的模型参数部分。

Gemini 1.5 Pro

Gemini 1.5 Pro 是一种中等大小的多模态模型，针对多种推理任务进行了优化，例如：

代码生成
文本生成
文本编辑
解决问题
生成建议
信息提取
数据提取或生成
创建 AI 代理

1.5 Pro 可以同时处理大量数据，包括 1 小时的视频、9.5 小时的音频、包含超过 3 万行代码或超过 70 万字的代码库。

1.5 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性	说明
模型代码	`models/gemini-1.5-pro-latest`
输入	音频、图片、视频和文本
输出	文字
支持的生成方法	`generateContent`
输入令牌限制^[**]	1048576
输出令牌限制^[**]	8192
每个提示的图片数量上限	3,600
视频时长上限	1 小时
音频时长上限	大约 9.5 小时
每个提示的音频文件数量上限	1
模型安全性	自动应用的安全设置，可由开发者调整。如需了解详情，请参阅我们的安全设置页面。
速率限制^[*]	免费： 2 RPM 32,000 TPM 50 RPD 46,080,000 TPD Pay-as-you-go:： 360 每千次展示收入 200 万 TPM 10000 RPD 1,440 万 TPD 两百万个上下文： 1 RPM 200 万 TPM 50 RPD
系统指令	支持
JSON 模式	支持
最新版本	`gemini-1.5-pro-latest`
最新稳定版	`gemini-1.5-pro`
稳定版本	`gemini-1.5-pro-001`
最近更新时间	2024 年 5 月

Gemini 1.5 Flash

Gemini 1.5 Flash 是一种快速且灵活的多模态模型，可用于执行多种任务。

模型详情

属性	说明
模型代码	`gemini-1.5-flash-latest`
输入	音频、图片、视频和文本
输出	文字
支持的生成方法	`generateContent`
输入令牌限制^[**]	1048576
输出令牌限制^[**]	8192
每个提示的图片数量上限	3,600
视频时长上限	1 小时
音频时长上限	大约 9.5 小时
每个提示的音频文件数量上限	1
模型安全性	自动应用的安全设置，可由开发者调整。如需了解详情，请参阅我们的安全设置页面。
速率限制^[*]	免费： 15 RPM 100 万 TPM 1500 RPD Pay-as-you-go:： 1000 RPM 200 万 TPM
系统指令	支持
JSON 模式	支持
模型调优	即将推出
最新版本	`gemini-1.5-flash-latest`
最新稳定版	`gemini-1.5-flash`
稳定版本	`gemini-1.5-flash-001`
最近更新时间	2024 年 5 月

Gemini 1.0 Pro

Gemini 1.0 Pro 是一种 NLP 模型，可以处理多轮文本和代码聊天以及代码生成等任务。

1.0 Pro 能够处理零样本、单样本和少样本学习任务。

模型详情

属性	说明
模型代码	`models/gemini-1.0-pro`
输入	文字
输出	文字
支持的生成方法	Python：`generate_content` REST：`generateContent`
速率限制^[*]	免费： 15 RPM 32,000 TPM 1,500 RPD 46,080,000 TPD Pay-as-you-go:： 360 每千次展示收入 120,000 TPM 30000 RPD 172,800,000 TPD
系统指令	不受支持
JSON 模式	不受支持
模型调优	支持：`gemini-1.0-pro-001`
最新版本	`gemini-1.0-pro-latest`
最新稳定版	`gemini-1.0-pro`
稳定版本	`gemini-1.0-pro-001`
最近更新时间	2024 年 2 月

注意：gemini-pro 是 gemini-1.0-pro 的别名。

Gemini 1.0 Pro Vision

Gemini 1.0 Pro Vision 是一个性能经过优化的多模态模型，可以执行与视觉相关的任务。例如，1.0 Pro Vision 可以生成图片描述，识别图片中的对象，提供图片中地点或对象的相关信息，等等。

1.0 Pro Vision 能够处理零样本、单样本和少样本任务。

模型详情

属性	说明
模型代码	`models/gemini-pro-vision`
输入	文字、视频和图片
输出	文字
支持的生成方法	Python：`generate_content` REST：`generateContent`
输入令牌限制^[*]	12288
输出令牌限制^[*]	4096
图片大小上限	无限制
每个提示的图片数量上限	16
视频时长上限	2 分钟
每个提示的视频数量上限	1
模型安全性	自动应用的安全设置，可由开发者调整。如需了解详情，请参阅我们的安全设置页面。
速率限制^[*]	每分钟 60 个请求
最新版本	`gemini-1.0-pro-vision-latest`
最新稳定版	`gemini-1.0-pro-vision`
最近更新时间	2023 年 12 月

文本嵌入和嵌入

文本嵌入

您可以使用文本嵌入模型为输入文本生成文本嵌入。如需详细了解文本嵌入模型，请参阅关于文本嵌入的 Generative AI on Vertex AI 文档。

文本嵌入模型经优化，可用于创建具有 768 个维度的文本（最多 2048 个词元）的嵌入。文本嵌入可提供低于 768 的弹性嵌入大小。您可以使用弹性嵌入生成较小的输出维度，并且有望节省计算和存储费用，且性能损失微乎其微。

模型详情

属性	说明
模型代码	`models/text-embedding-004`（Vertex AI 中的 `text-embedding-preview-0409`）
输入	文字
输出	文本嵌入
输入令牌限制	2048
输出维度大小	768
支持的生成方法	Python：`embed_content` REST：`embedContent`
模型安全性	没有可调整的安全设置。
速率限制^[*]	每分钟 1,500 个请求
最近更新时间	2024 年 4 月

嵌入

您可以使用 Embedding 模型为输入文本生成文本嵌入。

嵌入模型经过优化，可用于创建具有 768 个维度（最多 2048 个词元的文本）的嵌入。

嵌入模型详情

属性	说明
模型代码	`models/embedding-001`
输入	文字
输出	文本嵌入
输入令牌限制	2048
输出维度大小	768
支持的生成方法	Python：`embed_content` REST：`embedContent`
模型安全性	没有可调整的安全设置。
速率限制^[*]	每分钟 1,500 个请求
最近更新时间	2023 年 12 月

空气质量分析

您可以使用 AQA 模型对文档、语料库或一组段落执行与归因式问答 (AQA) 相关的任务。AQA 模型会返回基于所提供来源的问题的答案，以及估算可回答的概率。

模型详情

属性	说明
模型代码	`models/aqa`
输入	文字
输出	文字
支持的生成方法	Python：`GenerateAnswerRequest` REST：`generateAnswer`
支持的语言	英语
输入令牌限制^[**]	7168
输出令牌限制^[**]	1024
模型安全性	自动应用的安全设置，可由开发者调整。如需了解详情，请参阅我们的安全设置页面。
速率限制^[*]	每分钟 60 个请求
最近更新时间	2023 年 12 月

请参阅示例，探索这些模型变体的功能。

[*] 对于 Gemini 模型来说，一个词元相当于大约 4 个字符。100 个词元约为 60-80 个英语单词。

[**] RPM：每分钟请求数
TPM：每分钟的令牌数
RPD：每日请求数
TPD：每天的令牌数

由于容量限制，不保证指定的最大速率限制。

模型版本名称模式

Gemini 模型提供预览版或稳定版两种版本。在您的代码中，您可以使用以下模型名称格式之一来指定要使用的模型和版本。

最新：指向指定世代和变体的尖端模型。底层模型会定期更新，它可能是预览版。只有探索性测试应用和原型才能使用此别名。

如需指定最新版本，请使用以下格式：<model>-<generation>-<variation>-latest。例如 gemini-1.0-pro-latest。
最新稳定版：指向针对指定的模型生成和变体发布的最新稳定版。

如需指定最新的稳定版，请使用以下格式：<model>-<generation>-<variation>。例如 gemini-1.0-pro。
稳定版：指向特定的稳定版模型。稳定的模型不会改变。大多数正式版应用都应使用特定的稳定模型。

如需指定稳定版，请使用以下格式：<model>-<generation>-<variation>-<version>。例如 gemini-1.0-pro-001。

支持的语言

Gemini 模型经过训练后，可使用以下语言：

阿拉伯语 (ar)
孟加拉语 (bn)
保加利亚语 (bg)
简体中文和繁体中文 (zh)
克罗地亚语 (hr)
捷克语 (cs)
丹麦语 (da)
荷兰语 (nl)
英语（en）、
爱沙尼亚语 (et)
芬兰语 (fi)
法语 (fr)
德语 (de)
希腊语 (el)
希伯来语 (iw)
印地语 (hi)
匈牙利语 (hu)
印度尼西亚语 (id)
意大利语 (it)
日语 (ja)
韩语 (ko)
拉脱维亚语 (lv)、
立陶宛语 (lt)
挪威语 (no)
波兰语 (pl)
葡萄牙语 (pt)
罗马尼亚语 (ro)
俄语 (ru)
塞尔维亚语 (sr)
斯洛伐克语 (sk)
斯洛维尼亚语 (sl)
西班牙语 (es)
斯瓦希里语 (sw)
瑞典语 (sv)
泰语 (th)
土耳其语 (tr)
乌克兰语 (uk)
越南语 (vi)