Gemini 是一系列生成式 AI 模型,可让开发者生成内容和解决问题。这些模型经过设计和训练,可将文本和图片同时处理为输入。本指南提供了有关每个模型变体的信息,可帮助您确定哪个模型变体最契合您的用例。
模型变体
Gemini API 提供了针对特定应用场景进行了优化的不同模型。下面简要介绍了可用的 Gemini 变体:
模型变体 | 输入 | 输出 | 优化目标 |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
音频、图片、视频和文本 | 文字 | 复杂的推理任务,例如代码和文本生成、文本编辑、问题解决、数据提取和生成 |
Gemini 1.5 Flash
gemini-1.5-flash |
音频、图片、视频和文本 | 文字 | 快速灵活地处理各种任务 |
Gemini 1.0 Pro
gemini-1.0-pro |
文字 | 文字 | 自然语言任务、多轮文本和代码聊天以及代码生成 |
Gemini 1.0 Pro Vision
gemini-pro-vision
|
图片、视频和文字 | 文字 | 视觉相关任务,例如生成图片描述或识别图片中的对象 |
文本嵌入
text-embedding-004 |
文字 | 文本嵌入 | 衡量文本字符串的相关性 |
下表介绍了所有模型变体共有的 Gemini 模型属性:
属性 | 说明 |
---|---|
训练数据 | Gemini 的知识截止日期为 2023 年 11 月。 对于该时间之后的事件,相关知识会受到限制。 |
支持的语言 | 查看支持的语言 |
可配置的模型参数 |
|
如需了解其中每个参数的信息,请参阅生成模型指南的模型参数部分。
Gemini 1.5 Pro
Gemini 1.5 Pro 是一种中等大小的多模态模型,针对多种推理任务进行了优化,例如:
- 代码生成
- 文本生成
- 文本编辑
- 解决问题
- 生成建议
- 信息提取
- 数据提取或生成
- 创建 AI 代理
1.5 Pro 可以同时处理大量数据,包括 1 小时的视频、9.5 小时的音频、包含超过 3 万行代码或超过 70 万字的代码库。
1.5 Pro 能够处理零样本、单样本和少样本学习任务。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-1.5-pro-latest |
输入 | 音频、图片、视频和文本 |
输出 | 文字 |
支持的生成方法 |
generateContent
|
输入令牌限制[**] | 1048576 |
输出令牌限制[**] | 8192 |
每个提示的图片数量上限 | 3,600 |
视频时长上限 | 1 小时 |
音频时长上限 | 大约 9.5 小时 |
每个提示的音频文件数量上限 | 1 |
模型安全性 | 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面。 |
速率限制[*] |
|
系统指令 | 支持 |
JSON 模式 | 支持 |
最新版本 | gemini-1.5-pro-latest |
最新稳定版 | gemini-1.5-pro |
稳定版本 | gemini-1.5-pro-001 |
最近更新时间 | 2024 年 5 月 |
Gemini 1.5 Flash
Gemini 1.5 Flash 是一种快速且灵活的多模态模型,可用于执行多种任务。
模型详情
属性 | 说明 |
---|---|
模型代码 | gemini-1.5-flash-latest |
输入 | 音频、图片、视频和文本 |
输出 | 文字 |
支持的生成方法 |
generateContent
|
输入令牌限制[**] | 1048576 |
输出令牌限制[**] | 8192 |
每个提示的图片数量上限 | 3,600 |
视频时长上限 | 1 小时 |
音频时长上限 | 大约 9.5 小时 |
每个提示的音频文件数量上限 | 1 |
模型安全性 | 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面。 |
速率限制[*] |
|
系统指令 | 支持 |
JSON 模式 | 支持 |
模型调优 | 即将推出 |
最新版本 | gemini-1.5-flash-latest |
最新稳定版 | gemini-1.5-flash |
稳定版本 | gemini-1.5-flash-001 |
最近更新时间 | 2024 年 5 月 |
Gemini 1.0 Pro
Gemini 1.0 Pro 是一种 NLP 模型,可以处理多轮文本和代码聊天以及代码生成等任务。
1.0 Pro 能够处理零样本、单样本和少样本学习任务。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-1.0-pro |
输入 | 文字 |
输出 | 文字 |
支持的生成方法 |
generate_content
generateContent
|
速率限制[*] |
|
系统指令 | 不受支持 |
JSON 模式 | 不受支持 |
模型调优 | 支持:gemini-1.0-pro-001 |
最新版本 | gemini-1.0-pro-latest |
最新稳定版 | gemini-1.0-pro |
稳定版本 | gemini-1.0-pro-001 |
最近更新时间 | 2024 年 2 月 |
Gemini 1.0 Pro Vision
Gemini 1.0 Pro Vision 是一个性能经过优化的多模态模型,可以执行与视觉相关的任务。例如,1.0 Pro Vision 可以生成图片描述,识别图片中的对象,提供图片中地点或对象的相关信息,等等。
1.0 Pro Vision 能够处理零样本、单样本和少样本任务。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/gemini-pro-vision |
输入 | 文字、视频和图片 |
输出 | 文字 |
支持的生成方法 |
generate_content
generateContent
|
输入令牌限制[*] | 12288 |
输出令牌限制[*] | 4096 |
图片大小上限 | 无限制 |
每个提示的图片数量上限 | 16 |
视频时长上限 | 2 分钟 |
每个提示的视频数量上限 | 1 |
模型安全性 | 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面。 |
速率限制[*] | 每分钟 60 个请求 |
最新版本 | gemini-1.0-pro-vision-latest |
最新稳定版 | gemini-1.0-pro-vision |
最近更新时间 | 2023 年 12 月 |
文本嵌入和嵌入
文本嵌入
您可以使用文本嵌入模型为输入文本生成文本嵌入。如需详细了解文本嵌入模型,请参阅关于文本嵌入的 Generative AI on Vertex AI 文档。
文本嵌入模型经优化,可用于创建具有 768 个维度的文本(最多 2048 个词元)的嵌入。文本嵌入可提供低于 768 的弹性嵌入大小。您可以使用弹性嵌入生成较小的输出维度,并且有望节省计算和存储费用,且性能损失微乎其微。
模型详情
属性 | 说明 |
---|---|
模型代码 |
models/text-embedding-004 (Vertex AI 中的 text-embedding-preview-0409 )
|
输入 | 文字 |
输出 | 文本嵌入 |
输入令牌限制 | 2048 |
输出维度大小 | 768 |
支持的生成方法 |
embed_content
embedContent
|
模型安全性 | 没有可调整的安全设置。 |
速率限制[*] | 每分钟 1,500 个请求 |
最近更新时间 | 2024 年 4 月 |
嵌入
您可以使用 Embedding 模型为输入文本生成文本嵌入。
嵌入模型经过优化,可用于创建具有 768 个维度(最多 2048 个词元的文本)的嵌入。
嵌入模型详情
属性 | 说明 |
---|---|
模型代码 | models/embedding-001 |
输入 | 文字 |
输出 | 文本嵌入 |
输入令牌限制 | 2048 |
输出维度大小 | 768 |
支持的生成方法 |
embed_content
embedContent
|
模型安全性 | 没有可调整的安全设置。 |
速率限制[*] | 每分钟 1,500 个请求 |
最近更新时间 | 2023 年 12 月 |
空气质量分析
您可以使用 AQA 模型对文档、语料库或一组段落执行与归因式问答 (AQA) 相关的任务。AQA 模型会返回基于所提供来源的问题的答案,以及估算可回答的概率。
模型详情
属性 | 说明 |
---|---|
模型代码 | models/aqa |
输入 | 文字 |
输出 | 文字 |
支持的生成方法 |
GenerateAnswerRequest
generateAnswer
|
支持的语言 | 英语 |
输入令牌限制[**] | 7168 |
输出令牌限制[**] | 1024 |
模型安全性 | 自动应用的安全设置,可由开发者调整。如需了解详情,请参阅我们的安全设置页面。 |
速率限制[*] | 每分钟 60 个请求 |
最近更新时间 | 2023 年 12 月 |
请参阅示例,探索这些模型变体的功能。
[*] 对于 Gemini 模型来说,一个词元相当于大约 4 个字符。100 个词元约为 60-80 个英语单词。
[**] RPM:每分钟请求数
TPM:每分钟的令牌数
RPD:每日请求数
TPD:每天的令牌数
由于容量限制,不保证指定的最大速率限制。
模型版本名称模式
Gemini 模型提供预览版或稳定版两种版本。在您的代码中,您可以使用以下模型名称格式之一来指定要使用的模型和版本。
最新:指向指定世代和变体的尖端模型。底层模型会定期更新,它可能是预览版。只有探索性测试应用和原型才能使用此别名。
如需指定最新版本,请使用以下格式:
<model>-<generation>-<variation>-latest
。例如gemini-1.0-pro-latest
。最新稳定版:指向针对指定的模型生成和变体发布的最新稳定版。
如需指定最新的稳定版,请使用以下格式:
<model>-<generation>-<variation>
。例如gemini-1.0-pro
。稳定版:指向特定的稳定版模型。稳定的模型不会改变。大多数正式版应用都应使用特定的稳定模型。
如需指定稳定版,请使用以下格式:
<model>-<generation>-<variation>-<version>
。例如gemini-1.0-pro-001
。
支持的语言
Gemini 模型经过训练后,可使用以下语言:
- 阿拉伯语 (
ar
) - 孟加拉语 (
bn
) - 保加利亚语 (
bg
) - 简体中文和繁体中文 (
zh
) - 克罗地亚语 (
hr
) - 捷克语 (
cs
) - 丹麦语 (
da
) - 荷兰语 (
nl
) - 英语(
en
)、 - 爱沙尼亚语 (
et
) - 芬兰语 (
fi
) - 法语 (
fr
) - 德语 (
de
) - 希腊语 (
el
) - 希伯来语 (
iw
) - 印地语 (
hi
) - 匈牙利语 (
hu
) - 印度尼西亚语 (
id
) - 意大利语 (
it
) - 日语 (
ja
) - 韩语 (
ko
) - 拉脱维亚语 (
lv
)、 - 立陶宛语 (
lt
) - 挪威语 (
no
) - 波兰语 (
pl
) - 葡萄牙语 (
pt
) - 罗马尼亚语 (
ro
) - 俄语 (
ru
) - 塞尔维亚语 (
sr
) - 斯洛伐克语 (
sk
) - 斯洛维尼亚语 (
sl
) - 西班牙语 (
es
) - 斯瓦希里语 (
sw
) - 瑞典语 (
sv
) - 泰语 (
th
) - 土耳其语 (
tr
) - 乌克兰语 (
uk
) - 越南语 (
vi
)