O Gemini é uma família de modelos de IA generativa que permite aos desenvolvedores gerar conteúdo e resolver problemas. Esses modelos são projetados e treinados para processar texto e imagens como entrada. Neste guia, fornecemos informações sobre cada variante de modelo para ajudar você a decidir qual é o melhor para seu caso de uso.
Variantes de modelo
A API Gemini oferece modelos diferentes que são otimizados para casos de uso específicos. Confira uma breve visão geral das variantes do Gemini disponíveis:
Variante do modelo | Entradas | Saída | Otimizado para |
---|---|---|---|
Gemini 1.5 Pro
gemini-1.5-pro |
Áudio, imagens, vídeos e texto | Texto | Tarefas de raciocínio complexas, como geração de código e texto, edição de texto, resolução de problemas, extração e geração de dados |
Gemini 1.5 Flash
gemini-1.5-flash |
Áudio, imagens, vídeos e texto | Texto | Desempenho rápido e versátil para várias tarefas |
Gemini 1.0 Pro
gemini-1.0-pro |
Texto | Texto | Tarefas de linguagem natural, chat de código e texto com várias interações e geração de código |
(Descontinuado) Gemini 1.0 Pro Vision
gemini-pro-vision
|
Imagens, vídeos e texto | Texto | Tarefas relacionadas à aparência, como gerar descrições de imagens ou identificar objetos em imagens |
Incorporação de texto
text-embedding-004 |
Texto | Embeddings de textos | Medir a relação entre strings de texto |
A tabela abaixo descreve os atributos dos modelos Gemini que são comuns a todas as variantes de modelo:
Atributo | Descrição |
---|---|
Dados de treinamento | O limite de conhecimento do Gemini é novembro de 2023. O conhecimento sobre os eventos após esse período é limitado. |
Idiomas disponíveis | Confira os idiomas disponíveis |
Parâmetros de modelo configuráveis |
|
Consulte a seção de parâmetros do modelo do guia de modelos generativos para ver informações sobre cada um desses parâmetros.
Gemini 1.5 Pro
O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla gama de tarefas de raciocínio, como:
- Geração de códigos
- Geração de texto
- Edição de texto
- Solução de problemas
- Geração de recomendações
- Extração de informações
- Extração ou geração de dados
- Criação de agentes de IA
O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 1 hora de vídeo, 9,5 horas de áudio, bases de código com mais de 30 mil linhas de código ou 700 mil palavras.
O 1.5 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.5-pro-latest |
Entradas | Áudio, imagens, vídeo e texto |
Saída | Texto |
Métodos de geração com suporte |
generateContent
|
Limite de tokens de entrada[**] | 1.048.576 |
Limite de tokens de saída[**] | 8.192 |
Número máximo de imagens por comando | 3.600 |
Duração máxima do vídeo | 1 hora |
Duração máxima do áudio | Aproximadamente 9,5 horas |
Número máximo de arquivos de áudio por comando | 1 |
Segurança do modelo | Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limites de taxa[*] |
|
Instruções do sistema | Compatível |
Modo JSON | Compatível |
Versão mais recente | gemini-1.5-pro-latest |
Versão estável mais recente | gemini-1.5-pro |
Versões estáveis | gemini-1.5-pro-001 |
Atualização mais recente | Maio de 2024 |
Gemini 1.5 Flash
O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | gemini-1.5-flash-latest |
Entradas | Áudio, imagens, vídeo e texto |
Saída | Texto |
Métodos de geração com suporte |
generateContent
|
Limite de tokens de entrada[**] | 1.048.576 |
Limite de tokens de saída[**] | 8.192 |
Número máximo de imagens por comando | 3.600 |
Duração máxima do vídeo | 1 hora |
Duração máxima do áudio | Aproximadamente 9,5 horas |
Número máximo de arquivos de áudio por comando | 1 |
Segurança do modelo | Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limites de taxa[*] |
|
Instruções do sistema | Compatível |
Modo JSON | Compatível |
Ajuste de modelos | Em breve |
Versão mais recente | gemini-1.5-flash-latest |
Versão estável mais recente | gemini-1.5-flash |
Versões estáveis | gemini-1.5-flash-001 |
Atualização mais recente | Maio de 2024 |
Gemini 1.0 Pro
O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como chat de código e texto com várias interações e geração de código.
O 1.0 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-1.0-pro |
Salvaguardas | Texto |
Saída | Texto |
Métodos de geração com suporte |
generate_content
generateContent
|
Limites de taxa[*] |
|
Instruções do sistema | Sem suporte |
Modo JSON | Sem suporte |
Ajuste de modelos | Compatível: gemini-1.0-pro-001 |
Versão mais recente | gemini-1.0-pro-latest |
Versão estável mais recente | gemini-1.0-pro |
Versões estáveis | gemini-1.0-pro-001 |
Atualização mais recente | February 2024 |
Gemini 1.0 Pro Vision (descontinuado)
O Gemini 1.0 Pro Vision é um modelo multimodal com desempenho otimizado que pode realizar tarefas relacionadas a elementos visuais. Por exemplo, o 1.0 Pro Vision pode gerar descrições de imagens, identificar objetos presentes em imagens, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.
O 1.0 Pro Vision lida com tarefas zero, one-shot e few-shot.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/gemini-pro-vision |
Entradas | Texto, vídeo e imagens |
Saída | Texto |
Métodos de geração com suporte |
generate_content
generateContent
|
Limite de tokens de entrada[*] | 12.288 |
Limite de tokens de saída[*] | 4.096 |
Tamanho máximo da imagem | Sem limite |
Número máximo de imagens por comando | 16 |
Duração máxima do vídeo | 2 minutos |
Número máximo de vídeos por comando | 1 |
Segurança do modelo | Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limite de taxa[*] | 60 solicitações por minuto |
Versão mais recente | gemini-1.0-pro-vision-latest |
Versão estável mais recente | gemini-1.0-pro-vision |
Atualização mais recente | Dezembro de 2023 |
Embedding de textos
Incorporação de texto
É possível usar o modelo de embedding de texto para gerar embeddings de texto para o texto de entrada. Para mais informações sobre o modelo de embedding de texto, acesse a documentação da IA generativa na Vertex AI sobre embeddings de texto.
O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens. O embedding de texto tem tamanhos elásticos inferiores a 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e economizar custos de computação e armazenamento com uma pequena perda de desempenho.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo |
models/text-embedding-004
(text-embedding-preview-0409 na
Vertex AI)
|
Salvaguardas | Texto |
Saída | Embeddings de textos |
Limite de tokens de entrada | 2.048 |
Tamanho da dimensão de saída | 768 |
Métodos de geração com suporte |
embed_content
embedContent
|
Segurança do modelo | Não há configurações de segurança ajustáveis. |
Limite de taxa[*] | 1.500 solicitações por minuto |
Atualização mais recente | Abril de 2024 |
Incorporação
É possível usar o modelo de embedding para gerar embeddings de texto para texto de entrada.
O modelo de embedding é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens.
Detalhes do modelo de embedding
Propriedade | Descrição |
---|---|
Código do modelo | models/embedding-001 |
Salvaguardas | Texto |
Saída | Embeddings de textos |
Limite de tokens de entrada | 2.048 |
Tamanho da dimensão de saída | 768 |
Métodos de geração com suporte |
embed_content
embedContent
|
Segurança do modelo | Não há configurações de segurança ajustáveis. |
Limite de taxa[*] | 1.500 solicitações por minuto |
Atualização mais recente | Dezembro de 2023 |
Controle de qualidade (QA, na sigla em inglês)
É possível usar o modelo do AQA para executar tarefas relacionadas a Respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou um conjunto de trechos. O modelo de AQA retorna respostas para perguntas com base nas fontes fornecidas, além de estimar a probabilidade de resposta.
Detalhes do modelo
Propriedade | Descrição |
---|---|
Código do modelo | models/aqa |
Salvaguardas | Texto |
Saída | Texto |
Métodos de geração com suporte |
GenerateAnswerRequest
generateAnswer
|
Idiomas disponíveis | Inglês |
Limite de tokens de entrada[**] | 7.168 |
Limite de tokens de saída[**] | 1.024 |
Segurança do modelo | Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes. |
Limite de taxa[*] | 60 solicitações por minuto |
Atualização mais recente | Dezembro de 2023 |
Confira os exemplos para conhecer os recursos dessas variações de modelo.
[*] Um token equivale a cerca de 4 caracteres para modelos do Gemini. 100 tokens equivalem a cerca de 60 a 80 palavras em inglês.
[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia
Devido a limitações de capacidade, os limites máximos de taxa especificados não são
garantidos.
Padrões de nome da versão do modelo
Os modelos do Gemini estão disponíveis nas versões pré-lançamento ou estável. No código, é possível usar um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.
Mais recente:aponta para a versão mais moderna do modelo de uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Somente protótipos e apps de teste exploratório precisam usar esse alias.
Para especificar a versão mais recente, use o seguinte padrão:
<model>-<generation>-<variation>-latest
. Por exemplo,gemini-1.0-pro-latest
.Estável mais recente:aponta para a versão estável mais recente lançada para a geração e variação do modelo especificado.
Para especificar a versão estável mais recente, use o seguinte padrão:
<model>-<generation>-<variation>
. Por exemplo,gemini-1.0-pro
.Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.
Para especificar uma versão estável, use o seguinte padrão:
<model>-<generation>-<variation>-<version>
. Por exemplo,gemini-1.0-pro-001
.
Idiomas disponíveis
Os modelos do Gemini são treinados para funcionar com as seguintes linguagens:
- Árabe (
ar
) - Bengalês (
bn
) - Búlgaro (
bg
) - Chinês (simplificado e tradicional) (
zh
) - Croata (
hr
) - República Tcheca (
cs
) - Coreano (
da
) - Holandês (
nl
) - Inglês (
en
), - Estoniano (
et
) - Finlandês (
fi
) - Francês (
fr
) - Alemão (
de
) - Grego (
el
) - Hebraico (
iw
) - Hindi (
hi
) - Húngaro (
hu
) - Indonésio (
id
) - Italiano (
it
) - Japonês (
ja
) - Coreano (
ko
) - Letão (
lv
), - Lituano (
lt
) - Norueguês (
no
) - Polonês (
pl
) - Português (
pt
) - Romeno (
ro
) - Russo (
ru
) - Sérvio (
sr
) - Eslovaco (
sk
) - Esloveno (
sl
) - Espanhol (
es
) - Suaíli (
sw
) - Sueco (
sv
) - Tailandês (
th
) - Turco (
tr
) - Ucraniano (
uk
) - Vietnamita (
vi
)