Participe da competição de desenvolvedores da API Gemini. Saiba mais

Esta página foi traduzida pela API Cloud Translation.

Gemini

O Gemini é uma família de modelos de IA generativa que permite aos desenvolvedores gerar conteúdo e resolver problemas. Esses modelos são projetados e treinados para processar texto e imagens como entrada. Neste guia, fornecemos informações sobre cada variante de modelo para ajudar você a decidir qual é o melhor para seu caso de uso.

Variantes de modelo

A API Gemini oferece modelos diferentes que são otimizados para casos de uso específicos. Confira uma breve visão geral das variantes do Gemini disponíveis:

Variante do modelo	Entradas	Saída	Otimizado para
Gemini 1.5 Pro `gemini-1.5-pro`	Áudio, imagens, vídeos e texto	Texto	Tarefas de raciocínio complexas, como geração de código e texto, edição de texto, resolução de problemas, extração e geração de dados
Gemini 1.5 Flash `gemini-1.5-flash`	Áudio, imagens, vídeos e texto	Texto	Desempenho rápido e versátil para várias tarefas
Gemini 1.0 Pro `gemini-1.0-pro`	Texto	Texto	Tarefas de linguagem natural, chat de código e texto com várias interações e geração de código
(Descontinuado) Gemini 1.0 Pro Vision `gemini-pro-vision`	Imagens, vídeos e texto	Texto	Tarefas relacionadas à aparência, como gerar descrições de imagens ou identificar objetos em imagens
Incorporação de texto `text-embedding-004`	Texto	Embeddings de textos	Medir a relação entre strings de texto

A tabela abaixo descreve os atributos dos modelos Gemini que são comuns a todas as variantes de modelo:

Atributo	Descrição
Dados de treinamento	O limite de conhecimento do Gemini é novembro de 2023. O conhecimento sobre os eventos após esse período é limitado.
Idiomas disponíveis	Confira os idiomas disponíveis
Parâmetros de modelo configuráveis	Top-P Top-K Temperatura Sequência de paradas Tamanho máximo da saída Número de respostas candidatas

Consulte a seção de parâmetros do modelo do guia de modelos generativos para ver informações sobre cada um desses parâmetros.

Gemini 1.5 Pro

O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla gama de tarefas de raciocínio, como:

Geração de códigos
Geração de texto
Edição de texto
Solução de problemas
Geração de recomendações
Extração de informações
Extração ou geração de dados
Criação de agentes de IA

O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 1 hora de vídeo, 9,5 horas de áudio, bases de código com mais de 30 mil linhas de código ou 700 mil palavras.

O 1.5 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`models/gemini-1.5-pro-latest`
Entradas	Áudio, imagens, vídeo e texto
Saída	Texto
Métodos de geração com suporte	`generateContent`
Limite de tokens de entrada^[**]	1.048.576
Limite de tokens de saída^[**]	8.192
Número máximo de imagens por comando	3.600
Duração máxima do vídeo	1 hora
Duração máxima do áudio	Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando	1
Segurança do modelo	Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa^[*]	Sem custo financeiro: 2 RPM 32.000 TPM 50 rPD 46.080.000 TPD Pay-as-you-go: 360 RPM 2 milhões de TPM 10.000 RPD 14.400.000.000 TPD Contexto de dois milhões: 1 RPM 2 milhões de TPM 50 rPD
Instruções do sistema	Compatível
Modo JSON	Compatível
Versão mais recente	`gemini-1.5-pro-latest`
Versão estável mais recente	`gemini-1.5-pro`
Versões estáveis	`gemini-1.5-pro-001`
Atualização mais recente	Maio de 2024

Gemini 1.5 Flash

O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`gemini-1.5-flash-latest`
Entradas	Áudio, imagens, vídeo e texto
Saída	Texto
Métodos de geração com suporte	`generateContent`
Limite de tokens de entrada^[**]	1.048.576
Limite de tokens de saída^[**]	8.192
Número máximo de imagens por comando	3.600
Duração máxima do vídeo	1 hora
Duração máxima do áudio	Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando	1
Segurança do modelo	Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa^[*]	Sem custo financeiro: 15 RPM 1 milhão TPM RPD 1500 Pay-as-you-go: 1.000 RPM 2 milhões de TPM
Instruções do sistema	Compatível
Modo JSON	Compatível
Ajuste de modelos	Em breve
Versão mais recente	`gemini-1.5-flash-latest`
Versão estável mais recente	`gemini-1.5-flash`
Versões estáveis	`gemini-1.5-flash-001`
Atualização mais recente	Maio de 2024

Gemini 1.0 Pro

O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como chat de código e texto com várias interações e geração de código.

O 1.0 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`models/gemini-1.0-pro`
Salvaguardas	Texto
Saída	Texto
Métodos de geração com suporte	Python: `generate_content` REST: `generateContent`
Limites de taxa^[*]	Sem custo financeiro: 15 RPM 32.000 TPM 1.500 RPD 46.080.000 TPD Pay-as-you-go: 360 RPM 120.000 TPM 30.000 RPD 172.800.000 TPD
Instruções do sistema	Sem suporte
Modo JSON	Sem suporte
Ajuste de modelos	Compatível: `gemini-1.0-pro-001`
Versão mais recente	`gemini-1.0-pro-latest`
Versão estável mais recente	`gemini-1.0-pro`
Versões estáveis	`gemini-1.0-pro-001`
Atualização mais recente	February 2024

Observação:gemini-pro é um alias de gemini-1.0-pro.

Gemini 1.0 Pro Vision (descontinuado)

O Gemini 1.0 Pro Vision é um modelo multimodal com desempenho otimizado que pode realizar tarefas relacionadas a elementos visuais. Por exemplo, o 1.0 Pro Vision pode gerar descrições de imagens, identificar objetos presentes em imagens, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.

O 1.0 Pro Vision lida com tarefas zero, one-shot e few-shot.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`models/gemini-pro-vision`
Entradas	Texto, vídeo e imagens
Saída	Texto
Métodos de geração com suporte	Python: `generate_content` REST: `generateContent`
Limite de tokens de entrada^[*]	12.288
Limite de tokens de saída^[*]	4.096
Tamanho máximo da imagem	Sem limite
Número máximo de imagens por comando	16
Duração máxima do vídeo	2 minutos
Número máximo de vídeos por comando	1
Segurança do modelo	Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa^[*]	60 solicitações por minuto
Versão mais recente	`gemini-1.0-pro-vision-latest`
Versão estável mais recente	`gemini-1.0-pro-vision`
Atualização mais recente	Dezembro de 2023

Embedding de textos

Incorporação de texto

É possível usar o modelo de embedding de texto para gerar embeddings de texto para o texto de entrada. Para mais informações sobre o modelo de embedding de texto, acesse a documentação da IA generativa na Vertex AI sobre embeddings de texto.

O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens. O embedding de texto tem tamanhos elásticos inferiores a 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e economizar custos de computação e armazenamento com uma pequena perda de desempenho.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`models/text-embedding-004` (`text-embedding-preview-0409` na Vertex AI)
Salvaguardas	Texto
Saída	Embeddings de textos
Limite de tokens de entrada	2.048
Tamanho da dimensão de saída	768
Métodos de geração com suporte	Python: `embed_content` REST: `embedContent`
Segurança do modelo	Não há configurações de segurança ajustáveis.
Limite de taxa^[*]	1.500 solicitações por minuto
Atualização mais recente	Abril de 2024

Incorporação

É possível usar o modelo de embedding para gerar embeddings de texto para texto de entrada.

O modelo de embedding é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens.

Detalhes do modelo de embedding

Propriedade	Descrição
Código do modelo	`models/embedding-001`
Salvaguardas	Texto
Saída	Embeddings de textos
Limite de tokens de entrada	2.048
Tamanho da dimensão de saída	768
Métodos de geração com suporte	Python: `embed_content` REST: `embedContent`
Segurança do modelo	Não há configurações de segurança ajustáveis.
Limite de taxa^[*]	1.500 solicitações por minuto
Atualização mais recente	Dezembro de 2023

Controle de qualidade (QA, na sigla em inglês)

É possível usar o modelo do AQA para executar tarefas relacionadas a Respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou um conjunto de trechos. O modelo de AQA retorna respostas para perguntas com base nas fontes fornecidas, além de estimar a probabilidade de resposta.

Detalhes do modelo

Propriedade	Descrição
Código do modelo	`models/aqa`
Salvaguardas	Texto
Saída	Texto
Métodos de geração com suporte	Python: `GenerateAnswerRequest` REST: `generateAnswer`
Idiomas disponíveis	Inglês
Limite de tokens de entrada^[**]	7.168
Limite de tokens de saída^[**]	1.024
Segurança do modelo	Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa^[*]	60 solicitações por minuto
Atualização mais recente	Dezembro de 2023

Confira os exemplos para conhecer os recursos dessas variações de modelo.

[*] Um token equivale a cerca de 4 caracteres para modelos do Gemini. 100 tokens equivalem a cerca de 60 a 80 palavras em inglês.

[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia

Devido a limitações de capacidade, os limites máximos de taxa especificados não são garantidos.

Padrões de nome da versão do modelo

Os modelos do Gemini estão disponíveis nas versões pré-lançamento ou estável. No código, é possível usar um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.

Mais recente:aponta para a versão mais moderna do modelo de uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Somente protótipos e apps de teste exploratório precisam usar esse alias.

Para especificar a versão mais recente, use o seguinte padrão: <model>-<generation>-<variation>-latest. Por exemplo, gemini-1.0-pro-latest.
Estável mais recente:aponta para a versão estável mais recente lançada para a geração e variação do modelo especificado.

Para especificar a versão estável mais recente, use o seguinte padrão: <model>-<generation>-<variation>. Por exemplo, gemini-1.0-pro.
Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.

Para especificar uma versão estável, use o seguinte padrão: <model>-<generation>-<variation>-<version>. Por exemplo, gemini-1.0-pro-001.

Idiomas disponíveis

Os modelos do Gemini são treinados para funcionar com as seguintes linguagens:

Árabe (ar)
Bengalês (bn)
Búlgaro (bg)
Chinês (simplificado e tradicional) (zh)
Croata (hr)
República Tcheca (cs)
Coreano (da)
Holandês (nl)
Inglês (en),
Estoniano (et)
Finlandês (fi)
Francês (fr)
Alemão (de)
Grego (el)
Hebraico (iw)
Hindi (hi)
Húngaro (hu)
Indonésio (id)
Italiano (it)
Japonês (ja)
Coreano (ko)
Letão (lv),
Lituano (lt)
Norueguês (no)
Polonês (pl)
Português (pt)
Romeno (ro)
Russo (ru)
Sérvio (sr)
Eslovaco (sk)
Esloveno (sl)
Espanhol (es)
Suaíli (sw)
Sueco (sv)
Tailandês (th)
Turco (tr)
Ucraniano (uk)
Vietnamita (vi)