Gemini

O Gemini é uma família de modelos de IA generativa que permite aos desenvolvedores gerar conteúdo e resolver problemas. Esses modelos são projetados e treinados para processar texto e imagens como entrada. Neste guia, fornecemos informações sobre cada variante de modelo para ajudar você a decidir qual é o melhor para seu caso de uso.

Variantes de modelo

A API Gemini oferece modelos diferentes que são otimizados para casos de uso específicos. Confira uma breve visão geral das variantes do Gemini disponíveis:

Variante do modelo Entradas Saída Otimizado para
Gemini 1.5 Pro
gemini-1.5-pro
Áudio, imagens, vídeos e texto Texto Tarefas de raciocínio complexas, como geração de código e texto, edição de texto, resolução de problemas, extração e geração de dados
Gemini 1.5 Flash
gemini-1.5-flash
Áudio, imagens, vídeos e texto Texto Desempenho rápido e versátil para várias tarefas
Gemini 1.0 Pro
gemini-1.0-pro
Texto Texto Tarefas de linguagem natural, chat de código e texto com várias interações e geração de código
(Descontinuado) Gemini 1.0 Pro Vision
gemini-pro-vision
Imagens, vídeos e texto Texto Tarefas relacionadas à aparência, como gerar descrições de imagens ou identificar objetos em imagens
Incorporação de texto
text-embedding-004
Texto Embeddings de textos Medir a relação entre strings de texto

A tabela abaixo descreve os atributos dos modelos Gemini que são comuns a todas as variantes de modelo:

Atributo Descrição
Dados de treinamento O limite de conhecimento do Gemini é novembro de 2023. O conhecimento sobre os eventos após esse período é limitado.
Idiomas disponíveis Confira os idiomas disponíveis
Parâmetros de modelo configuráveis
  • Top-P
  • Top-K
  • Temperatura
  • Sequência de paradas
  • Tamanho máximo da saída
  • Número de respostas candidatas

Consulte a seção de parâmetros do modelo do guia de modelos generativos para ver informações sobre cada um desses parâmetros.

Gemini 1.5 Pro

O Gemini 1.5 Pro é um modelo multimodal de tamanho médio otimizado para uma ampla gama de tarefas de raciocínio, como:

  • Geração de códigos
  • Geração de texto
  • Edição de texto
  • Solução de problemas
  • Geração de recomendações
  • Extração de informações
  • Extração ou geração de dados
  • Criação de agentes de IA

O 1.5 Pro pode processar grandes quantidades de dados de uma só vez, incluindo 1 hora de vídeo, 9,5 horas de áudio, bases de código com mais de 30 mil linhas de código ou 700 mil palavras.

O 1.5 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.5-pro-latest
Entradas Áudio, imagens, vídeo e texto
Saída Texto
Métodos de geração com suporte generateContent
Limite de tokens de entrada[**] 1.048.576
Limite de tokens de saída[**] 8.192
Número máximo de imagens por comando 3.600
Duração máxima do vídeo 1 hora
Duração máxima do áudio Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando 1
Segurança do modelo Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa[*]
Sem custo financeiro:
  • 2 RPM
  • 32.000 TPM
  • 50 rPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 2 milhões de TPM
  • 10.000 RPD
  • 14.400.000.000 TPD
Contexto de dois milhões:
  • 1 RPM
  • 2 milhões de TPM
  • 50 rPD
Instruções do sistema Compatível
Modo JSON Compatível
Versão mais recente gemini-1.5-pro-latest
Versão estável mais recente gemini-1.5-pro
Versões estáveis gemini-1.5-pro-001
Atualização mais recente Maio de 2024

Gemini 1.5 Flash

O Gemini 1.5 Flash é um modelo multimodal rápido e versátil para escalonamento em diversas tarefas.

Detalhes do modelo

Propriedade Descrição
Código do modelo gemini-1.5-flash-latest
Entradas Áudio, imagens, vídeo e texto
Saída Texto
Métodos de geração com suporte generateContent
Limite de tokens de entrada[**] 1.048.576
Limite de tokens de saída[**] 8.192
Número máximo de imagens por comando 3.600
Duração máxima do vídeo 1 hora
Duração máxima do áudio Aproximadamente 9,5 horas
Número máximo de arquivos de áudio por comando 1
Segurança do modelo Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limites de taxa[*]
Sem custo financeiro:
  • 15 RPM
  • 1 milhão TPM
  • RPD 1500
Pay-as-you-go:
  • 1.000 RPM
  • 2 milhões de TPM
Instruções do sistema Compatível
Modo JSON Compatível
Ajuste de modelos Em breve
Versão mais recente gemini-1.5-flash-latest
Versão estável mais recente gemini-1.5-flash
Versões estáveis gemini-1.5-flash-001
Atualização mais recente Maio de 2024

Gemini 1.0 Pro

O Gemini 1.0 Pro é um modelo de PLN que processa tarefas como chat de código e texto com várias interações e geração de código.

O 1.0 Pro é capaz de lidar com tarefas de aprendizado zero, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-1.0-pro
Salvaguardas Texto
Saída Texto
Métodos de geração com suporte
Python: generate_content
REST: generateContent
Limites de taxa[*]
Sem custo financeiro:
  • 15 RPM
  • 32.000 TPM
  • 1.500 RPD
  • 46.080.000 TPD
Pay-as-you-go:
  • 360 RPM
  • 120.000 TPM
  • 30.000 RPD
  • 172.800.000 TPD
Instruções do sistema Sem suporte
Modo JSON Sem suporte
Ajuste de modelos Compatível: gemini-1.0-pro-001
Versão mais recente gemini-1.0-pro-latest
Versão estável mais recente gemini-1.0-pro
Versões estáveis gemini-1.0-pro-001
Atualização mais recente February 2024

Gemini 1.0 Pro Vision (descontinuado)

O Gemini 1.0 Pro Vision é um modelo multimodal com desempenho otimizado que pode realizar tarefas relacionadas a elementos visuais. Por exemplo, o 1.0 Pro Vision pode gerar descrições de imagens, identificar objetos presentes em imagens, fornecer informações sobre lugares ou objetos presentes em imagens e muito mais.

O 1.0 Pro Vision lida com tarefas zero, one-shot e few-shot.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/gemini-pro-vision
Entradas Texto, vídeo e imagens
Saída Texto
Métodos de geração com suporte
Python: generate_content
REST: generateContent
Limite de tokens de entrada[*] 12.288
Limite de tokens de saída[*] 4.096
Tamanho máximo da imagem Sem limite
Número máximo de imagens por comando 16
Duração máxima do vídeo 2 minutos
Número máximo de vídeos por comando 1
Segurança do modelo Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa[*] 60 solicitações por minuto
Versão mais recente gemini-1.0-pro-vision-latest
Versão estável mais recente gemini-1.0-pro-vision
Atualização mais recente Dezembro de 2023

Embedding de textos

Incorporação de texto

É possível usar o modelo de embedding de texto para gerar embeddings de texto para o texto de entrada. Para mais informações sobre o modelo de embedding de texto, acesse a documentação da IA generativa na Vertex AI sobre embeddings de texto.

O modelo de embedding de texto é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens. O embedding de texto tem tamanhos elásticos inferiores a 768. É possível usar embeddings elásticos para gerar dimensões de saída menores e economizar custos de computação e armazenamento com uma pequena perda de desempenho.

Detalhes do modelo
Propriedade Descrição
Código do modelo models/text-embedding-004 (text-embedding-preview-0409 na Vertex AI)
Salvaguardas Texto
Saída Embeddings de textos
Limite de tokens de entrada 2.048
Tamanho da dimensão de saída 768
Métodos de geração com suporte
Python: embed_content
REST: embedContent
Segurança do modelo Não há configurações de segurança ajustáveis.
Limite de taxa[*] 1.500 solicitações por minuto
Atualização mais recente Abril de 2024

Incorporação

É possível usar o modelo de embedding para gerar embeddings de texto para texto de entrada.

O modelo de embedding é otimizado para criar embeddings com 768 dimensões para texto de até 2.048 tokens.

Detalhes do modelo de embedding
Propriedade Descrição
Código do modelo models/embedding-001
Salvaguardas Texto
Saída Embeddings de textos
Limite de tokens de entrada 2.048
Tamanho da dimensão de saída 768
Métodos de geração com suporte
Python: embed_content
REST: embedContent
Segurança do modelo Não há configurações de segurança ajustáveis.
Limite de taxa[*] 1.500 solicitações por minuto
Atualização mais recente Dezembro de 2023

Controle de qualidade (QA, na sigla em inglês)

É possível usar o modelo do AQA para executar tarefas relacionadas a Respostas a perguntas atribuídas (AQA, na sigla em inglês) em um documento, corpus ou um conjunto de trechos. O modelo de AQA retorna respostas para perguntas com base nas fontes fornecidas, além de estimar a probabilidade de resposta.

Detalhes do modelo

Propriedade Descrição
Código do modelo models/aqa
Salvaguardas Texto
Saída Texto
Métodos de geração com suporte
Python: GenerateAnswerRequest
REST: generateAnswer
Idiomas disponíveis Inglês
Limite de tokens de entrada[**] 7.168
Limite de tokens de saída[**] 1.024
Segurança do modelo Configurações de segurança aplicadas automaticamente, que podem ser ajustadas pelos desenvolvedores. Consulte nossa página sobre configurações de segurança para mais detalhes.
Limite de taxa[*] 60 solicitações por minuto
Atualização mais recente Dezembro de 2023

Confira os exemplos para conhecer os recursos dessas variações de modelo.

[*] Um token equivale a cerca de 4 caracteres para modelos do Gemini. 100 tokens equivalem a cerca de 60 a 80 palavras em inglês.

[**] RPM: solicitações por minuto
TPM: tokens por minuto
RPD: solicitações por dia
TPD: tokens por dia

Devido a limitações de capacidade, os limites máximos de taxa especificados não são garantidos.

Padrões de nome da versão do modelo

Os modelos do Gemini estão disponíveis nas versões pré-lançamento ou estável. No código, é possível usar um dos formatos de nome de modelo a seguir para especificar qual modelo e versão você quer usar.

  • Mais recente:aponta para a versão mais moderna do modelo de uma geração e variação especificadas. O modelo subjacente é atualizado regularmente e pode ser uma versão de pré-lançamento. Somente protótipos e apps de teste exploratório precisam usar esse alias.

    Para especificar a versão mais recente, use o seguinte padrão: <model>-<generation>-<variation>-latest. Por exemplo, gemini-1.0-pro-latest.

  • Estável mais recente:aponta para a versão estável mais recente lançada para a geração e variação do modelo especificado.

    Para especificar a versão estável mais recente, use o seguinte padrão: <model>-<generation>-<variation>. Por exemplo, gemini-1.0-pro.

  • Estável:aponta para um modelo estável específico. Os modelos estáveis não mudam. A maioria dos apps de produção precisa usar um modelo estável específico.

    Para especificar uma versão estável, use o seguinte padrão: <model>-<generation>-<variation>-<version>. Por exemplo, gemini-1.0-pro-001.

Idiomas disponíveis

Os modelos do Gemini são treinados para funcionar com as seguintes linguagens:

  • Árabe (ar)
  • Bengalês (bn)
  • Búlgaro (bg)
  • Chinês (simplificado e tradicional) (zh)
  • Croata (hr)
  • República Tcheca (cs)
  • Coreano (da)
  • Holandês (nl)
  • Inglês (en),
  • Estoniano (et)
  • Finlandês (fi)
  • Francês (fr)
  • Alemão (de)
  • Grego (el)
  • Hebraico (iw)
  • Hindi (hi)
  • Húngaro (hu)
  • Indonésio (id)
  • Italiano (it)
  • Japonês (ja)
  • Coreano (ko)
  • Letão (lv),
  • Lituano (lt)
  • Norueguês (no)
  • Polonês (pl)
  • Português (pt)
  • Romeno (ro)
  • Russo (ru)
  • Sérvio (sr)
  • Eslovaco (sk)
  • Esloveno (sl)
  • Espanhol (es)
  • Suaíli (sw)
  • Sueco (sv)
  • Tailandês (th)
  • Turco (tr)
  • Ucraniano (uk)
  • Vietnamita (vi)