Modèles Google

Vertex AI propose une liste croissante de modèles de base que vous pouvez tester, déployer et personnaliser pour les utiliser dans vos applications basées sur l'IA. Les modèles de base sont adaptés à des cas d'utilisation spécifiques et proposés à des prix différents. Cette page récapitule les modèles disponibles dans les différentes API et vous guide sur le choix des modèles par cas d'utilisation.

Pour en savoir plus sur tous les modèles d'IA et toutes les API sur Vertex AI, consultez la page Découvrir les modèles d'IA et les API.

Modèles Gemini

Le tableau suivant récapitule les modèles disponibles dans l'API Gemini :

Nom du modèle Description Spécifications
Gemini 1.5 Flash
(gemini-1.5-flash)
Modèle multimodal conçu pour les applications rentables et volumineuses. Gemini 1.5 Flash offre rapidité et efficacité pour créer des applications rapides et peu coûteuses sans faire de compromis sur la qualité. Nombre maximal de jetons (entrée et sortie) : 1 million
Nombre maximal de jetons de sortie : 8 192
Taille maximale de l'image brute : 20 Mo
Taille maximale de l'image encodée en base64 : 7 Mo
Nombre maximal d'images par requête : 3 000
Durée maximale de la vidéo : 1 heure
Nombre maximal de vidéos par requête : 10
Durée audio maximale Environ 8,4 heures
Contenu audio maximal par requête : 1
Taille maximale du fichier PDF : 30 Mo
Données d'entraînement : jusqu'à mai 2024
Gemini 1.5 Pro
(gemini-1.5-pro)
Modèle multimodal qui permet d'ajouter des fichiers image, audio, vidéo et PDF dans des requêtes de texte ou de chat pour une réponse textuelle ou de code. Gemini 1.5 Pro permet de comprendre un contexte de grande taille comprenant jusqu'à un million de jetons. Nombre maximal de jetons (entrée et sortie): 1 million
Nombre maximal de jetons de sortie : 8 192
Nombre maximal d'images par requête : 3 000
Durée maximale de la vidéo (images uniquement) : environ une heure
Durée maximale de la vidéo (image et audio) : environ 45 minutes
Nombre maximal de vidéos par requête : 10
Durée maximale de l'audio : environ 8,4 heures
Contenu audio maximal par requête : 1
Taille maximale du fichier PDF : 30 Mo
Données d'entraînement : jusqu'à mai 2024
Gemini 1.0 Pro
(gemini-1.0-pro)
Modèle le plus performant avec des fonctionnalités pour une large gamme de tâches de texte uniquement.

N'accepte que le texte comme entrée.
Compatible avec le réglage supervisé.
Nombre maximal total de jetons (entrée et sortie) : 32 760
Nombre maximal de jetons de sortie : 8 192
Données d'entraînement : jusqu'à février 2023
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
Le modèle de compréhension d'image/vidéo le plus performant pour gérer un large éventail d'applications.

Accepte le texte, les images et les vidéos comme entrées.
Nombre maximal de jetons (entrée et sortie) : 16 384
Nombre maximal de jetons de sortie : 2 048
Nombre maximal d'images par requête : 16
Durée maximale de la vidéo : 2 minutes
Nombre maximal de vidéos par requête :
Données d'entraînement : jusqu'à février 2023
Gemini 1.0 Ultra (DG avec liste d'autorisation) Modèle de texte le plus performant de Google, optimisé pour les tâches complexes telles que l'instruction, le code et le raisonnement.

N'accepte que du texte en entrée.
Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048
Gemini 1.0 Ultra Vision
(DG avec liste d'autorisation)
Le modèle de vision multimodal le plus performant de Google, optimisé pour accepter les entrées conjointes de texte, d'images et de vidéos. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 2 048

Langages compatibles avec Gemini

Les modèles Gemini sont disponibles dans les langues suivantes :
arabe (ar), bengali (bn), bulgare (bg), chinois simplifié et traditionnel (zh), croate (hr), tchèque (cs), danois (da), néerlandais (nl), anglais (en), estonien (et), finnois (fi), français (fr), allemand (de), grec (el), hébreu (iw), hindi (hi), hongrois (hu), indonésien (id), italien (it), japonais (ja), coréen (ko), letton (lv), lituanien (lt), norvégien (no), polonais (pl), portugais (pt), roumain (ro), russe (ru), serbe (sr), slovaque (sk), slovène (sl), espagnol (es), swahili (sw), suédois (sv), thaï (th), turc (tr), ukrainien (uk), vietnamien (vi).

Modèles d'embeddings

Le tableau suivant récapitule les modèles disponibles dans l'API Embeddings :

Nom du modèle Description Spécifications
Embeddings pour le texte
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Renvoie des embeddings pour les entrées de texte en anglais.

Compatible avec le réglage supervisé des modèles "text-embedding-gecko", en anglais uniquement.
Nombre maximal de jetons d'entrée : 3 072 (textembedding-gecko@001),
2 048 (autres).

Dimension d'embedding : text-embedding-004 : <=768
Autres : 768.
Embeddings pour le texte multilingue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Renvoie des embeddings pour des entrées de texte dans plus de 100 langues

Compatible avec le réglage supervisé du modèle text-multilingual-embedding-002.
Plus de 100 langues acceptées
Nombre maximal de jetons d'entrée : 2 048

Dimension d'embedding : text-multilingual-embedding-002: <=768
Autres : 768
Représentations vectorielles continues multimodales
(multimodalembedding)
Renvoie des embeddings pour les entrées de texte, d'image et de vidéo, afin de comparer le contenu entre différents modèles.

Convertit le texte, les images et les vidéos dans le même espace vectoriel. La vidéo n'est compatible qu'avec 1 408 dimensions.
Anglais uniquement
Nombre maximal de jetons d'entrée : 32,
Taille maximale de l'image : 20 Mo, Durée maximale de la vidéo : deux minutes,

Dimension de l'embedding : 128, 256, 512 ou 1 408 pour l'entrée texte+image, 1 408 pour l'entrée vidéo.

Langues compatibles avec les embeddings

Les modèles d'embeddings multilingues de texte sont compatibles avec les langues suivantes :
afrikaans, albanais, amharique, arabe, arménien, azéri, basque, biélorusse, bengali, bulgare, birman, catalan, cebuano, chewa, chinois, corse, tchèque danois, néerlandais, anglais, esperanto, estonien, philippin, finlandais, français, galicien, géorgien, allemand, grec, gujarati, créole haïtien, haoussa, hawaïen, hébreu, hindi, hmong, hongrois, islandais, igbo, indonésien, irlandais, italien, japonais, javanais, kannada, kazakh, khmer, coréen, kurde, kirghize, lao, latin, letton, lituanien, luxembourgeois, macédonien, malgache, malais, malayalam, malte, maori, marathi, mongolien, népalais, norvégien, pachto, perse, polonais, portugais, pendjabi, roumain, russe, samoan, gaélique écossais, serbe, shona, sindhi, singhalais, slovaque, slovénien, somalien, sotho, espagnol, soudanais, swahili, suédois, tadjik, tamoul, telougou, thaï, turc, ukrainien, ourdou, ouzbek, vietnamien, gallois, frison occidental, xhosa, yiddish, yoruba, zoulou.

Modèle Imagen

Le tableau suivant récapitule les modèles disponibles dans l'API Imagen :

Nom du modèle Description Spécifications
Imagen 2
(imagegeneration@006)
Ce modèle est compatible avec la génération et la modification d'images pour créer des images de haute qualité en quelques secondes.

La fonctionnalité de modification permet de supprimer et d'insérer des objets, de réaliser des outpaintings et de modifier des produits.
Sortie maximale d'image : quatre
Format (pour la génération) : 1:1, 9:16, 16:9, 3:4, 4:3

Résolution : ~1 500 pixels (varie selon le format)

Langues compatibles avec Imagen

Le modèle Imagen est compatible avec les langues suivantes :
anglais, chinois (simplifié), chinois (traditionnel), hindi, japonais, coréen, portugais et espagnol.

Modèles de complétion de code

Le tableau suivant récapitule les modèles disponibles dans les API Codey :

Nom du modèle Description Spécifications
Codey pour la génération de code
(code-bison)
Modèle optimisé pour générer du code en fonction d'une description en langage naturel du code souhaité. Par exemple, il peut générer un test unitaire pour une fonction.

Compatible avec le réglage supervisé
Nombre maximal de jetons d'entrée : 6 144
Nombre maximal de jetons de sortie : 1 024
Codey pour la génération de code 32k
(code-bison-32k)
Capacité semblable à celle de code-bison, mais avec une fenêtre de contexte plus longue

Compatible avec le réglage supervisé
Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Codey pour le chat de code
(codechat-bison)
Modèle optimisé pour les conversations de chatbot qui répondent aux questions sur le code.

Compatible avec le réglage supervisé
Nombre maximal de jetons d'entrée : 6 144
Nombre maximal de jetons de sortie : 1 024
Codey pour le chat de code 32k
(codechat-bison-32k)
Fonctionnalité similaire à celle de codechat-bison, mais avec une fenêtre de contexte plus longue

Compatible avec l'ajustement supervisé
Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
Codey pour la complétion de code
(code-gecko)
Un modèle affiné pour suggérer la complétion de code en fonction du contexte du code écrit. Nombre maximal de jetons d'entrée : 2 048
Nombre maximal de jetons de sortie : 64

Modèles MedLM

Le tableau suivant récapitule les modèles disponibles dans l'API MedLM :

Nom du modèle Description Spécifications
MedLM-medium (medlm-medium) Suite de modèles pour le domaine médical conforme à la loi HIPAA.

Ce modèle aide les professionnels de la santé à répondre à des questions médicales et à résumer des documents médicaux et de santé.
Nombre maximal de jetons (entrée + sortie) : 32 768
Nombre maximal de jetons de sortie : 8 192
MedLM-large (medlm-large) Variante de qualité supérieure de MedLM. Nombre maximal de jetons d'entrée : 8 192
Nombre maximal de jetons de sortie : 1 024

Langues compatibles avec MedLM

Le modèle MedLM est compatible avec la langue anglaise.

Découvrir tous les modèles dans Model Garden

Model Garden est une plate-forme qui vous permet de découvrir, de tester, de personnaliser et de déployer des modèles de Google, puis de sélectionner des modèles et des éléments OSS. Pour explorer les modèles d'IA générative et les API disponibles sur Vertex AI, accédez à Model Garden dans la console Google Cloud.

Accéder à la page "Jardin de modèles"

Pour en savoir plus sur Model Garden, y compris sur les modèles et fonctionnalités disponibles, consultez la page Explorer les modèles d'IA dans Model Garden.

Étapes suivantes