Modelli Google

Vertex Generative AI offre un elenco sempre più vasto di modelli di base che puoi testare, eseguire il deployment e personalizzare per l'uso nelle tue applicazioni basate sull'IA. I modelli di base sono ottimizzati per casi d'uso specifici e offerti a diversi prezzi consigliati. Questa pagina riassume i modelli disponibili nelle varie API e offre indicazioni sui modelli da scegliere in base al caso d'uso.

Per saperne di più su tutti i modelli IA e le API su Vertex Generative AI, consulta Esplorare modelli IA e API.

Modelli Gemini

La seguente tabella riassume i modelli disponibili nell'API Gemini:

Nome del modello Descrizione Specifiche
Flash Gemini 1.5
(gemini-1.5-flash)
Modello multimodale progettato per applicazioni convenienti e in volumi elevati. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo senza compromettere la qualità. Numero massimo di token totali (input e output): 1 milione
Numero massimo di token di output: 8192
Dimensioni massime delle immagini non elaborate: 20 MB
Dimensioni massime delle immagini codificate in Base64: 7 MB
Numero massimo di immagini per prompt: 3000
Durata massima del video: 1 ora
Lunghezza massima dell'audio per prompt: 10
Lunghezza massima dell'audio: circa 8,4 ore
3 MB

Gemini 1.5 Pro
(gemini-1.5-pro)
Modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF in prompt di testo o chat per fornire una risposta di testo o codice. Gemini 1.5 Pro supporta la comprensione di contesto lungo con un massimo di 1 milione di token. Numero massimo di token (input e output): 1 milione
Numero massimo di token di output: 8192
Numero massimo di immagini per prompt: 3000
Lunghezza massima del video (solo fotogrammi): circa un'ora
Lunghezza massima del video (frame e audio): circa 45 minuti
Lunghezza massima dei video per prompt: 10
Durata massima dell'audio: circa 8,4 ore
Dimensioni massime dell'audio per prompt: 1 MB

Gemini 1.0 Pro
(gemini-1.0-pro)
Il modello con le prestazioni migliori, con funzionalità per una vasta gamma di attività di solo testo.

Supporta solo testo come input.
Supporta l'ottimizzazione supervisionata.
Numero massimo di token di output (input e output): 32.760
Numero massimo di token di output: 8192
Dati di addestramento: fino a febbraio 2023
Gemini 1.0 Pro Vision
(gemini-1.0-pro-vision)
Il modello di comprensione di immagini/video con le migliori prestazioni per gestire una vasta gamma di applicazioni.

Supporta testo, immagini e video come input.
Numero massimo di token totali (input e output): 16.384
Numero massimo di token di output: 2048
Numero massimo di immagini per prompt: 16
Durata massima video: 2 minuti
Numero massimo di video per prompt: 1
Dati di addestramento: fino a febbraio 2023
Gemini 1.0 Ultra (GA con lista consentita) Il modello di testo più avanzato di Google, ottimizzato per attività complesse, tra cui istruzioni, codice e ragionamento.

Supporta solo testo come input.
Numero massimo di token di input: 8192
Numero massimo di token di output: 2048
Gemini 1.0 Ultra Vision
(GA con lista consentita)
Il miglior modello di visione artificiale multimodale di Google, ottimizzato per supportare input di testo, immagini e video congiunti. Numero massimo di token di input: 8192
Numero massimo di token di output: 2048

I modelli Gemini supportano le seguenti lingue:
arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), inglese (en), estone (et), olandese (nl), francese (fr), tedesco (de), greco (el), slovacco (slovacco), svizzero (slovacco), svizzero (slovacco), indonesiano (slovacco), indonesiano (slovacco),

Modelli di incorporamento

La tabella seguente riassume i modelli disponibili nell'API Embeddings.

Nome del modello Descrizione Specifiche
Incorporamenti per il testo
(textembedding-gecko@001,
textembedding-gecko@002,
textembedding-gecko@003,
text-embedding-004
)
Restituisce incorporamenti per gli input di testo in inglese.

Supporta l'ottimizzazione supervisionata dei modelli "text-embedding-gecko", solo in inglese.
Input massimo di token: 3072 (textembedding-gecko@001),
2048 (altri).

Dimensione di incorporamento: text-embedding-004: <=768
Altre: 768.
Incorporamenti per il testo multilingue
(textembedding-gecko-multilingual@001,
text-multilingual-embedding-002)
Restituisce incorporamenti per input di testo di oltre 100 lingue.

Supporta l'ottimizzazione supervisionata del modello text-multilingual-embedding-002.
Supporta 100 lingue.
Input massimo di token: 2048

Dimensione di incorporamento: text-multilingual-embedding-002: <=768
Altri: 768.
Incorporamenti per multimodali
(multimodalembedding)
Restituisce l'incorporamento per input di testo, immagini e video per confrontare i contenuti in diversi modelli.

Converti testo, immagini e video nello stesso spazio vettoriale. Il video supporta solo le dimensioni 1408.
Solo in inglese
Input token massimo: 32,
Dimensione massima immagine: 20 MB, Durata video massima: due minuti,

Dimensione di incorporamento: 128, 256, 512 o 1408 per l'input di testo e immagine, 1408 per l'input video.


Modello Imagen

La seguente tabella riassume i modelli disponibili nell'API Imagen:

Nome del modello Descrizione Specifiche
Immagine 2
(imagegeneration@006)
Questo modello supporta la generazione e la modifica delle immagini per creare immagini di alta qualità in pochi secondi.

La funzionalità di modifica supporta la rimozione e l'inserimento degli oggetti, l'outpainting e la modifica dei prodotti
Output massimo delle immagini: quattro
Proporzioni (per la generazione): 1:1, 9:16, 16:9, 3:4, 4:3

Risoluzione: ~1500 pixel (varia in base alle proporzioni)

Il modello Imagen supporta le seguenti lingue:
inglese, cinese (semplificato), cinese (tradizionale), hindi, giapponese, coreano, portoghese e spagnolo.

Modelli di completamento del codice

La seguente tabella riassume i modelli disponibili nelle API Codey:

Nome del modello Descrizione Specifiche
Codey per la generazione del codice
(code-bison)
Un modello ottimizzato per generare codice in base a una descrizione in linguaggio naturale del codice desiderato. Ad esempio, può generare un test delle unità per una funzione.

Supporta l'ottimizzazione supervisionata
Numero massimo di token di input: 6144
Numero massimo di token di output: 1024
Codey per la generazione di codice 32k
(code-bison-32k)
Funzionalità simile al code-bison, ma con una finestra di contesto più lunga

Supporta l'ottimizzazione supervisionata
Numero massimo di token (input + output): 32.768
Numero massimo di token di output: 8192
Codey per la chat di codice
(codechat-bison)
Un modello ottimizzato per le conversazioni con chatbot che consentono di rispondere a domande relative al codice.

Supporta l'ottimizzazione supervisionata
Numero massimo di token di input: 6144
Numero massimo di token di output: 1024
Codey per Code Chat 32k
(codechat-bison-32k)
Funzionalità simile a Codechat-bison, ma con una finestra di contesto più lunga

Supporta l'ottimizzazione supervisionata
Numero massimo di token (input + output): 32.768
Numero massimo di token di output: 8192
Codey per il completamento del codice
(code-gecko)
un modello perfezionato per suggerire il completamento del codice in base al contesto. Numero massimo di token di input: 2048
Numero massimo di token di output: 64

Modelli MedLM

La seguente tabella riassume i modelli disponibili nell'API MedLM:

Nome del modello Descrizione Specifiche
MedLM-medium (medlm-medium) Una suite di modelli per il dominio medico che supporta la conformità HIPAA.

Questo modello aiuta gli operatori sanitari con attività di domande e risposte e attività di riepilogo per i documenti sanitari e medici.
Numero massimo di token (input + output): 32.768
Numero massimo di token di output: 8192
Lingue: inglese
MedLM-large (medlm-large) Una variante di MedLM di qualità superiore. Numero massimo di token di input: 8192
Numero massimo di token di output: 1024
Lingue: inglese

Esplora tutti i modelli in Model Garden

Model Garden è una piattaforma che consente di scoprire, testare, personalizzare ed eseguire il deployment di modelli e asset OSS di proprietà di Google e selezionati. Per esplorare le API e i modelli di IA generativa disponibili in Vertex Generative AI, vai a Model Garden nella console Google Cloud.

Vai a Model Garden

Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorazione dei modelli di IA in Model Garden.

Passaggi successivi