Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione. Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione.

Questa pagina è stata tradotta dall'API Cloud Translation.

Modelli Google

Vertex Generative AI offre un elenco sempre più vasto di modelli di base che puoi testare, eseguire il deployment e personalizzare per l'uso nelle tue applicazioni basate sull'IA. I modelli di base sono ottimizzati per casi d'uso specifici e offerti a diversi prezzi consigliati. Questa pagina riassume i modelli disponibili nelle varie API e offre indicazioni sui modelli da scegliere in base al caso d'uso.

Per saperne di più su tutti i modelli IA e le API su Vertex Generative AI, consulta Esplorare modelli IA e API.

Modelli Gemini

La seguente tabella riassume i modelli disponibili nell'API Gemini:

Nome del modello	Descrizione	Specifiche
Flash Gemini 1.5 (`gemini-1.5-flash`)	Modello multimodale progettato per applicazioni convenienti e in volumi elevati. Gemini 1.5 Flash offre velocità ed efficienza per creare applicazioni rapide e a basso costo senza compromettere la qualità.	Numero massimo di token totali (input e output): 1 milione Numero massimo di token di output: 8192 Dimensioni massime delle immagini non elaborate: 20 MB Dimensioni massime delle immagini codificate in Base64: 7 MB Numero massimo di immagini per prompt: 3000 Durata massima del video: 1 ora Lunghezza massima dell'audio per prompt: 10 Lunghezza massima dell'audio: circa 8,4 ore 3 MB
Gemini 1.5 Pro (`gemini-1.5-pro`)	Modello multimodale che supporta l'aggiunta di file immagine, audio, video e PDF in prompt di testo o chat per fornire una risposta di testo o codice. Gemini 1.5 Pro supporta la comprensione di contesto lungo con un massimo di 1 milione di token.	Numero massimo di token (input e output): 1 milione Numero massimo di token di output: 8192 Numero massimo di immagini per prompt: 3000 Lunghezza massima del video (solo fotogrammi): circa un'ora Lunghezza massima del video (frame e audio): circa 45 minuti Lunghezza massima dei video per prompt: 10 Durata massima dell'audio: circa 8,4 ore Dimensioni massime dell'audio per prompt: 1 MB
Gemini 1.0 Pro (`gemini-1.0-pro`)	Il modello con le prestazioni migliori, con funzionalità per una vasta gamma di attività di solo testo. Supporta solo testo come input. Supporta l'ottimizzazione supervisionata.	Numero massimo di token di output (input e output): 32.760 Numero massimo di token di output: 8192 Dati di addestramento: fino a febbraio 2023
Gemini 1.0 Pro Vision (`gemini-1.0-pro-vision`)	Il modello di comprensione di immagini/video con le migliori prestazioni per gestire una vasta gamma di applicazioni. Supporta testo, immagini e video come input.	Numero massimo di token totali (input e output): 16.384 Numero massimo di token di output: 2048 Numero massimo di immagini per prompt: 16 Durata massima video: 2 minuti Numero massimo di video per prompt: 1 Dati di addestramento: fino a febbraio 2023
Gemini 1.0 Ultra (GA con lista consentita)	Il modello di testo più avanzato di Google, ottimizzato per attività complesse, tra cui istruzioni, codice e ragionamento. Supporta solo testo come input.	Numero massimo di token di input: 8192 Numero massimo di token di output: 2048
Gemini 1.0 Ultra Vision (GA con lista consentita)	Il miglior modello di visione artificiale multimodale di Google, ottimizzato per supportare input di testo, immagini e video congiunti.	Numero massimo di token di input: 8192 Numero massimo di token di output: 2048

I modelli Gemini supportano le seguenti lingue:
arabo (ar), bengalese (bn), bulgaro (bg), cinese semplificato e tradizionale (zh), croato (hr), ceco (cs), danese (da), olandese (nl), inglese (en), estone (et), finlandese (fi), inglese (en), estone (et), olandese (nl), francese (fr), tedesco (de), greco (el), slovacco (slovacco), svizzero (slovacco), svizzero (slovacco), indonesiano (slovacco), indonesiano (slovacco),

Modelli di incorporamento

La tabella seguente riassume i modelli disponibili nell'API Embeddings.

Nome del modello	Descrizione	Specifiche
Incorporamenti per il testo (`textembedding-gecko@001, textembedding-gecko@002, textembedding-gecko@003, text-embedding-004`)	Restituisce incorporamenti per gli input di testo in inglese. Supporta l'ottimizzazione supervisionata dei modelli "text-embedding-gecko", solo in inglese.	Input massimo di token: 3072 (textembedding-gecko@001), 2048 (altri). Dimensione di incorporamento: `text-embedding-004`: <=768 Altre: 768.
Incorporamenti per il testo multilingue `(textembedding-gecko-multilingual@001, text-multilingual-embedding-002)`	Restituisce incorporamenti per input di testo di oltre 100 lingue. Supporta l'ottimizzazione supervisionata del modello `text-multilingual-embedding-002`. Supporta 100 lingue.	Input massimo di token: 2048 Dimensione di incorporamento: `text-multilingual-embedding-002`: <=768 Altri: 768.
Incorporamenti per multimodali `(multimodalembedding)`	Restituisce l'incorporamento per input di testo, immagini e video per confrontare i contenuti in diversi modelli. Converti testo, immagini e video nello stesso spazio vettoriale. Il video supporta solo le dimensioni 1408. Solo in inglese	Input token massimo: 32, Dimensione massima immagine: 20 MB, Durata video massima: due minuti, Dimensione di incorporamento: 128, 256, 512 o 1408 per l'input di testo e immagine, 1408 per l'input video.

Modello Imagen

La seguente tabella riassume i modelli disponibili nell'API Imagen:

Nome del modello	Descrizione	Specifiche
Immagine 2 (`imagegeneration@006)`	Questo modello supporta la generazione e la modifica delle immagini per creare immagini di alta qualità in pochi secondi. La funzionalità di modifica supporta la rimozione e l'inserimento degli oggetti, l'outpainting e la modifica dei prodotti	Output massimo delle immagini: quattro Proporzioni (per la generazione): 1:1, 9:16, 16:9, 3:4, 4:3 Risoluzione: ~1500 pixel (varia in base alle proporzioni)

Il modello Imagen supporta le seguenti lingue:
inglese, cinese (semplificato), cinese (tradizionale), hindi, giapponese, coreano, portoghese e spagnolo.

Modelli di completamento del codice

La seguente tabella riassume i modelli disponibili nelle API Codey:

Nome del modello	Descrizione	Specifiche
Codey per la generazione del codice (`code-bison`)	Un modello ottimizzato per generare codice in base a una descrizione in linguaggio naturale del codice desiderato. Ad esempio, può generare un test delle unità per una funzione. Supporta l'ottimizzazione supervisionata	Numero massimo di token di input: 6144 Numero massimo di token di output: 1024
Codey per la generazione di codice 32k (`code-bison-32k`)	Funzionalità simile al code-bison, ma con una finestra di contesto più lunga Supporta l'ottimizzazione supervisionata	Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192
Codey per la chat di codice (`codechat-bison`)	Un modello ottimizzato per le conversazioni con chatbot che consentono di rispondere a domande relative al codice. Supporta l'ottimizzazione supervisionata	Numero massimo di token di input: 6144 Numero massimo di token di output: 1024
Codey per Code Chat 32k (`codechat-bison-32k`)	Funzionalità simile a Codechat-bison, ma con una finestra di contesto più lunga Supporta l'ottimizzazione supervisionata	Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192
Codey per il completamento del codice (`code-gecko`)	un modello perfezionato per suggerire il completamento del codice in base al contesto.	Numero massimo di token di input: 2048 Numero massimo di token di output: 64

Modelli MedLM

La seguente tabella riassume i modelli disponibili nell'API MedLM:

Nome del modello	Descrizione	Specifiche
MedLM-medium (`medlm-medium`)	Una suite di modelli per il dominio medico che supporta la conformità HIPAA. Questo modello aiuta gli operatori sanitari con attività di domande e risposte e attività di riepilogo per i documenti sanitari e medici.	Numero massimo di token (input + output): 32.768 Numero massimo di token di output: 8192 Lingue: inglese
MedLM-large (`medlm-large`)	Una variante di MedLM di qualità superiore.	Numero massimo di token di input: 8192 Numero massimo di token di output: 1024 Lingue: inglese

Esplora tutti i modelli in Model Garden

Model Garden è una piattaforma che consente di scoprire, testare, personalizzare ed eseguire il deployment di modelli e asset OSS di proprietà di Google e selezionati. Per esplorare le API e i modelli di IA generativa disponibili in Vertex Generative AI, vai a Model Garden nella console Google Cloud.

Vai a Model Garden

Per scoprire di più su Model Garden, inclusi i modelli e le funzionalità disponibili, consulta Esplorazione dei modelli di IA in Model Garden.

Passaggi successivi

Prova un tutorial di avvio rapido con Vertex AI Studio o l'API Vertex AI.
Scopri come testare i prompt di testo.
Scopri come testare le richieste di chat.
Esplora i modelli preaddestrati in Model Garden.
Scopri come ottimizzare un modello di base.
Scopri le best practice per l'IA responsabile e i filtri di sicurezza di Vertex Generative AI.