Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione. Prova i modelli Gemini 1.5, i nostri più recenti modelli multimodali di Vertex AI, e scopri cosa puoi creare con una finestra di contesto dei token da 1 milione.

Questa pagina è stata tradotta dall'API Cloud Translation.

Tipi di voci

Text-to-Speech genera dati audio del parlato naturale, simile a quello umano. In altre parole, crea un suono simile a quello di una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce.

È disponibile un'ampia selezione di voci per Text-to-Speech. Le voci differiscono per lingua, genere e accento (in alcune lingue). Per alcune lingue è possibile scegliere tra più voci. Consulta la pagina Voci supportate per un elenco completo delle voci disponibili nella tua lingua. Puoi indicare a Text-to-Speech di utilizzare una voce specifica di questo elenco impostando i campi VoiceSelectionParams quando invii una richiesta all'API. Per informazioni dettagliate su come inviare una richiesta di synthesize, consulta le guide rapide di Text-to-Speech.

Voci di viaggio

Le voci del percorso, basate su AudioLM, sono voci conversazionali spontanee. Esamina gli esempi positivi per scoprire come utilizzarli. Per scoprire in quali lingue sono disponibili, consulta la tabella delle voci supportate.

Esperienze di chat

en-US-Journey-F

Assistenti virtuali

en-US-Journey-D

Chatbot dell'assistenza clienti

en-US-Journey-F

Applicazioni didattiche interattive

en-US-Journey-O

Vendite e presentazioni

en-US-Journey-D

È tempo di una storia

en-US-Journey-F

Voci casuali (anteprima)

Le voci informali sono state progettate per gestire un dialogo conversazionale e imperfetto, in modo da favorire la naturalezza e il comfort con gli utenti umani. Supportano disfluenze (oh, uh, um, mhm) e hanno una cadenza e un tono più naturali.

Voci di Studio

Le voci di studio sono voci narranti progettate per la lettura di notizie e la trasmissione di contenuti.

Esempio 1. La voce di en-US-Studio-O che legge il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello voce chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia di voce personalizzata senza addestrare la propria. Sono disponibili in endpoint globali e di una singola regione.

Esempio 1. Voce Neural2

Voci WaveNet

L'API Text-to-Speech offre inoltre un gruppo di voci premium generate utilizzando un modello WaveNet, la stessa tecnologia utilizzata per produrre la sintesi vocale per l'Assistente Google, la Ricerca Google e Google Traduttore. La tecnologia WaveNet non offre solo una serie di voci sintetiche, ma rappresenta un nuovo modo per creare la sintesi vocale.

Un elemento WaveNet genera una sintesi vocale più naturale di altri sistemi di sintesi vocale. Sintetizza il parlato con un'enfasi simile a quella umana e influisce su sillabe, fonemi e parole.

Il grafico mostra che WaveNet ha la massima preferenza da parte dei madrelingua Figura 1. Grafico che mostra il confronto tra WaveNet e altre voci sintetiche, voce umana. I valori dell'asse y rappresentano il punteggio medio delle opinioni (MOS) per ciascuna voce. I soggetti del test hanno classificato ogni voce su una scala da 1 a 5 in base a quanto suona come un linguaggio naturale. Per ulteriori informazioni sui punteggi MOS e sulla tecnologia WaveNet, consulta la pagina DeepMind WaveNet.

A differenza della maggior parte degli altri sistemi di sintesi vocale, un modello WaveNet crea forme d'onda audio non elaborate da zero. Il modello usa una rete neurale addestrata con grandi volumi di campioni vocali. Durante l'addestramento, la rete estrae la struttura di base del discorso, ad esempio i toni che si seguono e l'aspetto di una forma d'onda vocale realistica. Quando viene fornito un input di testo, il modello WaveNet addestrato può generare le forme d'onda vocali corrispondenti da zero, un campione alla volta, con un massimo di 24.000 campioni al secondo e transizioni fluide tra i singoli suoni.

Per sentire la differenza tra un clip audio generato da WaveNet e un clip generato da un altro processo di sintesi vocale, confronta i due clip audio riportati di seguito.

Esempio 1. Voce non WaveNet di alta qualità

Esempio 2. voce WaveNet

Voci standard

Le voci offerte da Text-to-Speech si differenziano per il modo in cui vengono prodotte, la tecnologia di sintesi vocale utilizzata per creare il modello di macchina della voce. Una tecnologia di riconoscimento vocale comune, la sintesi vocale parametrica, in genere genera dati audio passando gli output attraverso algoritmi di elaborazione dei segnali noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Text-to-Speech in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Text-to-Speech gratuitamente