IA integrata

Kenji Baheux
Kenji Baheux
Alexandra Klepper
Alexandra Klepper

Quando sviluppiamo funzionalità con i modelli di IA sul web, spesso ci affidiamo a soluzioni lato server per i modelli più grandi. Questo è particolarmente vero per l'IA generativa, in cui anche i modelli più piccoli sono circa mille volte più grandi delle dimensioni mediane delle pagine web. Questo vale anche per altri casi d'uso dell'IA, in cui i modelli possono variare da 10 a 100 di megabyte.

Poiché questi modelli non sono condivisi tra siti web, ogni sito deve scaricarli al caricamento della pagina. Questa è una soluzione non attuabile per sviluppatori e utenti

Sebbene l'IA lato server sia un'ottima opzione per i modelli di grandi dimensioni, gli approcci on-device e ibridi hanno i loro vantaggi interessanti. Per rendere attuabili questi approcci, dobbiamo considerare le dimensioni e la distribuzione del modello.

Ecco perché stiamo sviluppando API per piattaforme web e funzionalità dei browser progettate per integrare i modelli di IA, inclusi i modelli linguistici di grandi dimensioni (LLM), direttamente nel browser. tra cui Gemini Nano, la versione più efficiente della famiglia di modelli LLM Gemini, progettata per essere eseguita in locale sulla maggior parte dei moderni computer desktop e laptop. Con l'IA integrata, il tuo sito web o la tua applicazione web possono eseguire attività basate sull'IA senza la necessità di implementare o gestire i propri modelli di IA.

Scopri i vantaggi dell'IA integrata, il nostro piano di implementazione e come puoi trarre vantaggio da questa tecnologia.

Guarda un'anteprima

Abbiamo bisogno del tuo contributo per dare forma alle API, assicurarci che soddisfino i tuoi casi d'uso e informare le nostre discussioni con altri fornitori di browser per la standardizzazione.

Partecipa al nostro programma di anteprima in anteprima per fornire feedback sulle idee IA integrate nella fase iniziale e scoprire opportunità per testare le API in corso tramite la prototipazione locale.

Unisciti al gruppo di annunci pubblici per gli sviluppatori di Chrome AI per ricevere una notifica quando saranno disponibili nuove API.

Vantaggi dell'IA integrata per gli sviluppatori web

Con l'IA integrata, il tuo browser fornisce e gestisce elementi di base e modelli avanzati.

Rispetto all'IA integrata nel dispositivo, l'IA integrata offre i seguenti vantaggi:

  • Facilità di deployment: quando il browser distribuisce i modelli, prende in considerazione le capacità del dispositivo e gestisce gli aggiornamenti del modello. Ciò significa che non sei responsabile del download o dell'aggiornamento dei modelli di grandi dimensioni su una rete. Non devi risolvere problemi di rimozione dello spazio di archiviazione, budget per la memoria di runtime, costi di gestione e altre sfide.
  • Accesso all'accelerazione hardware: il runtime IA del browser è ottimizzato per sfruttare al meglio l'hardware disponibile, che può essere una GPU, una NPU o la ricorrenza alla CPU. Di conseguenza, la tua app può ottenere le migliori prestazioni su ogni dispositivo.

Vantaggi dell'esecuzione sul dispositivo

Con un approccio integrato all'IA, eseguire attività di IA sul dispositivo diventa banale, il che a sua volta offre i seguenti svantaggi:

  • Elaborazione locale di dati sensibili: l'IA on-device può migliorare la tua storia relativa alla privacy. Ad esempio, se lavori con dati sensibili, puoi offrire funzionalità di IA agli utenti con crittografia end-to-end.
  • Esperienza utente concisa: in alcuni casi, abbandonando il round trip al server, puoi offrire risultati quasi istantanei. L'IA on-device può essere la differenza tra una funzionalità utilizzabile e un'esperienza utente non ottimale.
  • Maggiore accesso all'IA: i dispositivi dei tuoi utenti possono sopportare parte del carico di elaborazione in cambio di un maggiore accesso alle funzionalità. Ad esempio, se offri funzionalità di IA premium, puoi visualizzarle in anteprima con l'IA on-device in modo che i potenziali clienti possano vedere i vantaggi del tuo prodotto, senza costi aggiuntivi. Questo approccio ibrido può aiutarti anche a gestire i costi di inferenza, in particolare per i flussi di utenti utilizzati di frequente.
  • Utilizzo dell'IA offline: i tuoi utenti possono accedere alle funzionalità IA anche quando non è disponibile una connessione a internet. Ciò significa che i tuoi siti e le tue app web possono funzionare come previsto offline o con connettività variabile.

IA ibrida: on-device e lato server

Sebbene l'IA on-device sia in grado di gestire un'ampia gamma di casi d'uso, ci sono alcuni casi d'uso che richiedono il supporto lato server.

Ad esempio, potresti dover utilizzare modelli più grandi o supportare una gamma più ampia di piattaforme e dispositivi.

Puoi prendere in considerazione approcci ibridi, a seconda di:

  • Complessità: i casi d'uso specifici e accessibili sono più facili da supportare con l'IA on-device. Per casi d'uso complessi, prendi in considerazione l'implementazione lato server.
  • Resilienza: per impostazione predefinita utilizza il lato server e on-device quando il dispositivo è offline o la connessione è instabile.
  • Riserva efficace: l'adozione di browser con AI integrata richiederà tempo, alcuni modelli potrebbero non essere disponibili e i dispositivi meno recenti o meno potenti potrebbero non soddisfare i requisiti hardware per l'esecuzione ottimale di tutti i modelli. Offrire a questi utenti l'IA lato server.

Per i modelli Gemini, puoi utilizzare l'integrazione del backend (con Python, Go, Node.js o REST) o implementarla nella tua applicazione web con il nuovo SDK client dell'IA di Google per il web.

Architettura del browser e API

Per supportare l'IA integrata in Chrome, abbiamo creato un'infrastruttura in modo da accedere a modelli di base ed esperti per l'esecuzione on-device. Questa infrastruttura supporta già funzionalità innovative del browser, come Aiutami a scrivere e presto alimenterà le API per l'IA on-device.

Accederai alle funzionalità di IA integrate principalmente con le API attività, ad esempio un'API di traduzione o un'API di riepilogo. Le API Tasks sono progettate per eseguire l'inferenza sul modello migliore per l'assegnazione.

In Chrome, queste API sono progettate per eseguire l'inferenza rispetto a Gemini Nano mediante un'ottimizzazione o un modello esperto. Progettato per essere eseguito in locale sulla maggior parte dei dispositivi moderni, Gemini Nano è la soluzione migliore per i casi d'uso relativi al linguaggio, come riassunti, riformulazioni o categorizzazioni.

Inoltre, intendiamo fornire API esplorative, per consentirti di sperimentare localmente e condividere ulteriori casi d'uso.

Ad esempio, potremmo fornire:

  • API Prompt: invia un'attività arbitraria, espressa in linguaggio naturale, al modello linguistico di grandi dimensioni integrato (Gemini Nano in Chrome).
  • API di ottimizzazione (LoRA): migliora le prestazioni degli LLM integrati in un'attività regolando le ponderazioni del modello con l'ottimizzazione di Low-Rank adatti.
Questo diagramma mostra in che modo il tuo sito web o la tua app possono utilizzare le API delle piattaforme web esplorative e delle attività per accedere ai modelli integrati in Chrome.

Quando utilizzare l'IA integrata

Ecco alcuni vantaggi per te e i tuoi utenti, in cui ci aspettiamo che l'IA integrata:

  • Consumo dei contenuti migliorato con l'IA: includono funzionalità di riassunto, traduzione, risposte a domande su alcuni contenuti, categorizzazione e caratterizzazione.
  • Creazione di contenuti con l'IA: ad esempio assistenza alla scrittura, correzione bozza, correzione grammaticale e riformulazione.

Passaggi successivi

Partecipa al nostro programma di anteprima in anteprima per sperimentare con le API IA integrate nella fase iniziale.

Nel frattempo, puoi scoprire come utilizzare Gemini Pro sui server di Google con i tuoi siti web e le tue app web nella nostra guida rapida per l'SDK JavaScript dell'IA di Google.