Questa pagina è stata tradotta dall'API Cloud Translation.

Glossario del machine learning

Questo glossario contiene i termini generali del machine learning e i termini specifici di TensorFlow.

A

ablazione

Una tecnica per valutare l'importanza di una caratteristica o di un componente mediante la rimozione temporanea da un modello. In seguito, riaddestri il modello senza la funzionalità o il componente e, se il modello riaddestrato ha prestazioni molto peggiori, è probabile che la funzionalità o il componente rimosso siano importanti.

Ad esempio, supponi di addestrare un modello di classificazione su 10 caratteristiche e di ottenere una precisione dell'88% con il set di test. Per verificare l'importanza della prima caratteristica, puoi riaddestrare il modello utilizzando solo le altre nove caratteristiche. Se il modello riaddestrato ha prestazioni molto peggiori (ad esempio, precisione del 55%), probabilmente la caratteristica rimossa era importante. Al contrario, se il modello riaddestrato funziona allo stesso modo, questa caratteristica probabilmente non era così importante.

L'ablazione può anche aiutare a determinare l'importanza di:

Componenti più grandi, ad esempio un intero sottosistema di un sistema ML più grande
Processi o tecniche, come le fasi di pre-elaborazione dei dati

In entrambi i casi, dopo la rimozione del componente, è possibile osservare come cambiano (o non cambiano) le prestazioni del sistema.

Test A/B

Un modo statistico per confrontare due (o più) tecniche: A e B. In genere, la tecnica A è esistente, mentre la tecnica B è una nuova. Il test A/B non solo determina quale tecnica ha il rendimento migliore, ma anche se la differenza è statisticamente significativa.

I test A/B di solito confrontano una singola metrica su due tecniche; ad esempio, qual è la differenza tra l'accuratezza del modello e due tecniche? Tuttavia, il test A/B può confrontare anche qualsiasi numero finito di metriche.

chip dell'acceleratore

#GoogleCloud

Una categoria di componenti hardware specializzati progettati per eseguire calcoli delle chiavi necessari per algoritmi di deep learning.

I chip di acceleratore (o semplicemente gli acceleratori) possono aumentare significativamente la velocità e l'efficienza delle attività di addestramento e inferenza rispetto a una CPU per uso generico. Sono ideali per addestrare reti neurali e attività simili che richiedono molte risorse di calcolo.

Esempi di chip di acceleratori includono:

Tensor Processing Unit (TPU) di Google con hardware dedicato per il deep learning.
Le GPU NVIDIA che, sebbene inizialmente progettate per l'elaborazione grafica, sono progettate per abilitare l'elaborazione parallela, che può aumentare notevolmente la velocità di elaborazione.

accuracy

#fundamentals

Il numero di previsioni di classificazione corrette diviso per il numero totale di previsioni. Ossia:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Ad esempio, un modello che ha effettuato 40 previsioni corrette e 10 previsioni errate avrà un'accuratezza pari a:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

La classificazione binaria fornisce nomi specifici per le diverse categorie di previsioni corrette e previsioni errate. Pertanto, la formula per la classificazione binaria è la seguente:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

dove:

VP è il numero di veri positivi (previsioni corrette).
TN indica il numero di veri negativi (previsioni corrette).
FP è il numero di falsi positivi (previsioni errate).
FN indica il numero di falsi negativi (previsioni errate).

Confronta la precisione con precisione e richiamo.

Fai clic sull'icona per visualizzare altre note.

Sebbene sia una metrica preziosa per alcune situazioni, la precisione è estremamente fuorviante per altre. In particolare, l'accuratezza è di solito una metrica inadeguata per valutare i modelli di classificazione che elaborano set di dati con squilibrio di classe.

Ad esempio, supponiamo che la neve cade solo 25 giorni al secolo in una determinata città subtropicale. Poiché i giorni senza neve (classe negativa) superano di gran lunga il numero dei giorni con la neve (classe positiva), il set di dati sulle nevi per questa città è sbilanciato per classe. Immagina un modello di classificazione binaria che dovrebbe prevedere se ogni giorno nevicate o nevicate ogni giorno, ma che prevede semplicemente "nessuna neve" ogni giorno. Questo modello è molto preciso, ma non ha una capacità predittiva. La seguente tabella riassume i risultati di un secolo di previsioni:

Categoria	Numero
VP	0
VN	36500
FP	25
FN	0

L'accuratezza di questo modello è quindi:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Sebbene un'accuratezza del 99,93% sembri davvero una percentuale impressionante, il modello in realtà non ha una capacità predittiva.

La precisione e il richiamo sono in genere metriche più utili dell'accuratezza per valutare i modelli addestrati su set di dati sbilanciati di classe.

azione

#rl

Nel reinforcement learning, il meccanismo mediante il quale l'agente esegue le transizioni tra gli stati dell' ambiente. L'agente sceglie l'azione utilizzando un criterio.

funzione di attivazione

#fundamentals

Una funzione che consente alle reti neurali di apprendere relazioni non lineari (complesse) tra le caratteristiche e l'etichetta.

Le funzioni di attivazione più comuni includono:

I grafici delle funzioni di attivazione non sono mai linee rette singole. Ad esempio, il grafico della funzione di attivazione ReLU è costituito da due linee rette:

Un grafico cartesiano di due linee. La prima linea ha un valore y
costante pari a 0, che corre lungo l'asse x da -infinito,0 a 0,-0.
La seconda riga inizia da 0,0. Questa linea ha una pendenza di +1, quindi va da 0,0 a +infinito,+infinito.

Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

Un grafico curvo bidimensionale con valori x che coprono il dominio
da -infinito a +positivo, mentre i valori di y coprono l'intervallo da quasi 0
a quasi 1. Quando x è 0, y è 0,5. La pendenza della curva è sempre positiva, con la pendenza più alta a 0,0,5 e che diminuisce gradualmente con l'aumento del valore assoluto di x.

Fai clic sull'icona per visualizzare un esempio.

In una rete neurale, le funzioni di attivazione manipolano la somma ponderata di tutti gli input in un neurone. Per calcolare una somma ponderata, il neurone somma i prodotti dei valori e delle ponderazioni pertinenti. Ad esempio, supponiamo che l'input pertinente a un neurone sia costituito da quanto segue:

valore di input	peso inserito
2	-1,3
-1	0,6
3	0,4

Di conseguenza, la somma ponderata è:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Supponiamo che il progettista della rete neurale scelga la funzione sigmoidea come funzione di attivazione. In questo caso, il neurone calcola il sigmoide di -2,0, che corrisponde a circa 0,12. Pertanto, il neurone passa 0,12 (anziché -2,0) allo strato successivo della rete neurale. La figura seguente illustra la parte pertinente della procedura:

apprendimento attivo

Un approccio di addestramento in cui l'algoritmo sceglie alcuni dei dati da cui apprende. L'apprendimento attivo è particolarmente utile quando gli esempi etichettati sono scarsi o costosi da ottenere. Invece di cercare alla cieca una gamma diversificata di esempi etichettati, un algoritmo di apprendimento attivo cerca in modo selettivo la particolare gamma di esempi di cui ha bisogno per l'apprendimento.

AdaGrad

Un sofisticato algoritmo di discesa del gradiente che scala i gradienti di ogni parametro, fornendo in modo efficace a ogni parametro un tasso di apprendimento indipendente. Per una spiegazione completa, consulta questo articolo di AdaGrad.

agente

#rl

Nel reinforcement learning, l'entità che utilizza una policy per massimizzare il ritorno previsto ottenuto dalla transizione tra stati dell' ambiente.

Più in generale, un agente è un software che pianifica ed esegue in modo autonomo una serie di azioni nel perseguire un obiettivo, con la capacità di adattarsi ai cambiamenti nel proprio ambiente. Ad esempio, gli agenti basati su LLM potrebbero utilizzare l'LLM per generare un piano, anziché applicare un criterio di apprendimento per rinforzo.

clustering agglomerativo

#clustering

Consulta il clustering gerarchico.

rilevamento di anomalie

Il processo di identificazione degli outlier. Ad esempio, se la media per una determinata caratteristica è 100 con una deviazione standard pari a 10, il rilevamento di anomalie dovrebbe segnalare un valore pari a 200 come sospetto.

AR

Abbreviazione di realtà aumentata.

area sotto la curva PR

Consulta la sezione AUC PR (area sotto la curva PR).

area sotto la curva ROC

Consulta la sezione AUC (area sotto la curva ROC).

intelligenza artificiale generale

Un meccanismo non umano che dimostra una vasta gamma di capacità di risoluzione dei problemi, creatività e adattabilità. Ad esempio, un programma che dimostra l'intelligenza artificiale generale potrebbe tradurre testi, comporre sinfonie ed eccellere in giochi non ancora inventati.

l'intelligenza artificiale

#fundamentals

Un programma o un model generato da strumenti automatici in grado di risolvere attività sofisticate. Ad esempio, un programma o un modello che traduce un testo oppure un programma o un modello che identifica le malattie dalle immagini radiologiche sono entrambi dotati di intelligenza artificiale.

formalmente, il machine learning è un campo secondario dell'intelligenza artificiale. Tuttavia, negli ultimi anni, alcune organizzazioni hanno iniziato a usare i termini intelligenza artificiale e machine learning in modo intercambiabile.

Attention,

#language

Meccanismo utilizzato in una rete neurale che indica l'importanza di una determinata parola o parte di una parola. L'attenzione comprime la quantità di informazioni di cui un modello ha bisogno per prevedere il token/la parola successiva. Un tipico meccanismo di attenzione può essere costituito da una somma ponderata su un insieme di input, in cui il peso per ogni input viene calcolato da un'altra parte della rete neurale.

Fai riferimento anche agli argomenti auto-attenzione e auto-attenzione multi-testa, che sono i componenti di base dei trasformatori.

attributo

#fairness

Sinonimo di feature.

Nell'equità del machine learning, gli attributi spesso si riferiscono a caratteristiche

campionamento degli attributi

#df

Una tattica per addestrare una foresta decisionale in cui ogni albero decisionale prende in considerazione solo un sottoinsieme casuale di caratteristiche quando apprende la condizione. Di solito, viene campionato un sottoinsieme diverso di caratteristiche per ogni nodo. Al contrario, quando si addestra un albero decisionale senza campionamento degli attributi, vengono prese in considerazione tutte le caratteristiche possibili per ogni nodo.

AUC (area sotto la curva ROC)

#fundamentals

Un numero compreso tra 0,0 e 1,0 che rappresenta la capacità di un modello di classificazione binaria di separare le classi positive dalle classi negative. Più l'AUC è vicina a 1,0, migliore è la capacità del modello di separare le classi l'una dall'altra.

Ad esempio, l'illustrazione seguente mostra un modello di classificazione che separa perfettamente le classi positive (ovali verdi) da quelle negative (rettangoli viola). Questo modello irrealisticamente perfetto ha un'AUC pari a 1,0:

Una linea dei numeri con 8 esempi positivi su un lato e 9 esempi negativi sull'altro lato.

Al contrario, l'illustrazione seguente mostra i risultati per un modello di classificazione che ha generato risultati casuali. Questo modello ha un'AUC di 0,5:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa, positiva, negativa.

Sì, il modello precedente ha un'AUC di 0,5, non di 0,0.

La maggior parte dei modelli si trova a metà tra i due estremi. Ad esempio, il seguente modello separa in qualche modo i positivi dai negativi e pertanto ha un'AUC compresa tra 0,5 e 1,0:

Una linea dei numeri con 6 esempi positivi e 6 esempi negativi.
La sequenza di esempi è negativa, negativa, negativa, negativa, positiva, positiva, negativa, positiva, positiva, negativa, positiva, positiva, positiva.

L'AUC ignora qualsiasi valore impostato per la soglia di classificazione. L'AUC prende invece in considerazione tutte le possibili soglie di classificazione.

Fai clic sull'icona per ulteriori informazioni sulla relazione tra le curve AUC e ROC.

L'AUC rappresenta l'area sotto una curva ROC. Ad esempio, la curva ROC per un modello che separa perfettamente i positivi dai negativi ha il seguente aspetto:

L'AUC è l'area della regione grigia nell'illustrazione precedente. In questo caso insolito, l'area corrisponde semplicemente alla lunghezza della regione grigia (1,0) moltiplicata per la larghezza della regione grigia (1,0). Pertanto, il prodotto 1,0 e 1,0 restituisce un'AUC esattamente di 1,0, che è il punteggio AUC più alto possibile.

Al contrario, la curva ROC per un classificatore che non può separare le classi è la seguente. L'area di questa regione grigia è pari a 0,5.

Una curva ROC più tipica ha il seguente aspetto:

Sarebbe difficile calcolare manualmente l'area sotto questa curva, motivo per cui un programma in genere calcola la maggior parte dei valori dell'AUC.

Fai clic sull'icona per una definizione più formale di AUC.

L'AUC è la probabilità che un classificatore sia più sicuro che un esempio positivo scelto in modo casuale sia effettivamente positivo rispetto che un esempio negativo scelto in modo casuale sia positivo.

realtà aumentata

#image

Tecnologia che sovrappone un'immagine generata da computer alla vista dell'utente del mondo reale, fornendo una vista composita.

autoencoder

#language

#image

un sistema che impara a estrarre le informazioni più importanti dall'input. Gli autoencoder sono una combinazione di encoder e decoder. I codificatori automatici si basano sul seguente processo in due passaggi:

L'encoder mappa l'input a un formato (in genere) a basso dimensionamento (intermedio) con perdita di dati.
Il decoder crea una versione con perdita di dati dell'input originale mappando il formato a dimensioni inferiori al formato di input a più dimensioni originali.

Gli autoencoder vengono addestrati end-to-end facendo in modo che il decoder provi a ricostruire l'input originale dal formato intermedio dell'encoder il più fedelmente possibile. Poiché il formato intermedio è più piccolo (dimensionale inferiore) rispetto al formato originale, il codificatore automatico è costretto a capire quali informazioni nell'input sono essenziali e l'output non sarà perfettamente identico all'input.

Ad esempio:

Se i dati di input sono grafici, la copia non esatta sarebbe simile all'immagine originale, ma in qualche modo modificata. Forse la copia non esatta rimuove il rumore dall'immagine originale o riempie alcuni pixel mancanti.
Se i dati di input sono testuali, un autoencoder genera un nuovo testo che imita (ma non è identico) il testo originale.

Vedi anche Autoencoder variazionali.

bias di automazione

#fairness

Quando un responsabile delle decisioni umano preferisce i consigli forniti da un sistema decisionale automatico rispetto alle informazioni fornite senza automazione, anche quando il sistema decisionale automatizzato commette errori.

AutoML

Qualsiasi processo automatizzato per la creazione di modelli di machine learning. AutoML può eseguire automaticamente attività come le seguenti:

Cercare il modello più appropriato.
Ottimizza gli iperparametri.
Preparare i dati (compresa l'esecuzione del feature engineering).
Eseguire il deployment del modello risultante.

AutoML è utile per i data scientist perché consente loro di risparmiare tempo e fatica nello sviluppo di pipeline di machine learning e migliorare la precisione delle previsioni. È utile anche per i non esperti, rendendo più accessibili le attività di machine learning complicate.

modello autoregressivo

#language

#image

#IAgenerativa

Un model che deduce una previsione in base alle proprie previsioni precedenti. Ad esempio, i modelli linguistici autoregressivi prevedono il token successivo in base ai token previsti in precedenza. Tutti i modelli linguistici di grandi dimensioni basati su Transformer sono autoregressivi.

Al contrario, i modelli di immagine basati su GAN di solito non sono autoregressivi perché generano un'immagine in un unico progresso in avanti e non in modo iterativo in passaggi. Tuttavia, alcuni modelli di generazione delle immagini sono autoregressivi in modo automatico perché generano un'immagine in passaggi.

perdita ausiliaria

Una funzione di perdita, utilizzata insieme alla funzione di perdita principale di una rete neurale del modello, che aiuta ad accelerare l'addestramento durante le prime iterazioni, quando i pesi vengono inizializzati in modo casuale.

Le funzioni di perdita ausiliaria eseguono il push dei gradienti effettivi agli livelli precedenti. Ciò facilita la convergenza durante l'addestramento combattendo il problema della scomparsa del gradiente.

precisione media

Una metrica per riepilogare il rendimento di una sequenza di risultati classificata. La precisione media viene calcolata prendendo la media dei valori della precisione per ogni risultato pertinente (ogni risultato nell'elenco classificato in cui il richiamo aumenta rispetto al risultato precedente).

Vedi anche Area sotto la curva PR.

condizione allineata all'asse

#df

In un albero decisionale, una condizione che riguarda una sola caratteristica. Ad esempio, se l'area è una caratteristica, la seguente condizione è allineata all'asse:

area > 200

Contrasta la condizione obliqua.

B

retropropagazione dell'errore

#fundamentals

L'algoritmo che implementa la discesa del gradiente nelle reti neurali.

L'addestramento di una rete neurale prevede molte iterazioni del seguente ciclo a due passaggi:

Durante il passaggio in avanti, il sistema elabora un batch di esempi per restituire previsioni. Il sistema confronta ogni previsione con ciascun valore dell'etichetta. La differenza tra la previsione e il valore dell'etichetta è la perdita per l'esempio. Il sistema aggrega le perdite per tutti gli esempi per calcolare la perdita totale per il batch attuale.
Durante il passaggio all'indietro (retropropagazione dell'errore), il sistema riduce la perdita regolando le ponderazioni di tutti i neuroni in tutti gli strati nascosti.

Le reti neurali spesso contengono molti neuroni in molti strati nascosti. Ciascuno di questi neuroni contribuisce alla perdita complessiva in modi diversi. La retropropagazione dell'errore determina se aumentare o diminuire le ponderazioni applicate a determinati neuroni.

Il tasso di apprendimento è un moltiplicatore che controlla la misura in cui ogni passaggio all'indietro aumenta o diminuisce ogni peso. Un tasso di apprendimento elevato aumenta o diminuisce ogni peso maggiormente rispetto a un tasso di apprendimento ridotto.

In termini di calcolo, la retropropagazione implementa la regola della catena dal calcolo. In altre parole, la retropropagazione dell'errore calcola la derivata parziale dell'errore in base a ciascun parametro.

Anni fa, i professionisti del ML dovevano scrivere codice per implementare la retropropagazione dell'errore. Le API ML moderne come TensorFlow ora implementano la retropropagazione dell'errore per te. Finalmente.

insaccare

#df

Un metodo per addestrare un ensemble in cui ogni componente modello viene addestrato su un sottoinsieme casuale di esempi di addestramento campionati con sostituzione. Ad esempio, una foresta casuale è una raccolta di alberi decisionali addestrati con il bagging.

Il termine bagging è l'abbreviazione di bootstrap aggregating.

sacchetto di parole

#language

Una rappresentazione delle parole in una frase o in un passaggio, indipendentemente dall'ordine. Ad esempio, "sacchetto di parole" rappresenta tre frasi in modo identico:

il cane salta
fa saltare il cane
cane salta

Ogni parola è mappata a un indice di un vettore sparso, dove il vettore ha un indice per ogni parola del vocabolario. Ad esempio, la frase il cane salta è mappata in un vettore di caratteristiche con valori diversi da zero nei tre indici corrispondenti alle parole the, dog e jumps. Il valore diverso da zero può essere:

Un 1 per indicare la presenza di una parola.
Un conteggio del numero di volte in cui una parola compare nella borsa. Ad esempio, se la frase il cane granata è un cane con la pelliccia granata, sia marrone rossiccio che cane sarebbero rappresentati come 2, mentre le altre parole sarebbero rappresentate come 1.
Un altro valore, ad esempio il logaritmo del conteggio del numero di volte in cui una parola compare nella borsa,

base di riferimento

Un model utilizzato come punto di riferimento per confrontare il rendimento di un altro modello (in genere, uno più complesso). Ad esempio, un modello di regressione logistica potrebbe fungere da buona base di riferimento per un modello profondo.

Per un problema specifico, la base aiuta gli sviluppatori di modelli a quantificare le prestazioni minime previste che un nuovo modello deve raggiungere affinché il nuovo modello sia utile.

batch

#fundamentals

L'insieme di esempi utilizzati in un'iterazione di addestramento. La dimensione del batch determina il numero di esempi in un batch.

Consulta la sezione epoch per una spiegazione della correlazione tra batch a un'epoca.

inferenza batch

#TensorFlow

#GoogleCloud

Il processo di deduzione delle previsioni su più esempi senza etichetta suddivisi in sottoinsiemi più piccoli ("batch").

L'inferenza batch può sfruttare le funzionalità di parallelizzazione dei chip di acceleratore. In altre parole, più acceleratori possono dedurre contemporaneamente previsioni su diversi batch di esempi non etichettati, aumentando notevolmente il numero di inferenze al secondo.

normalizzazione batch

Normalizzare l'input o l'output delle funzioni di attivazione in uno strato nascosto. La normalizzazione batch può offrire i seguenti vantaggi:

Rendi le reti neurali più stabili proteggendo dai pesi outlier.
Abilita tassi di apprendimento più elevati, che possono velocizzare l'addestramento.
Ridurre l'overfitting.

dimensione del batch

#fundamentals

Il numero di esempi in un batch. Ad esempio, se la dimensione del batch è 100, il modello elabora 100 esempi per iterazione.

Di seguito sono riportate alcune strategie molto comuni per la dimensione dei batch:

Stochastic Gradient Descent (SGD), con dimensione del batch pari a 1.
Batch completo, in cui la dimensione del batch corrisponde al numero di esempi nell'intero set di addestramento. Ad esempio, se il set di addestramento contiene un milione di esempi, la dimensione del batch corrisponde a un milione di esempi. Generalmente, l'intero batch è una strategia inefficiente.
mini-batch in cui la dimensione del batch è solitamente compresa tra 10 e 1000. Il mini-batch è in genere la strategia più efficiente.

Rete neurale bayesiana

Una rete neurale probabilistica che spiega l'incertezza nelle ponderazioni e negli output. Un modello di regressione di rete neurale standard in genere prevede un valore scalare; ad esempio, un modello standard prevede un prezzo degli immobili di 853.000. Al contrario, una rete neurale bayesiana prevede una distribuzione di valori; ad esempio, un modello bayesiano prevede un prezzo delle abitazioni di 853.000 con una deviazione standard di 67.200.

Una rete neurale bayesiana si basa sul teorema di Bayes per calcolare le incertezze nelle ponderazioni e nelle previsioni. Una rete neurale bayesiana può essere utile quando è importante quantificare l'incertezza, ad esempio nei modelli correlati al settore farmaceutico. Le reti neurali bayesiani possono anche aiutare a prevenire l'overfitting.

Ottimizzazione bayesiana

Una tecnica di modello di regressione probabilistica per ottimizzare le funzioni oggettive costose dal punto di vista computazionale mediante l'ottimizzazione di un surrogato che quantifica l'incertezza utilizzando una tecnica di apprendimento bayesiana. Poiché l'ottimizzazione bayesiana è molto costosa, di solito viene utilizzata per ottimizzare attività costose da valutare con un numero ridotto di parametri, come la selezione di iperparametri.

Equazione di Bellman

#rl

Nell'apprendimento per rinforzo, la seguente identità è soddisfatta dalla funzione Q ottimale:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Gli algoritmi di apprendimento per rinforzo applicano questa identità per creare Q-learning tramite la seguente regola di aggiornamento:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Oltre all'apprendimento per rinforzo, l'equazione di Bellman ha applicazioni alla programmazione dinamica. Consulta la voce su Wikipedia relativa all'equazione di Bellman.

BERT (Bidirectional Encoder Representations from Transformers)

#language

Un'architettura modello per la rappresentazione del testo. Un modello BERT addestrato può agire come parte di un modello più grande per la classificazione del testo o altre attività di ML.

BERT ha le seguenti caratteristiche:

Utilizza l'architettura Transformer e, pertanto, si basa sull'auto-attenzione.
Utilizza la parte encoder del Transformer. Il compito dell'encoder è produrre valide rappresentazioni di testo, piuttosto che eseguire attività specifiche come la classificazione.
È bidirezionale.
Utilizza il masking per l'addestramento non supervisionato.

Le varianti di BERT includono:

ALBERT, che è l'acronimo di A Lotto BERT.
LaBSE.

Consulta BERT Open Sourcing: Pre-training State-of-the-Art per l'elaborazione del linguaggio naturale per una panoramica di BERT.

pregiudizi (etica/equità)

#fairness

#fundamentals

1. Stereotipi, pregiudizi o pregiudizi nei confronti di alcuni contenuti, persone o gruppi rispetto ad altri. Questi bias possono influenzare la raccolta e l'interpretazione dei dati, la progettazione di un sistema e il modo in cui gli utenti interagiscono con il sistema. Le forme di questo tipo di bias includono:

2. Errore sistematico introdotto da una procedura di campionamento o di reporting. Le forme di questo tipo di bias includono:

Da non confondere con il termine di bias nei modelli di machine learning o con bias di previsione.

bias (matematico) o termine bias

#fundamentals

Un'intercetta o un offset da un'origine. Il bias è un parametro nei modelli di machine learning, che è simbolizzato da uno dei seguenti elementi:

b
s₀

Ad esempio, la parzialità è la b nella seguente formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

In una semplice linea bidimensionale, il bias significa semplicemente "intercetta y". Ad esempio, la parzialità della linea nell'illustrazione seguente è 2.

Traccia di una retta con pendenza pari a 0,5 e bias (intercetta y) pari a 2.

Il bias esiste perché non tutti i modelli partono dall'origine (0,0). Ad esempio, supponiamo che l'ingresso in un parco divertimenti costi 2 euro e ulteriori 0,5 euro per ogni ora di soggiorno del cliente. Pertanto, un modello che mappa il costo totale ha una parzialità pari a 2, perché il costo più basso è di 2 euro.

I pregiudizi non devono essere confusi con i pregiudizi etici ed etici o con i pregiudizi relativi alle previsioni.

bidirezionale

#language

Termine utilizzato per descrivere un sistema che valuta il testo che precede e segue una sezione di testo di destinazione. Al contrario, un sistema unidirezionale valuta solo il testo che precede una sezione di testo di destinazione.

Ad esempio, considera un modello linguistico mascherato che deve determinare le probabilità per la parola o le parole che rappresentano la sottolineatura nella domanda seguente:

Cosa _____ con te?

Un modello linguistico unidirezionale dovrebbe basare le sue probabilità solo sul contesto fornito dalle parole "cosa", "è" e "il". Al contrario, un modello linguistico bidirezionale potrebbe anche ricavare contesto da "con" e "tu", il che potrebbe aiutare il modello a generare previsioni migliori.

modello linguistico bidirezionale

#language

Un modello linguistico che determina la probabilità che un determinato token sia presente in una determinata posizione in un estratto di testo basato sul testo precedente e seguente.

bigram

#seq

#language

Un N-gram in cui N=2.

classificazione binaria

#fundamentals

Un tipo di attività di classificazione che prevede una delle due classi che si escludono a vicenda:

la classe positiva
La classe negativa

Ad esempio, i seguenti due modelli di machine learning eseguono ciascuno la classificazione binaria:

Un modello che determina se i messaggi email sono spam (la classe positiva) o non spam (la classe negativa).
Un modello che valuta i sintomi medici per determinare se una persona ha una particolare malattia (la classe positiva) o non ha questa malattia (la classe negativa).

Confrontare con la classificazione multi-classe.

Consulta anche regressione logistica e soglia di classificazione.

condizione binaria

#df

In un albero decisionale, una condizione che ha solo due possibili risultati, in genere yes o no. Ad esempio, la seguente è una condizione binaria:

temperature >= 100

Confrontare con condizione non binaria.

Binning

Sinonimo di bucket.

BLEU (Bilingual Evaluation Understudy)

#language

Un punteggio compreso tra 0, 0 e 1, 0 inclusi, che indica la qualità di una traduzione tra due lingue umane (ad esempio tra inglese e russo). Un punteggio BLEU pari a 1,0 indica una traduzione perfetta, mentre un punteggio BLEU pari a 0,0 indica una traduzione pessima.

potenziamento

Una tecnica di machine learning che combina iterativamente un insieme di classificatori semplici e non molto precisi (denominati classificatori "deboli") in un classificatore ad alta precisione (un classificatore "forte") aumentando la ponderazione degli esempi per cui il modello attualmente classifica in modo errato.

riquadro di delimitazione

#image

In un'immagine, le coordinate (x, y) di un rettangolo intorno a un'area di interesse, come il cane nell'immagine seguente.

Fotografia di un cane seduto su un divano. Un riquadro verde con le coordinate in alto a sinistra di (275, 1271) e in basso a destra di (2954, 2761) circoscrive il corpo del cane

trasmissione

Espansione della forma di un operando in un'operazione matematica matriciale a dimensioni compatibili con l'operazione. Ad esempio, l'algebra lineare richiede che i due operandi in un'operazione di aggiunta della matrice debbano avere le stesse dimensioni. Di conseguenza, non puoi aggiungere una matrice di forma (m, n) a un vettore di lunghezza n. La trasmissione consente questa operazione espandendo virtualmente il vettore di lunghezza n a una matrice di forma (m, n) replicando gli stessi valori in ogni colonna.

Ad esempio, date le seguenti definizioni, l'algebra lineare vieta A+B perché A e B hanno dimensioni diverse:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Tuttavia, la trasmissione consente l'operazione A+B espandendo virtualmente B in:

 [[2, 2, 2],
  [2, 2, 2]]

Pertanto, A+B è ora un'operazione valida:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Per maggiori dettagli, vedi la seguente descrizione della trasmissione in NumPy.

il bucketing

#fundamentals

Conversione di una singola feature in più caratteristiche binarie denominate bucket o bin, in genere in base a un intervallo di valori. La caratteristica suddivisa è in genere una caratteristica continua.

Ad esempio, invece di rappresentare la temperatura come una singola caratteristica in virgola mobile continua, puoi suddividere intervalli di temperature in bucket discreti, ad esempio:

<= 10 gradi Celsius è il bucket "a freddo".
11-24 gradi Celsius è il bucket "temperato".
>= 25 gradi Celsius è il bucket "caldo".

Il modello tratterà in modo identico tutti i valori nello stesso bucket. Ad esempio, i valori 13 e 22 si trovano entrambi nel bucket temporaneo, quindi il modello tratta i due valori in modo identico.

Fai clic sull'icona per visualizzare altre note.

Se rappresenti la temperatura come caratteristica continua, il modello tratta la temperatura come una singola caratteristica. Se rappresenti la temperatura come tre bucket, il modello tratta ogni bucket come caratteristica separata. Ciò significa che un modello può apprendere relazioni separate di ciascun bucket con l'etichetta. Ad esempio, un modello di regressione lineare può apprendere ponderazioni separate per ciascun bucket.

L'aumento del numero di bucket complica il modello aumentando il numero di relazioni che il modello deve apprendere. Ad esempio, i bucket freddi, temperati e caldi sono essenzialmente tre caratteristiche distinte su cui eseguire l'addestramento del modello. Se decidi di aggiungere altri due bucket, ad esempio blocco e caldo, il modello ora dovrebbe essere addestrato in base a cinque caratteristiche separate.

Come puoi sapere quanti bucket creare o quali dovrebbero essere gli intervalli per ogni bucket? Le risposte richiedono in genere una discreta sperimentazione.

C

livello di calibrazione

Un aggiustamento post-previsione, in genere per tenere conto di bias di previsione. Le previsioni e le probabilità aggiustate devono corrispondere alla distribuzione di un insieme di etichette osservato.

generazione di candidati

#recsystems

L'insieme iniziale di consigli scelto da un sistema di consigli. Ad esempio, prendiamo in considerazione una libreria che offre 100.000 titoli. La fase di generazione dei candidati crea un elenco molto più ridotto di libri adatti a un determinato utente, ad esempio 500. Ma anche 500 libri sono troppi per poterli consigliare a un utente. Le fasi successive e più costose di un sistema di suggerimenti (come punteggio e riclassificazione) riducono questi 500 a un insieme di suggerimenti molto più piccolo e più utile.

campionamento dei candidati

Un'ottimizzazione in fase di addestramento che calcola una probabilità per tutte le etichette positive, utilizzando, ad esempio, softmax, ma solo per un campione casuale di etichette negative. Ad esempio, dato un esempio denominato beagle e cane, il campionamento dei candidati calcola le probabilità previste e i relativi termini di perdita per:

beagle
cane
un sottoinsieme casuale delle rimanenti classi negative (ad esempio, cat, lecca-lecca, fence).

L'idea è che le classi negative possano apprendere da un rinforzo negativo meno frequente, purché le classi positive ricevano sempre un rinforzo positivo adeguato e questo è effettivamente osservato empiricamente.

Il campionamento dei candidati è più efficiente dal punto di vista computazionale rispetto agli algoritmi di addestramento che calcolano le previsioni per tutte le classi negative, in particolare quando il numero di classi negative è molto elevato.

dati categorici

#fundamentals

Caratteristiche con un insieme specifico di valori possibili. Ad esempio, prendi in considerazione una funzionalità categorica denominata traffic-light-state, che può avere solo uno dei seguenti tre valori possibili:

red
yellow
green

Rappresentando traffic-light-state come caratteristica categorica, un modello può apprendere i diversi impatti di red, green e yellow sul comportamento del conducente.

Le caratteristiche categoriche sono a volte chiamate caratteristiche discrete.

Confrontare con i dati numerici.

modello linguistico causale

#language

Sinonimo di modello linguistico unidirezionale.

Utilizza il modello linguistico bidirezionale per contrapporre diversi approcci direzionali nella modellazione linguistica.

baricentro

#clustering

Il centro di un cluster come determinato da un algoritmo K-means o k-median. Ad esempio, se k è 3, l'algoritmo k-means o k-mediana trova 3 centroidi.

clustering basato su centroide

#clustering

Categoria di algoritmi di clustering che organizza i dati in cluster non gerarchici. K-means è l'algoritmo di clustering basato su baridi più utilizzato.

Sono a confronto con gli algoritmi di clustering gerarchico.

Chain-of-Thought Prompting

#language

#IAgenerativa

Una tecnica di prompt engineering che incoraggia un modello linguistico di grandi dimensioni (LLM) a spiegare il suo ragionamento, passo dopo passo. Ad esempio, considera il seguente prompt, prestando particolare attenzione alla seconda frase:

Quante forze g sperimenterebbe un conducente in un'auto che va da 0 a 96 km/h in 7 secondi? Nella risposta, mostra tutti i calcoli pertinenti.

La risposta dell'LLM sarebbe probabilmente:

Mostra una sequenza di formule di fisica, inserendo i valori 0, 60 e 7 nei posti appropriati.
Spiega perché ha scelto queste formule e il significato delle varie variabili.

La catena di pensiero obbliga l'LLM a eseguire tutti i calcoli, il che potrebbe portare a una risposta più corretta. Inoltre, la Chain-of-Thought Prompting consente all'utente di esaminare i passaggi dell'LLM per determinare se la risposta ha senso o meno.

chat

#language

#IAgenerativa

I contenuti di un dialogo continuo con un sistema di ML, in genere un modello linguistico di grandi dimensioni (LLM). L'interazione precedente in una chat (il testo digitato e la risposta del modello LLM) diventa il contesto per le parti successive della chat.

Un chatbot è un'applicazione di un modello linguistico di grandi dimensioni (LLM).

posto di blocco

Dati che acquisiscono lo stato dei parametri di un modello in una particolare iterazione di addestramento. I punti di controllo consentono l'esportazione delle ponderazioni del modello o l'esecuzione dell'addestramento in più sessioni. I punti di controllo consentono inoltre all'addestramento di continuare gli errori passati (ad esempio il prerilascio dei job).

Durante l'ottimizzazione, il punto di partenza per addestrare il nuovo modello sarà un punto di controllo specifico del modello preaddestrato.

classe

#fundamentals

Una categoria a cui può appartenere un'etichetta. Ad esempio:

In un modello di classificazione binaria che rileva lo spam, le due classi potrebbero essere spam e non spam.
In un modello di classificazione multi-classe che identifica le razze canine, le classi potrebbero essere barboncini, beagle, carlini e così via.

Un modello di classificazione prevede una classe. Al contrario, un modello di regressione prevede un numero anziché una classe.

modello di classificazione

#fundamentals

Un model la cui previsione è una model. Ad esempio, di seguito sono riportati tutti i modelli di classificazione:

Un modello che prevede la lingua di una frase di input (francese? Spagnolo? l'italiano?).
Un modello che prevede le specie di alberi (Maple? Oak? Baobab?).
Un modello che prevede la classe positiva o negativa per una particolare condizione medica.

Al contrario, i modelli di regressione prevedono numeri anziché classi.

Due tipi comuni di modelli di classificazione sono:

soglia di classificazione

#fundamentals

In una classificazione binaria, un numero compreso tra 0 e 1 che converte l'output non elaborato di un modello di regressione logistica in una previsione della classe positiva o della classe negativa. Tieni presente che la soglia di classificazione è un valore scelto da un essere umano, non un valore scelto dall'addestramento del modello.

Un modello di regressione logistica restituisce un valore non elaborato compreso tra 0 e 1. Quindi:

Se questo valore non elaborato è superiore alla soglia di classificazione, viene prevista la classe positiva.
Se questo valore non elaborato è inferiore alla soglia di classificazione, viene prevista la classe negativa.

Ad esempio, supponiamo che la soglia di classificazione sia 0,8. Se il valore non elaborato è 0,9, il modello prevede la classe positiva. Se il valore non elaborato è 0,7, il modello prevede la classe negativa.

La scelta della soglia di classificazione influenza fortemente il numero di falsi positivi e falsi negativi.

Fai clic sull'icona per visualizzare altre note.

Man mano che i modelli o i set di dati si evolvono, a volte gli ingegneri modificano anche la soglia di classificazione. Quando la soglia di classificazione cambia, le previsioni delle classi positive possono diventare improvvisamente classi negative e viceversa.

Ad esempio, consideriamo un modello di previsione della malattia con classificazione binaria. Supponiamo che quando il sistema viene eseguito nel primo anno:

Il valore non elaborato per un determinato paziente è 0,95.
La soglia di classificazione è 0,94.

Pertanto, il sistema diagnostica la classe positiva. (Il paziente sussulta: "Oh no! sto male!")

Un anno dopo, forse i valori ora si presentano come segue:

Il valore non elaborato per lo stesso paziente rimane a 0,95.
La soglia di classificazione cambia in 0,97.

Pertanto, il sistema ora riclassifica tale paziente come classe negativa. ("Buona giornata! Non sono malato". Stesso paziente. Diagnosi diversa.

set di dati class-imbalanced

#fundamentals

Un set di dati per un problema di classificazione in cui il numero totale di etichette di ogni classe è notevolmente diverso. Ad esempio, considera un set di dati di classificazione binaria le cui due etichette sono divise come segue:

1.000.000 di etichette negative
10 etichette positive

Il rapporto tra etichette negative e positive è 100.000 a 1, quindi questo è un set di dati con sbilanciamento delle classi.

Al contrario, il seguente set di dati non ha uno squilibrio di classe perché il rapporto tra etichette negative e etichette positive è relativamente vicino a 1:

517 etichette escluse
483 etichette positive

I set di dati multiclasse possono anche essere sbilanciati di classe. Ad esempio, anche il seguente set di dati di classificazione multiclasse ha uno squilibrio di classi perché un'etichetta ha molti più esempi delle altre due:

1.000.000 di etichette con la classe "verde"
200 etichette con la classe "viola"
350 etichette con la classe "arancione"

Vedi anche entropia, classe di maggioranza e classe di minoranza.

ritaglio

#fundamentals

Una tecnica per gestire gli outlier eseguendo una o entrambe le seguenti operazioni:

Ridurre i valori di feature superiori a una soglia massima fino a quella soglia massima.
Aumento dei valori delle caratteristiche che sono inferiori a una soglia minima fino a quella soglia minima.

Ad esempio, supponiamo che una percentuale inferiore allo 0,5% dei valori di una determinata caratteristica rientri nell'intervallo 40-60. In questo caso, potresti procedere nel seguente modo:

Ritaglia tutti i valori superiori a 60 (la soglia massima) in modo che siano esattamente 60.
Ritaglia tutti i valori inferiori a 40 (la soglia minima) in modo che siano esattamente 40.

I valori anomali possono danneggiare i modelli, a volte causando l'overflow dei ponderazioni durante l'addestramento. Alcuni outlier possono anche compromettere drasticamente metriche come la accuratezza. Il ritaglio è una tecnica comune per limitare i danni.

Il taglio della sfumatura forza i valori del gradiente entro un intervallo designato durante l'addestramento.

Cloud TPU

#TensorFlow

#GoogleCloud

acceleratore hardware specializzato progettato per velocizzare i carichi di lavoro di machine learning.

clustering

#clustering

Raggruppare esempi correlati, in particolare durante l'apprendimento non supervisionato. Una volta raggruppati tutti gli esempi, un essere umano può facoltativamente fornire un significato a ogni cluster.

Esistono molti algoritmi di clustering. Ad esempio, gli esempi di cluster di algoritmo k-means in base alla loro vicinanza a un centroide, come nel seguente diagramma:

Un ricercatore umano potrebbe quindi esaminare i gruppi e, ad esempio, etichettare il cluster 1 come "alberi nani" e il cluster 2 come "alberi a grandezza naturale".

Come ulteriore esempio, considera un algoritmo di clustering basato sulla distanza di un esempio da un punto centrale, come illustrato di seguito:

Decine di punti dati sono disposti in cerchi concentrici, quasi come fori attorno al centro di un bersaglio. L'anello più interno dei punti dati è classificato come cluster 1, l'anello centrale è classificato come cluster 2 e l'anello più esterno come cluster 3.

co-adattamento

Quando i neuroni prevedono modelli nei dati di addestramento facendo affidamento quasi esclusivamente sugli output di altri neuroni specifici invece di basarsi sul comportamento della rete nel suo complesso. Se i pattern che causano il co-adattamento non sono presenti nei dati di convalida, questo provoca l'overfitting. La regolarizzazione dell'abbandono riduce il co-adattamento perché l'abbandono garantisce che i neuroni non possano basarsi esclusivamente su altri specifici neuroni.

filtro collaborativo

#recsystems

Fare previsioni sugli interessi di un utente in base a quelli di molti altri utenti. Il filtro collaborativo viene spesso utilizzato nei sistemi di suggerimenti.

deviazione concettuale

Uno spostamento nella relazione tra caratteristiche ed etichetta. Nel tempo, la deviazione concettuale riduce la qualità di un modello.

Durante l'addestramento, il modello apprende la relazione tra le caratteristiche e le relative etichette nel set di addestramento. Se le etichette nel set di addestramento sono buoni proxy per il mondo reale, il modello dovrebbe fare buone previsioni reali. Tuttavia, a causa della deviazione concettuale, le previsioni del modello tendono a deteriorare nel tempo.

Ad esempio, considera un modello di classificazione binaria che prevede se un determinato modello di auto è "a basso consumo". In altre parole, le caratteristiche potrebbero essere:

peso dell'auto
compressione
tipo di trasmissione

mentre l'etichetta è:

a basso consumo di carburante
non a basso consumo di carburante

Tuttavia, il concetto di "auto a basso consumo" continua a cambiare. Un modello di auto con l'etichetta carburante efficiente nel 1994 verrebbe quasi certamente etichettato come non efficiente nel consumo di carburante nel 2024. Un modello affetto da deviazioni concettuali tende a fare previsioni sempre meno utili nel corso del tempo.

Confrontare i dati con nonstationarity.

Fai clic sull'icona per visualizzare altre note.

Per compensare la deviazione concettuale, riaddestra i modelli più velocemente della tasso di deviazione concettuale. Ad esempio, se la deviazione concettuale riduce la precisione del modello con un margine significativo ogni due mesi, riaddestra il modello con una frequenza maggiore rispetto a ogni due mesi.

Condizione

#df

In un albero decisionale, qualsiasi nodo che valuta un'espressione. Ad esempio, la seguente parte di un albero decisionale contiene due condizioni:

Un albero decisionale costituito da due condizioni: (x > 0) e (y > 0).

Una condizione viene chiamata anche suddivisione o test.

Contrasta la condizione con foglia.

Vedi anche:

confabulazione

#language

Sinonimo di allucinazione.

Confabulazione è probabilmente un termine più preciso dal punto di vista tecnico dell'allucinazione. Tuttavia, l'allucinazione è diventata popolare all'inizio.

configurazione

Il processo di assegnazione dei valori iniziali delle proprietà utilizzati per addestrare un modello, tra cui:

gli livelli che compongono il modello
la posizione dei dati
iperparametri come:

Nei progetti di machine learning, la configurazione può essere eseguita tramite uno speciale file di configurazione o utilizzando librerie di configurazione come le seguenti:

bias di conferma

#fairness

La tendenza a cercare, interpretare, favorire e ricordare le informazioni in un modo che confermi le proprie convinzioni o ipotesi preesistenti. Gli sviluppatori di machine learning potrebbero inavvertitamente raccogliere o etichettare i dati in modo da influenzare un risultato a sostegno delle loro convinzioni esistenti. Il bias di conferma è una forma di pregiudizio implicito.

Il bias dell'esperimento è una forma di bias di conferma, in cui uno sperimentatore continua ad addestrare i modelli finché non viene confermata un'ipotesi preesistente.

matrice di confusione

#fundamentals

Una tabella NxN che riassume il numero di previsioni corrette e non corrette effettuate da un modello di classificazione. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione binaria:

	Tumore (previsto)	Nessun tumore (previsto)
Tumore (dati empirici reali)	18 (VP)	1 (FN)
Non tumori (dati empirici reali)	6 (FP)	452 (VN)

La matrice di confusione precedente mostra quanto segue:

Delle 19 previsioni in cui i dati empirici reali riguardavano il tumore, il modello ne ha classificato correttamente 18 e ne ha classificato erroneamente 1.
Delle 458 previsioni in cui i dati di fatto erano non tumori, il modello classificava correttamente 452 e ne classificava erroneamente 6.

La matrice di confusione per un problema di classificazione multiclasse può aiutarti a identificare modelli di errori. Ad esempio, considera la seguente matrice di confusione per un modello di classificazione multiclasse a tre classi che classifica tre diversi tipi di iris (Virginica, Versicolor e Setosa). Quando il dato di fatto era Virginica, la matrice di confusione mostra che il modello era molto più propenso a prevedere erroneamente Versicolor rispetto a Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virginica (previsto)
Setosa (dati empirici reali)	88	12	0
Versicolor (dati empirici reali)	6	141	7
Virginica (dati empirici reali)	2	27	109

Come ulteriore esempio, una matrice di confusione potrebbe rivelare che un modello addestrato a riconoscere le cifre scritte a mano tende a prevedere erroneamente 9 anziché 4, o a prevedere erroneamente 1 invece di 7.

Le matrici di confusione contengono informazioni sufficienti per calcolare una serie di metriche delle prestazioni, tra cui la precisione e il richiamo.

analisi del collegio elettorale

#language

Dividere una frase in strutture grammaticali più piccole ("costituenti"). Una parte successiva del sistema di ML, come un modello di comprensione del linguaggio naturale, è in grado di analizzare i costituenti più facilmente rispetto alla frase originale. Ad esempio, considera la seguente frase:

Il mio amico ha adottato due gatti.

Un parser del collegio elettorale può dividere questa frase nei due componenti seguenti:

Il mio amico è una frase sostantivo.
adopted two cats è una frase verbale.

Questi costituenti possono essere ulteriormente suddivisi in costituenti più piccoli. Ad esempio, la frase del verbo

due gatti adottati

potrebbero essere ulteriormente suddivisi in:

adopted è un verbo.
two cats è un'altra frase sostantivo.

incorporamento linguistico contestualizzato

#language

#IAgenerativa

Un incorporamento che si avvicina a "comprendere" parole e frasi in modi possibili ai madrelingua. Gli incorporamenti di linguaggio contestualizzati possono comprendere sintassi, semantica e contesto complesse.

Considera ad esempio le rappresentazioni distribuite della parola inglese cow. Gli incorporamenti meno recenti come word2vec possono rappresentare parole inglesi in modo che la distanza nello spazio di incorporamento tra mucca e toro sia simile a quella tra pecora (pecora femmina) e ram (pecora maschio) o tra femminile e maschio. Gli incorporamenti nelle lingue contestualizzate possono fare un passo in più, sapendo che a volte gli utenti anglofoni usano per caso la parola cow per indicare sia la mucca che il toro.

finestra contestuale

#language

#IAgenerativa

Il numero di token che un modello può elaborare in un determinato prompt. Più grande è la finestra di contesto, maggiori sono le informazioni che il modello può utilizzare per fornire risposte coerenti e coerenti al prompt.

funzionalità continua

#fundamentals

Una caratteristica in virgola mobile con un intervallo infinito di valori possibili, come temperatura o peso.

Contrasta con funzionalità discrete.

campionamento di convenienza

Utilizzo di un set di dati non raccolto scientificamente per eseguire esperimenti rapidi. In seguito, sarà essenziale passare a un set di dati raccolto scientificamente.

convergenza

#fundamentals

Uno stato raggiunto quando i valori di perdita cambiano molto poco o non cambiano affatto a ogni iterazione. Ad esempio, la seguente curva di perdita suggerisce la convergenza a circa 700 iterazioni:

grafico cartesiano. L'asse X è in perdita. L'asse Y è il numero di iterazioni di addestramento. La perdita è molto elevata durante le prime iterazioni, ma
cala bruscamente. Dopo circa 100 iterazioni, la perdita è ancora
decrescente, ma in modo molto più graduale. Dopo circa 700 iterazioni,
la perdita rimane stabile.

Un modello converge quando un addestramento aggiuntivo non lo migliora.

Nel deep learning, i valori di perdita a volte rimangono costanti o quasi per molte iterazioni, prima di scendere definitivamente. Durante un lungo periodo di valori di perdita costanti, potresti sentire temporaneamente un falso senso di convergenza.

Vedi anche interruzione anticipata.

funzione convessa

Una funzione in cui la regione sopra il grafico della funzione è un insieme convesso. La funzione convessa prototipa ha una forma simile alla lettera U. Di seguito, ad esempio, sono tutte funzioni convessa:

Curve a forma di U, ciascuna con un singolo punto minimo.

Al contrario, la funzione seguente non è convessa. Nota come la regione sopra il grafico non è un insieme convesso:

Una curva a forma di W con due diversi punti minimi locali.

Una funzione strettamente convessa ha esattamente un punto minimo locale, che è anche il punto minimo globale. Le funzioni classiche a forma di U sono strettamente convesse. Tuttavia, alcune funzioni convessi (ad esempio le linee rette) non hanno la forma a U.

Fai clic sull'icona per una visualizzazione più approfondita del calcolo.

Molte delle funzioni di perdita più comuni, tra cui le seguenti, sono funzioni convesse:

Per molte variazioni della discesa del gradiente è garantito che trovino un punto vicino al minimo di una funzione strettamente convessa. Analogamente, molte varianti della discesa stocastica del gradiente hanno un'elevata probabilità (anche se non una garanzia) di trovare un punto vicino al minimo di una funzione strettamente convessa.

La somma di due funzioni convessi (ad esempio, perdita L₂ + regolarizzazione L₁) è una funzione convessa.

I modelli deep non sono mai funzioni convesse. Sorprendentemente, gli algoritmi progettati per l'ottimizzazione convessa tendono a trovare comunque soluzioni ragionevolmente buone sulle reti profonde, anche se non è garantito che si tratti di soluzioni minime globali.

ottimizzazione convessa

Il processo che utilizza tecniche matematiche come la discesa del gradiente per trovare il minimo di una funzione convessa. Molte ricerche nel campo del machine learning si sono concentrate sulla formulazione di vari problemi come problemi di ottimizzazione convessi e sulla risoluzione di questi problemi in modo più efficiente.

Per informazioni dettagliate, consulta Boyd e Vandenberghe, Ottimizzazione convessi.

insieme convesso

Un sottoinsieme di spazio euclideo in modo che una linea tracciata tra due punti qualsiasi nel sottoinsieme rimanga completamente all'interno del sottoinsieme. Ad esempio, le seguenti due forme sono insiemi convessi:

Un'illustrazione di un rettangolo. Un'altra illustrazione di un ovale.

Al contrario, le due forme seguenti non sono insiemi convessi:

Illustrazione di un grafico a torta con una sezione mancante.
Un'altra illustrazione di un poligono molto irregolare.

convoluzione

#image

In matematica, in modo casuale, un mix di due funzioni. Nel machine learning, una convoluzione mescola il filtro convoluzionale e la matrice di input per addestrare le ponderazioni.

Il termine "convoluzione" nel machine learning è spesso un modo breve per indicare operazioni convoluzionali o livello convoluzionale.

Senza convoluzioni, un algoritmo di machine learning dovrebbe apprendere un peso separato per ogni cella in un tensore di grandi dimensioni. Ad esempio, un algoritmo di machine learning addestrato su immagini 2000 x 2000 verrebbe costretto a trovare 4 milioni di pesi separati. Grazie alle convoluzioni, un algoritmo di machine learning deve trovare i pesi solo per ogni cella nel filtro convoluzionale, riducendo drasticamente la memoria necessaria per addestrare il modello. Quando viene applicato, il filtro convoluzionale viene semplicemente replicato nelle celle in modo che ciascuna venga moltiplicata dal filtro.

filtro convoluzionale

#image

Uno dei due attori in un'operazione convoluzionale. (l'altro attore è una fetta di una matrice di input). Un filtro convoluzionale è una matrice che ha la stessa ranking della matrice di input, ma di forma più piccola. Ad esempio, una data una matrice di input 28x28, il filtro può essere qualsiasi matrice 2D più piccola di 28x28.

Nella manipolazione fotografica, tutte le celle di un filtro convoluzionale sono generalmente impostate su un pattern costante di uno e zeri. Nel machine learning, i filtri convoluzionali in genere vengono generati con numeri casuali e quindi la rete addestra i valori ideali.

livello convoluzionale

#image

Un livello di una rete neurale profonda in cui un filtro convoluzionale passa lungo una matrice di input. Ad esempio, considera il seguente filtro convoluzionale 3 x 3:

Una matrice 3x3 con i seguenti valori: [[0,1,0], [1,0,1], [0,1,0]]

La seguente animazione mostra uno strato convoluzionale costituito da 9 operazioni convoluzionali che coinvolgono la matrice di input 5x5. Nota che ogni operazione convoluzionale funziona su una sezione 3x3 diversa della matrice di input. La matrice 3x3 risultante (a destra) è composta dai risultati delle 9 operazioni convoluzionali:

Un'animazione che mostra due matrici. La prima matrice è 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31.21.
La seconda matrice è quella 3x3:
[[181.303.618], [115.338.605], [169.351.560]].
La seconda matrice viene calcolata applicando il filtro
convoluzionale [[0, 1, 0], [1, 0, 1], [0, 1, 0]] su
diversi sottoinsiemi 3x3 della matrice 5x5.

rete neurale convoluzionale

#image

Una rete neurale in cui almeno un livello è uno livello convoluzionale. Una tipica rete neurale convoluzionale è composta da una combinazione dei seguenti strati:

Le reti neurali convoluzionali hanno riscosso un grande successo in certi tipi di problemi, come il riconoscimento delle immagini.

operazione convoluzionale

#image

La seguente operazione matematica in due fasi:

Moltiplicazione a livello di elemento del filtro convoluzionale e di una sezione di una matrice di input. (La sezione della matrice di input ha lo stesso rango e la stessa dimensione del filtro convoluzionale).
Somma di tutti i valori nella matrice del prodotto risultante.

Considera ad esempio la seguente matrice di input 5x5:

La matrice 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [31,19],2,100

Ora immagina il seguente filtro convoluzionale 2 x 2:

La matrice 2x2: [[1, 0], [0, 1]]

Ogni operazione convoluzionale coinvolge una singola sezione 2x2 della matrice di input. Ad esempio, supponiamo di usare la sezione 2x2 in alto a sinistra della matrice di input. L'operazione di convoluzione su questa sezione ha il seguente aspetto:

Applicazione del filtro convoluzionale [[1, 0], [0, 1]] alla sezione 2x2 in alto a sinistra
della matrice di input, che è [[128,97], [35,22]].
Il filtro convoluzionale lascia inalterati i 128 e il 22, ma azzera i 97 e il 35. Di conseguenza, l'operazione di convoluzione restituisce il valore 150 (128+22).

Un livello convoluzionale è costituito da una serie di operazioni convoluzionali, ciascuna delle quali agisce su una sezione diversa della matrice di input.

costo

Sinonimo di perdita.

addestramento collaborativo

L'approccio di apprendimento semi-supervisionato è particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi non etichettati e esempi etichettati nel set di dati è elevato.
Si tratta di un problema di classificazione (binario o multiclasse).
Il set di dati contiene due diversi insiemi di caratteristiche predittive indipendenti tra loro e complementari.

Il co-addestramento amplifica essenzialmente i segnali indipendenti, trasformandoli in un segnale più forte. Ad esempio, prendi in considerazione un modello di classificazione che classifica le singole auto usate come Buono o Scadente. Un insieme di caratteristiche predittive potrebbe concentrarsi su caratteristiche aggregate come anno, marca e modello dell'auto; un altro insieme di funzionalità predittive potrebbe concentrarsi sul record di guida del proprietario precedente e sulla cronologia di manutenzione dell'auto.

L'articolo fondamentale sulla co-addestramento è Combining Labeled and Unlabeled Data with Co-Training di Blum e Mitchell.

equità controfattuale

#fairness

Una metrica di equità che verifica se un classificatore produce per un individuo lo stesso risultato che per un altro individuo identico al primo, tranne che in relazione a uno o più attributi sensibili. La valutazione di un classificatore per l'equità controfattuale è un metodo per individuare potenziali fonti di pregiudizi in un modello.

Consulta "When Worlds Collide: Integrating Different Counterfactual Assumptions in Fairness" per una discussione più dettagliata sull'equità controfattuale.

bias di copertura

#fairness

Vedi bias di selezione.

fiore in fiore

#language

Una frase o una frase con un significato ambiguo. Le fioriture dei arresti anomali rappresentano un problema significativo nella comprensione del linguaggio naturale. Ad esempio, il titolo Red Tape trattiene skyscraper è un arresto anomalo perché un modello NLU potrebbe interpretarlo letteralmente o in senso figurato.

Fai clic sull'icona per visualizzare altre note.

Giusto per chiarire il titolo misterioso:

Red Tape può fare riferimento a uno dei seguenti elementi:
- Un adesivo
- Burocrazia eccessiva
Aspetta può riferirsi a uno dei seguenti termini:
- Supporto strutturale
- Ritardi

critico

#rl

Sinonimo di Deep Q-Network.

entropia incrociata

Una generalizzazione della perdita di log a problemi di classificazione multiclasse. L'entropia incrociata quantifica la differenza tra due distribuzioni di probabilità. Vedi anche perplexity.

convalida incrociata

Un meccanismo per stimare l'efficacia di un model di generalizzare in base a nuovi dati testando il modello rispetto a uno o più sottoinsiemi di dati non sovrapposti trattenuti dal model.

funzione di distribuzione cumulativa (CDF)

Una funzione che definisce la frequenza dei campioni minore o uguale a un valore target. Considera ad esempio una normale distribuzione di valori continui. La CDF indica che circa il 50% dei campioni dovrebbe essere inferiore o uguale alla media e che circa l'84% dei campioni dovrebbe essere inferiore o uguale a una deviazione standard al di sopra della media.

D

analisi dei dati

Capire i dati prendendo in considerazione campioni, misurazioni e visualizzazione. L'analisi dei dati può essere particolarmente utile quando viene ricevuto un set di dati, prima di creare il primo model. È fondamentale anche per comprendere gli esperimenti e risolvere i problemi del sistema.

aumento dei dati

#image

Aumento artificiale dell'intervallo e del numero di esempi di addestramento trasformando gli esempi esistenti per crearne altri. Ad esempio, supponiamo che le immagini siano una delle tue caratteristiche, ma il tuo set di dati non contenga abbastanza esempi di immagini per consentire al modello di apprendere associazioni utili. Idealmente, dovresti aggiungere un numero sufficiente di immagini etichettate al set di dati per consentire un addestramento corretto del modello. Se ciò non è possibile, l'aumento dei dati può ruotare, allungare e riflettere ogni immagine per produrre molte varianti dell'immagine originale, generando probabilmente un numero sufficiente di dati etichettati per consentire un addestramento eccellente.

DataFrame

#fundamentals

Un tipo di dati pandas molto diffuso per rappresentare i set di dati in memoria.

Un DataFrame è analogo a una tabella o a un foglio di lavoro. Ogni colonna di un DataFrame ha un nome (un'intestazione) e ogni riga è identificata da un numero univoco.

Ogni colonna in un DataFrame è strutturata come un array 2D, tranne per il fatto che a ogni colonna può essere assegnato un tipo di dati diverso.

Vedi anche la pagina di riferimento pandas.DataFrame ufficiale.

parallelismo dei dati

Un modo di scalare l'addestramento o l'inferenza che replica un intero modello su più dispositivi e poi passa un sottoinsieme di dati di input a ciascun dispositivo. Il parallelismo dei dati può consentire l'addestramento e l'inferenza su dimensioni dei batch molto grandi. Tuttavia, il parallelismo dei dati richiede che il modello sia abbastanza piccolo da adattarsi a tutti i dispositivi.

Il parallelismo dei dati in genere velocizza l'addestramento e l'inferenza.

Vedi anche parallelismo del modello.

set di dati o set di dati

#fundamentals

Una raccolta di dati non elaborati, comunemente (ma non esclusivamente) organizzati in uno dei seguenti formati:

un foglio di lavoro
un file in formato CSV (valori separati da virgola)

API Dataset (tf.data)

#TensorFlow

Un'API TensorFlow di alto livello per leggere i dati e trasformarli in una forma richiesta da un algoritmo di machine learning. Un oggetto tf.data.Dataset rappresenta una sequenza di elementi in cui ogni elemento contiene uno o più tensori. Un oggetto tf.data.Iterator fornisce accesso agli elementi di un Dataset.

Per maggiori dettagli sull'API Dataset, consulta tf.data: Build TensorFlow input Pipelines nella TensorFlow Programmer's Guide.

confine decisionale

Separatore tra le classi apprese da un modello in una classe binaria o problemi di classificazione multiclasse. Ad esempio, nell'immagine seguente che rappresenta un problema di classificazione binaria, il confine decisionale è la frontiera tra la classe arancione e la classe blu:

Un confine ben definito tra una classe e un'altra.

foresta decisionale

#df

Un modello creato da più alberi decisionali. Una foresta decisionale genera una previsione aggregando le previsioni dei propri alberi decisionali. Tra i tipi più diffusi di foreste decisionali figurano foreste casuali e alberi ad alto gradiente.

soglia di decisione

Sinonimo di soglia di classificazione.

albero decisionale

#df

Un modello di apprendimento supervisionato composto da un insieme di conditions e conditions organizzati in modo gerarchico. Ad esempio, di seguito è riportato un albero decisionale:

Un albero decisionale composto da quattro condizioni disposte gerarchicamente, che portano a cinque foglie.

decodificatore

#language

In generale, qualsiasi sistema di ML che esegue la conversione da una rappresentazione elaborata, densa o interna a una rappresentazione più RAW, sparsa o esterna.

I decoder sono spesso un componente di un modello più grande, in cui sono spesso accoppiati a un encoder.

Nelle attività da sequenza a sequenza, un decoder inizia con lo stato interno generato dall'encoder per prevedere la sequenza successiva.

Fai riferimento a Transformer per la definizione di un decoder nell'architettura di Transformer.

modello di analisi approfondita

#fundamentals

Una rete neurale contenente più di uno strato nascosto.

Un modello profondo è anche chiamato rete neurale profonda.

Contrasta con il modello largo.

per le reti neurali profonde

Sinonimo di deep model.

Deep Q-Network (DQN)

#rl

In Q-learning, una rete neurale profonda che prevede funzioni Q.

Critic è un sinonimo di Deep Q-Network.

Parità demografica

#fairness

Una metrica di equità che viene soddisfatta se i risultati della classificazione di un modello non dipendono da un determinato attributo sensibile.

Ad esempio, se sia i lilliputi che i Brobdingnagiani fanno domanda per la Glubbdubdrib University, la parità demografica viene raggiunta se la percentuale di lilliputi ammessi è uguale alla percentuale di Brobdingnagiani ammessi, indipendentemente dal fatto che un gruppo sia in media più qualificato dell'altro.

Confrontare con le quote di pari opportunità e l'uguaglianza di opportunità, che consentono ai risultati della classificazione aggregati di dipendere da attributi sensibili, ma non consentono che i risultati di classificazione per determinate etichette di dati empirici reali dipendano da attributi sensibili. Consulta "L'attacco alla discriminazione con un machine learning più intelligente" per una visualizzazione che esplora i compromessi nell'ottimizzazione per la parità demografica.

riduzione del rumore

#language

Un approccio comune all'apprendimento auto-supervisionato in cui:

Il rumore viene aggiunto artificialmente al set di dati.
Il model prova a rimuovere il rumore.

La riduzione del rumore consente di apprendere da esempi non etichettati. Il set di dati originale funge da destinazione o etichetta e i dati che causano rumore come input.

Alcuni modelli linguistici mascherati utilizzano la riduzione del rumore come segue:

Il rumore viene aggiunto artificialmente a una frase non etichettata mascherando alcuni token.
Il modello cerca di prevedere i token originali.

caratteristica densa

#fundamentals

Una caratteristica in cui la maggior parte o tutti i valori sono diversi da zero, in genere un Tensor di valori in virgola mobile. Ad esempio, il seguente Tensor a 10 elementi è denso perché 9 dei suoi valori sono diversi da zero:

Contrasta la caratteristica sparsa.

strato denso

Sinonimo di livello completamente connesso.

profondità

#fundamentals

La somma di quanto segue in una rete neurale:

il numero di livelli nascosti
il numero di strati di output, che in genere è 1
il numero di tutti gli strati di incorporamento

Ad esempio, una rete neurale con cinque strati nascosti e uno di output ha una profondità di 6.

Tieni presente che il livello di input non influenza la profondità.

sepCNN (rete neurale convoluzionale separabile profondamente)

#image

Un'architettura di rete neurale convoluzionale basata su Inception, ma in cui i moduli Inception vengono sostituiti con convoluzioni separabili in profondità. Chiamato anche Xception.

Una convoluzione separabile in profondità (abbreviata anche come convoluzione separabile) genera una convoluzione 3D standard in due operazioni di convoluzione separate più efficienti dal punto di vista computazionale: una convoluzione depth, con una profondità di 1 (n x n x 1), e poi una convoluzione puntiforme con lunghezza e larghezza di 1 (1 × n).

Per scoprire di più, consulta Xception: deep learning con convoluzioni separabili in profondità.

etichetta derivata

Sinonimo di etichetta proxy.

dispositivo

#TensorFlow

#GoogleCloud

Un termine sovraccarico con le due possibili definizioni seguenti:

Una categoria di hardware in grado di eseguire una sessione TensorFlow, che include CPU, GPU e TPU.
Durante l'addestramento di un modello ML su chip di acceleratori (GPU o TPU), la parte del sistema che manipola effettivamente tensori e incorporamenti. Il dispositivo funziona su chip dell'acceleratore. Al contrario, l'host viene solitamente eseguito su una CPU.

privacy differenziale

Nel machine learning, un approccio di anonimizzazione per proteggere dall'esposizione tutti i dati sensibili (ad esempio le informazioni personali di un individuo) inclusi nel set di addestramento di un modello. Questo approccio garantisce che il model non apprenda o non ricordi molto su una persona specifica. Ciò si ottiene campionando e aggiungendo rumore durante l'addestramento del modello per oscurare i singoli punti dati, mitigando il rischio di esposizione di dati di addestramento sensibili.

La privacy differenziale viene utilizzata anche al di fuori del machine learning. Ad esempio, i data scientist a volte ricorrono alla privacy differenziale per proteggere la privacy individuale quando calcolano statistiche sull'utilizzo dei prodotti per gruppi demografici diversi.

riduzione della dimensione

Ridurre il numero di dimensioni utilizzate per rappresentare una particolare caratteristica in un vettore di caratteristiche, in genere tramite la conversione in un vettore di incorporamento.

dimensioni

Termine sovraccarico con una delle seguenti definizioni:

Il numero di livelli di coordinate in un Tensor. Ad esempio:
- Uno scalare ha dimensioni pari a zero, ad esempio ["Hello"].
- Un vettore ha una dimensione, ad esempio [3, 5, 7, 11].
- Una matrice ha due dimensioni, ad esempio [[2, 4, 18], [5, 7, 14]].
Puoi specificare in modo univoco una particolare cella in un vettore unidimensionale con una coordinata; hai bisogno di due coordinate per specificare in modo univoco una particolare cella in una matrice bidimensionale.
Il numero di voci in un vettore di caratteristiche.
Il numero di elementi in un livello di incorporamento.

richiesta diretta

#language

#IAgenerativa

Sinonimo di prompt zero-shot.

caratteristica discreta

#fundamentals

Una caratteristica con un insieme finito di valori possibili. Ad esempio, una caratteristica i cui valori possono essere solo animal, vegetable o mineral è una caratteristica discreta (o categorica).

Contrasta la funzionalità continua.

modello discriminativo

Un model che prevede le model da un insieme di una o più model. Più formalmente, i modelli discriminativi definiscono la probabilità condizionale di un output in base alle caratteristiche e alle ponderazioni, ovvero:

p(output | features, weights)

Ad esempio, un modello che prevede se un'email è spam proveniente da caratteristiche e pesi è un modello discriminativo.

La maggioranza dei modelli di apprendimento supervisionato, inclusi quelli di classificazione e regressione,

Confrontare con il modello generato.

discriminatore

Un sistema che determina se gli esempi sono reali o falsi.

In alternativa, il sottosistema all'interno di una rete antagonistica generativa che determina se gli esempi creati dal generatore sono reali o falsi.

impatto imparziale

#fairness

prendere decisioni sproporzionate su persone che hanno un impatto sproporzionato su vari sottogruppi. In genere questo si riferisce a situazioni in cui un processo decisionale algoritmico danneggia o apporta vantaggi ad alcuni sottogruppi più di altri.

Ad esempio, supponiamo che un algoritmo che determina l'idoneità di un lillupiano a un mutuo per la casa in miniatura abbia più probabilità di classificarlo come "non idoneo" se il suo indirizzo postale contiene un determinato codice postale. Se è più probabile che i lilliputisti di big-endian abbiano indirizzi postali con questo codice postale rispetto ai lilliputisti di origine Big-Endian, questo algoritmo potrebbe avere un impatto disparato.

Metti a confronto il trattamento dispari, che si concentra sulle disparità che si verificano quando le caratteristiche dei sottogruppi sono input espliciti di un processo decisionale algoritmico.

trattamento disparato

#fairness

Fattorizzazione degli attributi sensibili dei soggetti in un processo decisionale algoritmico in modo che i diversi sottogruppi di persone vengano trattati in modo diverso.

Ad esempio, prendi in considerazione un algoritmo che determina l'idoneità dei lilliputi a un mutuo per la casa in base ai dati che forniscono nella richiesta di prestito. Se l'algoritmo utilizza l'affiliazione di Lilliputian come Big-Endian o Little-Endian, sta adottando un trattamento disparato lungo questa dimensione.

Contrasta l'impatto dispari, che si concentra sulle disparità negli impatti sociali delle decisioni algoritmiche sui sottogruppi, indipendentemente dal fatto che questi sottogruppi siano input del modello.

distillazione

#IAgenerativa

Il processo di riduzione delle dimensioni di un model (noto come model) a un modello più piccolo (noto come model) che emula il più fedelmente possibile le previsioni del modello originale. La distillazione è utile perché il modello più piccolo offre due vantaggi chiave rispetto al modello più grande (l'insegnante):

Tempi di inferenza più rapidi
Consumo energetico e di memoria ridotti

Tuttavia, le previsioni dello studente di solito non sono così buone come quelle dell'insegnante.

La distillazione addestra il modello dello studente a ridurre al minimo una funzione di perdita basata sulla differenza tra i risultati delle previsioni dei modelli studente e insegnante.

Confronta la distillazione con i seguenti termini:

distribution

La frequenza e l'intervallo di valori diversi per una determinata caratteristica o etichetta. Una distribuzione acquisisce la probabilità di un particolare valore.

La seguente immagine mostra gli istogrammi di due diverse distribuzioni:

A sinistra è mostrata la legge di distribuzione della ricchezza in base al numero di persone che la possiedono.
A destra, una normale distribuzione dell'altezza rispetto al numero di persone in possesso di quella altezza.

Comprendere la distribuzione di ogni caratteristica e etichetta può aiutarti a determinare come normalizzare i valori e rilevare gli outlier.

La frase fuori distribuzione si riferisce a un valore che non compare nel set di dati o che è molto raro. Ad esempio, un'immagine del pianeta Saturno verrebbe considerata fuori distribuzione per un set di dati costituito da immagini di gatti.

clustering divisivo

#clustering

Consulta il clustering gerarchico.

sottocampionamento

#image

Termine sovraccaricato che può indicare uno dei seguenti termini:

Ridurre la quantità di informazioni in una caratteristica per addestrare un modello in modo più efficiente. Ad esempio, prima di addestrare un modello di riconoscimento delle immagini, sottocampiona le immagini ad alta risoluzione a un formato a risoluzione inferiore.
Addestramento su una percentuale sproporzionatamente bassa di esempi di classi sovrarappresentate per migliorare l'addestramento dei modelli per le classi sottorappresentate. Ad esempio, in un set di dati non bilanciato dalla classe, i modelli tendono ad apprendere molto sulla classe di maggioranza e non abbastanza sulla classe di minoranza. Il sottocampionamento consente di bilanciare la quantità di formazione tra le classi di maggioranza e minoranze.

DQN

#rl

Abbreviazione di Deep Q-Network.

regolarizzazione dell'abbandono

Una forma di regolarizzazione utile per l'addestramento delle reti neurali. La regolarizzazione con abbandono rimuove una selezione casuale di un numero fisso di unità in un livello di rete per un singolo passaggio del gradiente. Più unità vengono eliminate, più forte è la regolarizzazione. In questo modo, puoi addestrare la rete per emulare un ensemble di reti più piccole con una dimensione esponenziale. Per i dettagli completi, consulta Abbandono: un modo semplice per impedire l'overfitting delle reti neurali.

dinamico

#fundamentals

Operazione frequente o continuativa. I termini dinamico e online sono sinonimi nel machine learning. Di seguito sono riportati alcuni utilizzi comuni di dinamico e online nel machine learning:

Un modello dinamico (o modello online) è un modello che viene riaddestrato frequentemente o in modo continuo.
L'addestramento dinamico (o addestramento online) è il processo di addestramento frequente o continuo.
L'inferenza dinamica (o inferenza online) è il processo di generazione di previsioni on demand.

modello dinamico

#fundamentals

Un model che viene riaddestrato di frequente (forse anche continuamente). Un modello dinamico è una "forma di apprendimento per tutta la vita" che si adatta costantemente ai dati in evoluzione. Un modello dinamico è anche noto come modello online.

Contrasta il modello statico.

E

esecuzione entusiasta

#TensorFlow

Un ambiente di programmazione TensorFlow in cui vengono eseguite immediatamente le operations. Al contrario, le operazioni richiamate nell'esecuzione del grafico non vengono eseguite finché non vengono valutate esplicitamente. L'esecuzione "eager" è un'interfaccia imperativa, molto simile al codice nella maggior parte dei linguaggi di programmazione. Il debug dei programmi Eager Extra è generalmente molto più semplice rispetto a quelli dei grafici.

interruzione anticipata

#fundamentals

Metodo di regolarizzazione che prevede la fine dell'addestramento prima che la perdita dell'addestramento finisca di diminuire. Con l'interruzione anticipata, l'addestramento del modello viene interrotto intenzionalmente quando la perdita su un set di dati di convalida inizia ad aumentare, ovvero quando le prestazioni di generalizzazione peggiorano.

Fai clic sull'icona per visualizzare altre note.

L'interruzione anticipata potrebbe sembrare controintuitiva. Dopotutto, dire a un modello di interrompere l'addestramento mentre la perdita è ancora in calo può sembrare dire a uno chef di smettere di cucinare prima che il dessert sia completamente sfornato. Tuttavia, l'addestramento di un modello per troppo tempo può portare all'overfitting. Ciò significa che se addestra un modello troppo a lungo, il modello potrebbe adattarsi ai dati di addestramento così da non fare previsioni accurate su nuovi esempi.

distanza del movimento terra (EMD)

Una misura della somiglianza relativa tra due distribuzioni. Più bassa è la distanza del movimento terra, più simili sono le distribuzioni.

modifica distanza

#language

Una misura della somiglianza tra due stringhe di testo. Nel machine learning, la modifica della distanza è utile perché è semplice da calcolare ed è un modo efficace per confrontare due stringhe note come simili o trovare stringhe simili a una determinata stringa.

Esistono diverse definizioni della distanza di modifica, ciascuna con operazioni per le stringhe diverse. Ad esempio, la distanza di Levenshtein prende in considerazione il minor numero di operazioni di eliminazione, inserimento e sostituzione.

Ad esempio, la distanza di Levenshtein tra le parole "cuore" e "dardi" è pari a 3, perché le seguenti 3 modifiche sono le poche modifiche per trasformare una parola nell'altra:

cuore → deart (sostituisci "h" con "d")
deart → esercito (elimina "e")
freccette → freccette (insert "s")

Notazione einsum

Una notazione efficiente per descrivere come due tensori devono essere combinati. I tensori vengono combinati moltiplicando gli elementi di un tensore per gli elementi dell'altro tensore e quindi sommando i risultati. La notazione einsum utilizza simboli per identificare gli assi di ciascun tensore e questi stessi simboli vengono riorganizzati per specificare la forma del nuovo tensore risultante.

NumPy fornisce un'implementazione comune di Einsum.

strato di incorporamento

#language

#fundamentals

Uno speciale strato nascosto che si addestra su una funzionalità categorica ad alta dimensionalità per apprendere gradualmente un vettore di incorporamento a dimensione inferiore. Uno strato di incorporamento consente a una rete neurale di addestrarsi in modo molto più efficiente rispetto all'addestramento con la funzionalità categorica ad alta dimensionalità.

Ad esempio, al momento Earth supporta circa 73.000 specie di alberi. Supponiamo che la specie arborea sia una caratteristica nel modello, quindi il livello di input del modello includa un vettore one-hot di 73.000 elementi. Ad esempio, baobab potrebbe essere rappresentato in modo simile a questo:

Un array di 73.000 elementi. I primi 6232 elementi contengono il valore
0. L'elemento successivo contiene il valore 1. I 66.767 elementi finali contengono
il valore zero.

Un array di 73.000 elementi è molto lungo. Se non aggiungi uno strato di incorporamento al modello, l'addestramento richiederà molto tempo perché moltiplicando 72.999 zeri. Puoi scegliere lo strato di incorporamento che deve avere 12 dimensioni. Di conseguenza, lo strato di incorporamento apprende gradualmente un nuovo vettore di incorporamento per ogni specie di albero.

In alcune situazioni, l'hashing è un'alternativa ragionevole a uno strato di incorporamento.

spazio di incorporamento

#language

Lo spazio vettoriale con dimensione D che proviene da uno spazio vettoriale con dimensione superiore viene mappato. Idealmente, lo spazio di incorporamento contiene una struttura che restituisce risultati matematici significativi; ad esempio, in uno spazio di incorporamento ideale, l'aggiunta e la sottrazione di incorporamenti possono risolvere attività di analogia con le parole.

Il prodotto punti di due incorporamenti è una misura della loro somiglianza.

vettore di incorporamento

#language

In termini generali, un array di numeri in virgola mobile presi da qualsiasi strato nascosto che descrive gli input per quello strato nascosto. Spesso, un vettore di incorporamento è l'array di numeri in virgola mobile addestrati in uno strato di incorporamento. Ad esempio, supponiamo che uno strato di incorporamento debba apprendere un vettore di incorporamento per ciascuna delle 73.000 specie di alberi presenti sulla Terra. Forse il seguente array è il vettore di incorporamento per un baobab:

Un array di 12 elementi, ciascuno con un numero in virgola mobile compreso tra 0,0 e 1,0.

Un vettore di incorporamento non è un gruppo di numeri casuali. Uno strato di incorporamento determina questi valori attraverso l'addestramento, in modo simile a come una rete neurale apprende altri pesi durante l'addestramento. Ogni elemento dell'array è una valutazione lungo alcune caratteristiche di una specie di albero. Quale elemento rappresenta la caratteristica di quale specie di alberi? È molto difficile per gli esseri umani da stabilire.

La parte matematicamente notevole di un vettore di incorporamento è che elementi simili hanno insiemi simili di numeri in virgola mobile. Ad esempio, le specie di alberi simili hanno un insieme più simile di numeri in virgola mobile rispetto alle specie di alberi diverse. Le sequoie e le sequoie sono specie di alberi correlate, quindi hanno un insieme più simile di numeri a virgola mobile rispetto alle sequoie e alle palme da cocco. I numeri nel vettore di incorporamento cambieranno ogni volta che il modello viene addestrato nuovamente, anche se il modello viene addestrato nuovamente con un input identico.

funzione di distribuzione empirica cumulativa (eCDF o EDF)

Una funzione di distribuzione cumulativa basata su misure empiriche da un set di dati reale. Il valore della funzione in qualsiasi punto dell'asse x è la frazione delle osservazioni nel set di dati che sono minori o uguali al valore specificato.

minimizzazione empirica del rischio (ERM)

È stata scelta la funzione che minimizza la perdita nel set di addestramento. Contrasta la minimizzazione del rischio strutturale.

codificatore

#language

In generale, qualsiasi sistema di ML che converte da una rappresentazione non elaborata, sparsa o esterna a una rappresentazione più elaborata, più densa o interna.

I codificatori sono spesso un componente di un modello più grande, in cui sono spesso accoppiati con un decoder. Alcuni Transformer abbinano i encoder ai decoder, sebbene altri utilizzino solo l'encoder o solo il decoder.

Alcuni sistemi utilizzano l'output dell'encoder come input per una rete di classificazione o regressione.

Nelle attività da sequenza a sequenza, un encoder prende una sequenza di input e restituisce uno stato interno (un vettore). Quindi, il decoder utilizza questo stato interno per prevedere la sequenza successiva.

Consulta Transformer per la definizione di un encoder nell'architettura di Transformer.

completo

Una raccolta di modelli addestrati in modo indipendente le cui previsioni vengono calcolate in media o aggregate. In molti casi un insieme produce previsioni migliori rispetto a un singolo modello. Ad esempio, una foresta casuale è un insieme realizzato a partire da più alberi decisionali. Tieni presente che non tutte le foreste decisionali sono insiemi.

entropia

#df

Nella teoria dell'informazione, una descrizione di quanto sia imprevedibile una distribuzione di probabilità. In alternativa, l'entropia viene definita anche come quantità di informazioni contenute in ogni esempio. Una distribuzione ha la più alta entropia possibile quando tutti i valori di una variabile casuale hanno la stessa probabilità.

L'entropia di un insieme con due possibili valori "0" e "1" (ad esempio le etichette in un problema di classificazione binaria) ha la seguente formula:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

dove:

H è l'entropia.
p è la frazione di "1" esempi.
q è la frazione del numero di esempi "0". Tieni presente che q = (1 - p)
log è generalmente log₂. In questo caso, l'unità di entropia è un po'.

Ad esempio, supponiamo che:

100 esempi contengono il valore "1"
300 esempi contengono il valore "0"

Pertanto, il valore di entropia è:

p = 0,25
q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bit per esempio

Un insieme perfettamente bilanciato (ad esempio, 200 "0" e 200 "1") avrebbe un'entropia di 1,0 bit per esempio. Man mano che un insieme diventa più sbilanciato, la sua entropia si sposta verso 0,0.

Negli alberi decisionali, l'entropia aiuta a formulare guadagni di informazioni per aiutare lo splitter a selezionare le condizioni durante la crescita di un albero decisionale di classificazione.

Confrontare l'entropia con:

impurità di gini
funzione di perdita dell'entropia incrociata

L'entropia è spesso chiamata entropia di Shannon.

produzione

#rl

Nell'apprendimento per rinforzo, il mondo che contiene l'agente e consente all'agente di osservare lo stato di quel mondo. Ad esempio, il mondo rappresentato può essere un gioco come gli scacchi o un mondo fisico come un labirinto. Quando l'agente applica un'azione all'ambiente, l'ambiente passa da uno stato all'altro.

puntata

#rl

Nell'apprendimento per rinforzo, ogni tentativo ripetuto da parte dell'agente di apprendere un ambiente.

periodo

#fundamentals

Un pass di addestramento completo per l'intero set di addestramento, in modo che ogni esempio sia stato elaborato una sola volta.

Un'epoca rappresenta le iterazioni di addestramento per N/dimensione del batch, dove N è il numero totale di esempi.

Supponiamo, ad esempio, che:

Il set di dati è composto da 1000 esempi.
La dimensione del batch è di 50 esempi.

Pertanto, una singola epoca richiede 20 iterazioni:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

norme greedy epsilon

#rl

Nell'apprendimento per rinforzo, una norma che segue una norma casuale con probabilità epsilon o una norma greedy negli altri casi. Ad esempio, se epsilon è 0,9, il criterio segue un criterio casuale il 90% delle volte e un criterio greedy il 10% delle volte.

Nel corso degli episodi successivi, l'algoritmo riduce il valore dell'epsilon per passare dal seguire un criterio casuale a uno greedy. Modificando il criterio, l'agente prima esplora l'ambiente in modo casuale, quindi sfrutta avidamente i risultati dell'esplorazione casuale.

pari opportunità

#fairness

Una metrica di equità per valutare se un modello prevede il risultato desiderabile altrettanto bene per tutti i valori di un attributo sensibile. In altre parole, se il risultato desiderato per un modello è la classe positiva, l'obiettivo sarebbe che il tasso di veri positivi sia lo stesso per tutti i gruppi.

L'uguaglianza delle opportunità è correlata alle quote di pari opportunità, il che richiede che entrambe le percentuali di veri positivi e falsi positivi siano uguali per tutti i gruppi.

Supponiamo che la Glubbdubdrib University ammetta sia i lilliputi che i Brobdingnagian in un rigoroso programma di matematica. Le scuole secondarie dei lilliputi offrono un solido programma di lezioni di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagians non offrono corsi di matematica e, di conseguenza, molti meno studenti hanno la qualifica. L'uguaglianza delle opportunità è soddisfatta per l'etichetta preferita di "ammissione" rispetto alla nazionalità (lilluciano o brobdingnagian), se gli studenti qualificati hanno la stessa probabilità di essere ammessi, indipendentemente dal fatto che siano lillupiani o brobdingnagian.

Ad esempio, supponiamo che 100 Lilliputiani e 100 Brobdingnagiani facciano domanda per la Glubbdubdrib University e le decisioni in merito all'ammissione siano prese nel seguente modo:

Tabella 1. Candidati lilla (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	3
Rifiutato	45	7
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati rifiutati: 7/10 = 70% Percentuale totale di studenti lilliputani ammessi: (45+3)/100 = 48%

Tabella 2. Candidati Brobdingnagian (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	9
Rifiutato	5	81
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati rifiutati: 81/90 = 90% Percentuale totale di studenti Brobdingnagian ammessi: (5+9)/100 = 14%

Gli esempi precedenti soddisfano l'uguaglianza delle opportunità di accettazione degli studenti qualificati, in quanto i lilliputi e i Brobdingnagiani qualificati hanno entrambi il 50% di probabilità di essere ammessi.

Anche se l'uguaglianza delle opportunità è soddisfatta, le due seguenti metriche di equità non sono soddisfatte:

Parità demografica: i lilliputi e i brobdingnagiani sono ammessi all'università a tassi diversi; il 48% di questi studenti è ammesso, ma solo il 14% degli studenti di Brobdingnagian è ammesso.
Probabilità pari all'equità: sebbene gli studenti lillupiani e Brobdingnagian qualificati abbiano entrambi la stessa probabilità di essere ammessi, il vincolo aggiuntivo secondo cui entrambi i lilliputi e i Brobdingnagiani non qualificati hanno la stessa possibilità di essere rifiutati non è soddisfatto. I lilliputi non qualificati hanno un tasso di rifiuto del 70%, mentre i Brobdingnagiani non qualificati hanno un tasso di rifiuto del 90%.

Consulta "Parità delle opportunità nell'apprendimento supervisionato" per una discussione più dettagliata sull'uguaglianza delle opportunità. Consulta anche la sezione "L'attacco alla discriminazione con un machine learning più intelligente" per una visualizzazione che esplora i compromessi nell'ottimizzazione per l'uguaglianza delle opportunità.

probabilità equalizzato

#fairness

Una metrica di equità per valutare se un modello prevede i risultati altrettanto bene per tutti i valori di un attributo sensibile rispetto sia alla classe positiva che alla classe negativa, non solo a una classe o all'altra in modo esclusivo. In altre parole, la percentuale di veri positivi e la percentuale di falsi negativi dovrebbero essere la stessa per tutti i gruppi.

Le probabilità equalizzate sono correlate all'uguaglianza delle opportunità, che si concentra solo sui tassi di errore per una singola classe (positiva o negativa).

Ad esempio, supponiamo che la Glubbdubdrib University ammetta sia i lilliputi che i Brobdingnagiani in un rigoroso programma di matematica. Le scuole secondarie dei lilliputi offrono un solido programma di corsi di matematica e la stragrande maggioranza degli studenti è qualificata per il programma universitario. Le scuole secondarie di Brobdingnagian non offrono corsi di matematica e, di conseguenza, molti meno studenti hanno la qualifica. Le probabilità equalizzate sono soddisfatte a condizione che indipendentemente dal fatto che un candidato sia un Lilliputiano o un Brobdingnagian, se è qualificato, hanno le stesse probabilità di essere ammesso al programma e, se non sono qualificati, hanno altre stesse probabilità di essere rifiutato.

Supponiamo che 100 Lilliputi e 100 Brobdingnagiani facciano domanda all'Università di Glubbdubdrib e che le decisioni in merito all'ammissione vengano prese nel seguente modo:

Tabella 3. Candidati lilla (il 90% è qualificato)

	Qualificato	Non qualificato
Ammesso	45	2
Rifiutato	45	8
Totale	90	10
Percentuale di studenti qualificati ammessi: 45/90 = 50% Percentuale di studenti non qualificati rifiutati: 8/10 = 80% Percentuale totale di studenti lillupiani ammessi: (45+2)/100 = 47%

Tabella 4. Candidati Brobdingnagian (il 10% è qualificato):

	Qualificato	Non qualificato
Ammesso	5	18
Rifiutato	5	72
Totale	10	90
Percentuale di studenti qualificati ammessi: 5/10 = 50% Percentuale di studenti non qualificati rifiutati: 72/90 = 80% Percentuale totale di studenti Brobdingnagian ammessi: (5+18)/100 = 23%

Le probabilità equalizzate sono soddisfatte perché gli studenti qualificati di Lilliputian e Brobdingnagian hanno entrambi il 50% di probabilità di essere ammessi, mentre quelli non qualificati e Brobdingnagian hanno una probabilità dell'80% di essere rifiutati.

Le probabilità equalizzate sono definite formalmente in "Parità delle opportunità nell'apprendimento supervisionato" come segue: "il predittore ↓ soddisfa le quote equalizzate rispetto all'attributo protetto A e al risultato Y se ↓ e A sono indipendenti, condizionali a Y".

Strumento di stima

#TensorFlow

Un'API TensorFlow deprecata. Utilizza tf.keras invece di Estimator.

valutazione

Il processo di misurazione della qualità delle previsioni di un modello di machine learning. Durante lo sviluppo di un modello, in genere applichi le metriche di valutazione non solo al set di addestramento, ma anche a un set di convalida e a un set di test. Puoi anche usare le metriche di valutazione per confrontare modelli diversi.

un esempio.

#fundamentals

I valori di una riga di features e possibilmente un'etichetta. Gli esempi di apprendimento supervisionato rientrano in due categorie generali:

Un esempio con etichetta è costituito da una o più caratteristiche e da un'etichetta. Durante l'addestramento vengono usati esempi etichettati.
Un esempio senza etichetta è costituito da una o più caratteristiche, ma senza etichette. Durante l'inferenza vengono utilizzati esempi non etichettati.

Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test degli studenti. Ecco tre esempi etichettati:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	Buoni
19	34	1020	Eccellente
18	92	1012	Scadente

Ecco tre esempi senza etichetta:

Temperatura	Umidità	Pressione
12	62	1014
21	47	1017
19	41	1021

La riga di un set di dati è in genere l'origine non elaborata di un esempio. Questo significa che un esempio è generalmente costituito da un sottoinsieme di colonne nel set di dati. Inoltre, le caratteristiche in un esempio possono includere anche caratteristiche sintetiche, come gli incroci di caratteristiche.

riproduzione dell'esperienza

#rl

Nell'apprendimento per rinforzo si utilizza una tecnica DQN utilizzata per ridurre le correlazioni temporali nei dati di addestramento. L'agente memorizza le transizioni di stato in un buffer di riproduzione e quindi campiona le transizioni dal buffer di ripetizione per creare i dati di addestramento.

pregiudizi dello sperimentatore

#fairness

Consulta la sezione Bias di conferma.

problema del gradiente con esplosione

#seq

La tendenza dei gradienti nelle reti neurali profonde (in particolare reti neurali ricorrenti) a diventare stranamente ripida (alta). I gradienti ripide spesso causano aggiornamenti molto grandi alle ponderazioni di ciascun nodo in una rete neurale profonda.

I modelli che presentano il problema del gradiente che esplodono diventano difficili o impossibili da addestrare. Il taglio delle sfumature può mitigare questo problema.

Confronta con il problema della scomparsa del gradiente.

F

F₁

Una metrica di classificazione binaria di "aggregazione" che si basa sia sulla precisione che sul richiamo. Ecco la formula:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Ad esempio, in base a quanto segue:

precisione = 0,6
richiamo = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Quando precisione e richiamo sono abbastanza simili (come nell'esempio precedente), F₁ è vicino alla loro media. Quando precisione e richiamo sono notevolmente diversi, F₁ è più vicino al valore più basso. Ad esempio:

precisione = 0,9
richiamo = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

vincolo di equità

#fairness

Applicazione di un vincolo a un algoritmo per garantire che una o più definizioni di equità siano soddisfatte. Esempi di vincoli di equità includono:

Post-elaborazione dell'output del modello.
Alterare la funzione di perdita per incorporare una sanzione per violazione di una metrica di equità.
Aggiunta diretta di un vincolo matematico a un problema di ottimizzazione.

metrica di equità

#fairness

Una definizione matematica di "equità" misurabile. Alcune metriche di equità di uso comune includono:

Molte metriche di equità si escludono a vicenda; consulta incompatibilità delle metriche di equità.

falso negativo (FN)

#fundamentals

Esempio in cui il modello prevede erroneamente la classe negativa. Ad esempio, il modello prevede che un determinato messaggio email non è spam (classe esclusa), ma quel messaggio email in realtà è spam.

percentuale di falsi negativi

La proporzione di esempi positivi effettivi per cui il modello ha previsto erroneamente la classe negativa. La seguente formula calcola il tasso di falsi negativi:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

falso positivo (FP)

#fundamentals

Esempio in cui il modello prevede erroneamente la classe positiva. Ad esempio, il modello prevede che un determinato messaggio email è spam (la classe positiva), ma che quel messaggio email in realtà non è spam.

tasso di falsi positivi (FPR)

#fundamentals

La proporzione di esempi negativi effettivi per cui il modello ha previsto erroneamente la classe positiva. La seguente formula calcola la percentuale di falsi positivi:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Il tasso di falsi positivi è l'asse x in una curva ROC.

caratteristica

#fundamentals

Una variabile di input a un modello di machine learning. Un esempio è costituito da una o più funzionalità. Ad esempio, supponiamo che tu stia addestrando un modello per determinare l'influenza delle condizioni meteorologiche sui punteggi dei test. La tabella seguente mostra tre esempi, ognuno dei quali contiene tre caratteristiche e un'etichetta:

Funzionalità			Etichetta
Temperatura	Umidità	Pressione	Punteggio del test
15	47	998	92
19	34	1020	84
18	92	1012	87

Contrasta con label.

incrocio di caratteristiche

#fundamentals

Una caratteristica sintetica formata da caratteristiche categoriche o in bucket di "crossing".

Ad esempio, considera un modello di "previsione dell'umore" che rappresenta la temperatura in uno dei seguenti quattro bucket:

freezing
chilly
temperate
warm

e rappresenta la velocità del vento in uno dei seguenti tre bucket:

still
light
windy

Senza incroci di caratteristiche, il modello lineare viene addestrato in modo indipendente su ciascuno dei sette vari bucket precedenti. Il modello viene addestrato, ad esempio, su freezing, indipendentemente dall'addestramento, ad esempio windy.

In alternativa, puoi creare un incrocio di caratteristiche di temperatura e velocità del vento. Questa funzionalità sintetica avrebbe i seguenti 12 valori possibili:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Grazie agli incroci di caratteristiche, il modello può apprendere le differenze d'umore tra freezing-windy giorno e freezing-still giorno.

Se crei una caratteristica sintetica da due caratteristiche, ciascuna con molti bucket diversi, l'incrocio di caratteristiche risultante avrà un numero enorme di combinazioni possibili. Ad esempio, se una caratteristica ha 1000 bucket e l'altra ha 2000 bucket, l'incrocio di caratteristiche risultante ha 2.000.000 di bucket.

formalmente, un incrocio è un prodotto cartesiano.

Gli incroci di caratteristiche vengono utilizzati principalmente con i modelli lineari e raramente con le reti neurali.

e applicazione del feature engineering.

#fundamentals

#TensorFlow

Un processo che prevede le seguenti fasi:

Stabilire quali caratteristiche potrebbero essere utili per addestrare un modello.
Convertire i dati non elaborati dal set di dati in versioni efficienti di queste caratteristiche.

Ad esempio, potresti determinare che temperature potrebbe essere una funzionalità utile. Successivamente, potresti eseguire un esperimento con il bucket per ottimizzare ciò che il modello può apprendere dai diversi intervalli temperature.

Il feature engineering è a volte chiamato estrazione delle caratteristiche o funzionalità.

Fai clic sull'icona per visualizzare ulteriori note su TensorFlow.

In TensorFlow, il feature engineering spesso significa convertire le voci dei file di log non elaborati in buffer di protocollo tf.Example. Vedi anche tf.Transform.

estrazione delle caratteristiche

Termine sovraccarico con una delle seguenti definizioni:

Recupero delle rappresentazioni intermedie delle caratteristiche calcolate da un modello non supervisionato o preaddestrato (ad esempio, valori dello strato nascosto in una rete neurale) per l'utilizzo in un altro modello come input.
Sinonimo di feature engineering.

importanza delle caratteristiche

#df

Sinonimo di importazioni variabili.

insieme di caratteristiche

#fundamentals

Il gruppo di caratteristiche su cui viene addestrato il modello di machine learning. Ad esempio, codice postale, dimensioni e condizioni della proprietà potrebbero comporre un semplice set di caratteristiche per un modello che prevede i prezzi delle abitazioni.

specifica della funzionalità

#TensorFlow

Descrive le informazioni necessarie per estrarre i dati delle caratteristiche dal buffer di protocollo tf.Example. Poiché il buffer di protocollo tf.Example è solo un container per i dati, devi specificare quanto segue:

I dati da estrarre (ovvero le chiavi per le caratteristiche)
Il tipo di dati (ad esempio float o int)
La lunghezza (fissa o variabile)

vettore di caratteristiche

#fundamentals

L'array di valori feature che comprende un esempio. Il vettore di caratteristiche viene inserito durante l'addestramento e durante l'inferenza. Ad esempio, il vettore di caratteristiche per un modello con due caratteristiche discrete potrebbe essere:

[0.92, 0.56]

Quattro livelli: uno di input, due nascosti e uno di output.
Il livello di input contiene due nodi, uno contenente il valore
0,92 e l'altro il valore 0,56.

Ogni esempio fornisce valori diversi per il vettore di caratteristiche, quindi il vettore di caratteristiche per il prossimo esempio potrebbe essere simile a:

[0.73, 0.49]

Il feature engineering determina come rappresentare le caratteristiche nel vettore di caratteristiche. Ad esempio, una funzionalità categorica binaria con cinque possibili valori potrebbe essere rappresentata con la codifica one-hot. In questo caso, la parte del vettore di caratteristiche per un determinato esempio sarebbe composta da quattro zeri e un singolo 1,0 nella terza posizione, come segue:

[0.0, 0.0, 1.0, 0.0, 0.0]

Come ulteriore esempio, supponiamo che il tuo modello abbia tre caratteristiche:

una caratteristica categorica binaria con cinque possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 1.0, 0.0, 0.0, 0.0]
un'altra caratteristica categorica binaria con tre possibili valori rappresentati con la codifica one-hot; ad esempio: [0.0, 0.0, 1.0]
un elemento con rappresentazione in virgola mobile; ad esempio: 8.3.

In questo caso, il vettore di caratteristiche per ogni esempio sarebbe rappresentato da nove valori. Dati i valori di esempio nell'elenco precedente, il vettore di caratteristiche sarebbe:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

funzionalità

Il processo di estrazione delle caratteristiche da un'origine di input, ad esempio un documento o video, e la mappatura di tali caratteristiche in un vettore di caratteristiche.

Alcuni esperti di ML utilizzano la funzionalità come sinonimo di feature engineering o estrazione delle caratteristiche.

apprendimento federato

Un approccio di machine learning distribuito che addestra i modelli di machine learning utilizzando esempi decentralizzati presenti su dispositivi come gli smartphone. Nell'apprendimento federato, un sottoinsieme di dispositivi scarica il modello attuale da un server di coordinamento centrale. I dispositivi utilizzano gli esempi memorizzati per apportare miglioramenti al modello. I dispositivi caricano quindi i miglioramenti del modello (ma non gli esempi di addestramento) nel server di coordinamento, dove vengono aggregati ad altri aggiornamenti per ottenere un modello globale migliorato. Dopo l'aggregazione, gli aggiornamenti del modello calcolati dai dispositivi non sono più necessari e possono essere ignorati.

Poiché gli esempi di addestramento non vengono mai caricati, l'apprendimento federato segue i principi sulla privacy della raccolta e della minimizzazione dei dati mirati.

Per ulteriori informazioni sull'apprendimento federato, consulta questo tutorial.

ciclo di feedback

#fundamentals

Nel machine learning, una situazione in cui le previsioni di un modello influenzano i dati di addestramento dello stesso modello o di un altro modello. Ad esempio, un modello che consiglia film influirà sui film visti dalle persone, cosa che influenzerà i successivi modelli di consigli per i film.

rete neurale feed-forward (FFN)

Una rete neurale senza connessioni cicliche o ricorsive. Ad esempio, le reti neurali profonde tradizionali sono reti neurali feed-forward. Contrastare le reti neurali ricorrenti, che sono cicliche.

apprendimento few-shot

Approccio basato sul machine learning, spesso utilizzato per la classificazione degli oggetti, progettato per addestrare classificatori efficaci solo a partire da un numero limitato di esempi di addestramento.

Vedi anche apprendimento one-shot e apprendimento zero-shot.

Prompt few-shot

#language

#IAgenerativa

Un prompt che contiene più di un esempio (un "pochi") che mostra come dovrebbe rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt lungo contiene due esempi che mostrano un modello linguistico di grandi dimensioni (LLM) come rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`Regno Unito: GBP`	Un altro esempio.
`India:`	La query effettiva.

I prompt few-shot generalmente producono risultati più desiderabili rispetto ai prompt zero-shot e ai prompt one-shot. Tuttavia, i prompt few-shot richiedono un prompt più lungo.

Prompt few-shot: è una forma di apprendimento few-shot applicata all'apprendimento basato su prompt.

Violino

#language

Una libreria di configurazione incentrata su Python che imposta i valori di funzioni e classi senza codice o infrastruttura invasivi. Nel caso di Pax (e altri codebase ML), queste funzioni e classi rappresentano modelli e iperparametri di addestramento.

Fiddle presuppone che i codebase di machine learning siano generalmente suddivisi in:

Codice libreria, che definisce livelli e ottimizzatori.
Un set di dati con codice "glue" che chiama le librerie e collega tutto.

Fiddle acquisisce la struttura della chiamata del codice glue code in un formato non valutato e mutabile.

messa a punto

#language

#image

#IAgenerativa

Un secondo passaggio di addestramento specifico per un'attività eseguito su un modello preaddestrato per perfezionarne i parametri per un caso d'uso specifico. Ad esempio, la sequenza di addestramento completa per alcuni modelli linguistici di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello linguistico di grandi dimensioni (LLM) su un ampio set di dati generale, ad esempio tutte le pagine di Wikipedia in lingua inglese.
Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio rispondere a query mediche. L'ottimizzazione richiede in genere centinaia o migliaia di esempi incentrati sull'attività specifica.

Come ulteriore esempio, la sequenza di addestramento completa per un modello di immagine di grandi dimensioni è la seguente:

Preaddestramento: addestra un modello di immagini di grandi dimensioni su un ampio set di dati di immagini generali, come tutte le immagini in Wikimedia Commons.
Ottimizzazione: addestra il modello preaddestrato per eseguire un'attività specifica, ad esempio la generazione di immagini di orche.

Il perfezionamento può comportare una qualsiasi combinazione delle seguenti strategie:

Modificando tutti i parametri esistenti del modello preaddestrato. Questa operazione è talvolta chiamata ottimizzazione completa.
Modificando solo alcuni dei parametri esistenti del modello preaddestrato (in genere, i livelli più vicini allo livello di output), mantenendo invariati gli altri parametri esistenti (in genere, i livelli più vicini allo livello di input). Consulta ottimizzazione efficiente dei parametri.
Aggiungere altri strati, in genere sopra quelli esistenti più vicini a quello di output.

Il perfezionamento è una forma di transfer learning. Di conseguenza, l'ottimizzazione potrebbe utilizzare una funzione di perdita diversa o un tipo di modello diverso da quelli utilizzati per addestrare il modello preaddestrato. Ad esempio, potresti ottimizzare un modello di immagini di grandi dimensioni preaddestrato per produrre un modello di regressione che restituisce il numero di uccelli in un'immagine di input.

Confronta e contrapponi il perfezionamento con i seguenti termini:

Lino

#language

Una libreria open source ad alte prestazioni per il deep learning basata su JAX. Flax offre funzioni per l'addestramento delle reti neurali, nonché metodi per valutarne le prestazioni.

Forma di lino

#language

Una libreria open source Transformer, basata su Flax, progettata principalmente per l'elaborazione del linguaggio naturale e la ricerca multimodale.

elimina il cancello

#seq

La parte di una cella di memoria a breve termine a lungo che regola il flusso di informazioni attraverso la cella. Le porte eliminate mantengono il contesto decidendo quali informazioni scartare dallo stato della cella.

softmax completo

Sinonimo di softmax.

Contrasta il campionamento dei candidati.

livello completamente connesso

Un strato nascosto in cui ogni nodo è connesso a ogni nodo nel successivo strato nascosto.

Uno strato completamente connesso è anche noto come strato denso.

trasformazione delle funzioni

Una funzione che prende una funzione come input e restituisce una funzione trasformata come output. JAX utilizza le trasformazioni delle funzioni.

G

GAN

Abbreviazione di generative adversarial network.

generalizzazione

#fundamentals

La capacità di un modello di fare previsioni corrette su dati nuovi non visti in precedenza. Un modello in grado di generalizzare è l'opposto di un modello che prevede l'overfitting.

Fai clic sull'icona per visualizzare altre note.

Un modello viene addestrato dagli esempi nel set di addestramento. Di conseguenza, il modello apprende le peculiarità dei dati nel set di addestramento. La generalizzazione chiede essenzialmente se il modello può fare buone previsioni su esempi che non sono nel set di addestramento.

Per incoraggiare la generalizzazione, la regolarizzazione aiuta un modello ad addestrare un modello meno esattamente in base alle peculiarità dei dati nel set di addestramento.

curva di generalizzazione

#fundamentals

Un grafico della perdita di addestramento e della perdita di convalida in funzione del numero di iterazioni.

Una curva di generalizzazione può aiutarti a rilevare un possibile overfitting. Ad esempio, la seguente curva di generalizzazione suggerisce l'overfitting, perché la perdita di convalida diventa di gran lunga superiore a quella dell'addestramento.

Un grafico cartesiano in cui l'asse y è etichettato come perdita e l'asse x è etichettato come iterazioni. Vengono visualizzati due grafici. Un grafico mostra la perdita di addestramento e l'altro quella di convalida.
I due grafici iniziano in modo simile, ma la perdita dell'addestramento scende molto più in basso rispetto a quella della convalida.

modello lineare generalizzato

Una generalizzazione dei modelli di regressione con minimi quadrati, basati sul rumore gaussiano, ad altri tipi di modelli basati su altri tipi di rumore, come il rumore di Poisson o il rumore categorico. Esempi di modelli lineari generalizzati includono:

regressione logistica
regressione multiclasse
regressione dei minimi quadrati

I parametri di un modello lineare generalizzato sono disponibili tramite l'ottimizzazione convessa.

I modelli lineari generalizzati presentano le seguenti proprietà:

La previsione media del modello di regressione dei minimi quadrati è uguale all'etichetta media sui dati di addestramento.
La probabilità media prevista dal modello di regressione logistica ottimale è uguale all'etichetta media sui dati di addestramento.

La potenza di un modello lineare generalizzato è limitata dalle sue caratteristiche. A differenza del modello deep, un modello lineare generalizzato non può "imparare nuove caratteristiche".

rete generativa avversaria (GAN)

Un sistema per creare nuovi dati in cui un generatore crea dati e un discriminatore determina se i dati creati sono validi o meno.

AI generativa

#language

#image

#IAgenerativa

Un campo trasformativo emergente senza definizione formale. Detto questo, la maggior parte degli esperti concorda sul fatto che i modelli di IA generativa possono creare ("generare") contenuti che:

complesso
coerente
originale

Ad esempio, un modello di IA generativa può creare immagini o saggi sofisticati.

Anche alcune tecnologie precedenti, tra cui gli LSTM e gli RNN, possono generare contenuti originali e coerenti. Alcuni esperti considerano queste tecnologie precedenti come IA generativa, mentre altri ritengono che la vera IA generativa richieda output più complessi di quelli in grado di produrre quelle precedenti.

Confrontare con l'ML predittivo.

modello generativo

In pratica, un modello che svolge una delle seguenti azioni:

Crea (genera) nuovi esempi dal set di dati di addestramento. Ad esempio, un modello generativo potrebbe creare poesie dopo l'addestramento su un set di dati di poesie. La parte relativa al generatore di una rete generativa generativa rientra in questa categoria.
Determina la probabilità che un nuovo esempio provenga dal set di addestramento o sia stato creato dallo stesso meccanismo che ha creato il set di addestramento. Ad esempio, dopo l'addestramento su un set di dati costituito da frasi inglesi, un modello generativo potrebbe determinare la probabilità che il nuovo input sia una frase inglese valida.

Un modello generativo può teoricamente discernere la distribuzione di esempi o caratteristiche in un set di dati. Ossia:

p(examples)

I modelli di apprendimento non supervisionato sono generativi.

Effettuare il confronto con i modelli discriminativi.

generatore

Il sottosistema all'interno di una rete generativa generativa che crea nuovi esempi.

Contrasta il modello discriminativo.

impurità di gini

#df

Una metrica simile all'entropia. I separatori usano valori derivati dall'impurità o dall'entropia di Gini per comporre le condizioni per la classificazione degli alberi decisionali. L'aumento di informazioni deriva dall'entropia. Non esiste un termine equivalente universalmente accettato per la metrica derivata dall'impurità di gini; tuttavia, questa metrica senza nome è importante quanto le informazioni ottenute.

L'impurità di Gini è anche chiamata indice di gini o semplicemente gini.

Fai clic sull'icona per visualizzare i dettagli matematici relativi all'impurità di gini.

L'impurità di Gini è la probabilità di classificare erroneamente un nuovo dato proveniente dalla stessa distribuzione. L'impurità di gini di un insieme con due possibili valori "0" e "1" (ad esempio, le etichette in un problema di classificazione binaria) viene calcolata in base alla seguente formula:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

dove:

I è l'impurità del gini.
p è la frazione di "1" esempi.
q è la frazione del numero di esempi "0". Tieni presente che q = 1-p

Ad esempio, considera il seguente set di dati:

100 etichette (0,25 del set di dati) contengono il valore "1"
300 etichette (0,75 del set di dati) contengono il valore "0"

Pertanto, l'impurità di gini è:

p = 0,25
q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

Di conseguenza, un'etichetta casuale dello stesso set di dati avrebbe il 37,5% di probabilità di essere classificata in modo errato e una probabilità del 62,5% di essere classificata correttamente.

Un'etichetta perfettamente bilanciata (ad esempio, 200 "0" e 200 "1") avrebbe un'impurità di gini pari a 0,5. Un'etichetta altamente sbilanciata avrebbe un'impurità di Gini vicina a 0,0.

set di dati aureo

Un insieme di dati selezionati manualmente che acquisiscono i dati empirici reali. I team possono utilizzare uno o più set di dati aurei per valutare la qualità di un modello.

Alcuni set di dati aurei catturano diversi sottodomini di dati empirici reali. Ad esempio, un set di dati aureo per la classificazione delle immagini potrebbe acquisire le condizioni di illuminazione e la risoluzione dell'immagine.

GPT (Generative Pre-training Transformer)

#language

Una famiglia di modelli linguistici di grandi dimensioni basati su Transformer e sviluppati da OpenAI.

Le varianti GPT possono essere applicate a diverse modalità, tra cui:

Generazione di immagini (ad esempio, ImageGPT)
la generazione da testo a immagine (ad esempio, DALL-E).

gradiente

Il vettore delle derivate parziali rispetto a tutte le variabili indipendenti. Nel machine learning, il gradiente è il vettore delle derivate parziali della funzione del modello. La pendenza punta nella direzione della salita più ripida.

accumulo di gradienti

Una tecnica di retropropagazione che aggiorna i parametri solo una volta per epoca anziché una volta per iterazione. Dopo aver elaborato ogni mini-batch, l'accumulo dei gradienti si limita ad aggiornare un totale progressivo di gradienti. Dopo aver elaborato l'ultimo mini-batch nell'epoca, il sistema aggiorna i parametri in base al totale di tutte le modifiche del gradiente.

L'accumulo del gradiente è utile quando la dimensione del batch è molto elevata rispetto alla quantità di memoria disponibile per l'addestramento. Quando la memoria è un problema, la tendenza naturale è quella di ridurre la dimensione del batch. Tuttavia, la riduzione della dimensione del batch nella normale retropropagazione aumenta il numero di aggiornamenti dei parametri. L'accumulo dei gradienti consente al modello di evitare problemi di memoria,

alberi a gradiente (decision) (GBT)

#df

Un tipo di foresta decisionale in cui:

L'addestramento si basa sul incremento del gradiente.
Il modello debole è un albero decisionale.

incremento del gradiente

#df

Un algoritmo di addestramento in cui i modelli deboli vengono addestrati per migliorare iterativamente la qualità (ridurre la perdita) di un modello forte. Ad esempio, un modello debole potrebbe essere un modello lineare o un piccolo albero decisionale. Un modello forte diventa la somma di tutti i modelli deboli addestrati in precedenza.

Nella forma più semplice di aumento del gradiente, a ogni iterazione viene addestrato un modello debole per prevedere il gradiente di perdita del modello forte. Quindi, l'output del modello forte viene aggiornato sottraendo il gradiente previsto, in modo simile alla discesa del gradiente.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

dove:

$F_{0}$ è il modello iniziale efficace.
$F_{i+1}$ è il prossimo modello molto efficace.
$F_{i}$ è il modello attualmente forte.
$\xi$ è un valore compreso tra 0,0 e 1,0 chiamato shrinkage, analogo al tasso di apprendimento nella discesa del gradiente.
$f_{i}$ è il modello debole addestrato per prevedere il gradiente di perdita di $F_{i}$.

Le varianti moderne dell'incremento del gradiente includono anche la derivata seconda (Hessian) della perdita nel calcolo.

Gli alberi decisionali sono comunemente utilizzati come modelli deboli nell'incremento del gradiente. Consulta gli alberi decisionali a gradiente di crescita.

ritaglio gradiente

#seq

Un meccanismo comunemente utilizzato per mitigare il problema del gradiente esploso limitando artificialmente (ritaglio) il valore massimo dei gradienti quando si utilizza la discesa del gradiente per addestrare un modello.

discesa del gradiente

#fundamentals

Una tecnica matematica per ridurre al minimo la perdita. La discesa del gradiente regola iterativamente le ponderazioni e i bias, trovando gradualmente la combinazione migliore per ridurre al minimo la perdita.

La discesa del gradiente è più vecchia, molto più vecchia del machine learning.

grafico

#TensorFlow

In TensorFlow, una specifica di calcolo. I nodi nel grafico rappresentano le operazioni. Gli archi sono orientati e rappresentano il passaggio del risultato di un'operazione (un Tensor) come operando a un'altra operazione. Utilizza TensorBoard per visualizzare un grafico.

esecuzione del grafico

#TensorFlow

Un ambiente di programmazione TensorFlow in cui il programma prima costruisce un grafico, quindi esegue tutto o parte di questo grafico. L'esecuzione del grafico è la modalità di esecuzione predefinita in TensorFlow 1.x.

Contrasta l'esecuzione eager.

norme greedy

#rl

Nell'apprendimento per rinforzo, una norma che sceglie sempre l'azione con il ritorno previsto più elevato.

dato di fatto

#fundamentals

Realtà.

Ciò che è effettivamente successo.

Ad esempio, prendiamo in considerazione un modello di classificazione binaria che prevede se uno studente del primo anno di università si laurea entro sei anni. I dati di fatto per questo modello sono se quello studente si è effettivamente laureato entro sei anni.

Fai clic sull'icona per visualizzare altre note.

Valutiamo la qualità del modello rispetto ai dati di fatto. Tuttavia, i dati di fatto non sono sempre completamente veritieri. Ad esempio, considera i seguenti esempi di potenziali imperfezioni nei dati di fatto:

Nell'esempio della promozione, siamo sicuro che i documenti relativi alle lauree di ogni studente siano sempre corretti? La gestione dei registri dell'università è impeccabile?
Supponiamo che l'etichetta sia un valore in virgola mobile misurato da strumenti (ad esempio, barometri). Come possiamo essere sicuri che ogni strumento sia calibrato in modo identico o che ogni lettura sia stata effettuata nelle stesse circostanze?
Se l'etichetta è una questione di opinione umana, come possiamo essere sicuri che ogni valutatore umano valuti gli eventi nello stesso modo? Per migliorare la coerenza, a volte intervengono revisori esperti.

bias di attribuzione gruppo

#fairness

Supponendo che ciò che è vero per un individuo sia vero anche per tutti i membri del gruppo, Gli effetti dei bias di attribuzione di gruppo possono essere esacerbati se per la raccolta dei dati viene utilizzato un campionamento di convenienza. In un campione non rappresentativo, è possibile fare attribuzioni che non riflettono la realtà.

Vedi anche bias di omogeneità fuori gruppo e bias in-group.

V

allucinazione

#language

La produzione di output plausibili, ma di fatto errati, da parte di un modello di IA generativa che sostiene di fare un'affermazione sul mondo reale. Ad esempio, un modello di IA generativa che afferma che Barack Obama sia morto nel 1865 è allucinante.

hashing

Nel machine learning, un meccanismo per il bucketing dei dati categorici, in particolare quando il numero di categorie è elevato, ma il numero di categorie effettivamente presenti nel set di dati è relativamente ridotto.

Ad esempio, la Terra ospita circa 73.000 specie di alberi. Potresti rappresentare ciascuna delle 73.000 specie di alberi in 73.000 bucket categorici separati. In alternativa, se solo 200 di queste specie di alberi appaiono in un set di dati, potresti utilizzare l'hashing per dividere le specie di alberi in circa 500 bucket.

Un singolo secchio può contenere più specie di alberi. Ad esempio, l'hashing potrebbe posizionare baobab e acero rosso (due specie geneticamente diverse) nello stesso bucket. Indipendentemente da ciò, l'hashing è comunque un buon modo per mappare grandi insiemi di categorie nel numero selezionato di bucket. L'hashing trasforma una caratteristica categorica con un grande numero di valori possibili in un numero molto minore di valori raggruppando i valori in modo deterministico.

euristico

Una soluzione a un problema semplice e rapidamente implementata. Ad esempio: "Con un approccio euristico, abbiamo raggiunto un'accuratezza dell'86%. Quando siamo passati a una rete neurale profonda, l'accuratezza è arrivata al 98%".

strato nascosto

#fundamentals

Uno strato in una rete neurale tra lo livello di input (le caratteristiche) e lo livello di output (la previsione). Ogni strato nascosto è costituito da uno o più neuroni. Ad esempio, la seguente rete neurale contiene due strati nascosti, il primo con tre neuroni e il secondo con due neuroni:

Una rete neurale profonda contiene più di uno strato nascosto. L'illustrazione precedente mostra una rete neurale profonda perché il modello contiene due strati nascosti.

clustering gerarchico

#clustering

Una categoria di algoritmi di clustering che creano una struttura ad albero di cluster. Il clustering gerarchico è adatto ai dati gerarchici, come le tassonomie botaniche. Esistono due tipi di algoritmi di clustering gerarchici:

Il clustering agglomerativo assegna prima ogni esempio al proprio cluster e unisce iterativamente i cluster più vicini per creare un albero gerarchico.
Il clustering suddiviso raggruppa innanzitutto tutti gli esempi in un unico cluster, quindi suddivide iterativamente il cluster in una struttura gerarchica.

Contrastare con il clustering basato su centroid.

perdita di cerniera

Una famiglia di funzioni di perdita per la classificazione progettate per trovare il confine decisionale il più lontano possibile da ogni esempio di addestramento, massimizzando così il margine tra gli esempi e il confine. Le KSVM utilizzano la perdita cerniera (o una funzione correlata, ad esempio la perdita cerniera quadrata). Per la classificazione binaria, la funzione di perdita di cerniera è definita come segue:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

dove y è l'etichetta vera, -1 o +1 e y' è l'output non elaborato del modello di classificazione:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Di conseguenza, un grafico della perdita di cerniera rispetto a (y * y') ha il seguente aspetto:

Un grafico cartesiano costituito da due segmenti di linee uniti. Il primo segmento
di linea inizia da (-3, 4) e termina con (1, 0). Il secondo segmento
di linea inizia da (1, 0) e continua all'infinito con una pendenza
pari a 0.

pregiudizi storici

#fairness

Un tipo di bias che esiste già al mondo e si è trasformato in un set di dati. Questi bias tendono a riflettere gli stereotipi culturali esistenti, le disuguaglianze demografiche e i pregiudizi nei confronti di determinati gruppi sociali.

Ad esempio, prendi in considerazione un modello di classificazione che prevede se la persona che ha richiesto un prestito sarà inadempiente sul prestito, che è stato addestrato sulla base dei dati storici relativi agli inadempimenti degli anni '80 forniti da banche locali di due diverse comunità. Se i precedenti richiedenti della Community A avevano una probabilità sei volte più alta di inadempire i prestiti rispetto ai richiedenti della Community B, il modello potrebbe apprendere un bias storico che rende il modello meno propenso ad approvare i prestiti nella Comunità A, anche se le condizioni storiche che hanno portato ai tassi di inadempienza più elevati della comunità non erano più rilevanti.

dati holdout

Esempi non utilizzati intenzionalmente ("messi da parte") durante l'addestramento. Il set di dati di convalida e il set di dati di test sono esempi di dati di holdout. I dati di holdout aiutano a valutare la capacità del modello di generalizzare a dati diversi da quelli con cui è stato addestrato. La perdita sul set di holdout fornisce una stima migliore della perdita su un set di dati non rilevato rispetto alla perdita sul set di addestramento.

organizzatore

#TensorFlow

#GoogleCloud

Durante l'addestramento di un modello ML su chip dell'acceleratore (GPU o TPU), la parte del sistema che controlla entrambi i seguenti elementi:

Il flusso complessivo del codice.
Estrazione e trasformazione della pipeline di input.

L'host in genere viene eseguito su una CPU, non su un chip dell'acceleratore; il dispositivo manipola i tensori sui chip dell'acceleratore.

iperparametro

#fundamentals

Le variabili che tu o un servizio di ottimizzazione degli iperparametri regolate durante le esecuzioni successive di addestramento di un modello. Ad esempio, il tasso di apprendimento è un iperparametro. Potresti impostare il tasso di apprendimento su 0,01 prima di una sessione di addestramento. Se determini che 0,01 è troppo alto, potresti forse impostare il tasso di apprendimento su 0,003 per la sessione di addestramento successiva.

Al contrario, i parametri sono i vari ponderazioni e pregiudizi che il modello apprende durante l'addestramento.

iperpiano

Un confine che separa uno spazio in due sottospazi. Ad esempio, una linea è un iperpiano con due dimensioni, mentre un piano è un iperpiano con due dimensioni. Più tipicamente nel machine learning, un iperpiano è il confine che separa uno spazio ad alta dimensionalità. Le macchine vettoriali di supporto del kernel utilizzano gli iperpiani per separare le classi positive da quelle negative, spesso in uno spazio con dimensioni molto elevate.

I

i.i.d

Abbreviazione di distribuito in modo indipendente e in modo identico.

riconoscimento immagine

#image

Un processo che classifica gli oggetti, i pattern o i concetti presenti in un'immagine. Il riconoscimento delle immagini è anche noto come classificazione delle immagini.

Per ulteriori informazioni, consulta ML Practicum: Image Classification.

set di dati sbilanciato

Sinonimo di class-imbalanced dataset.

pregiudizio implicito

#fairness

Creare automaticamente un'associazione o un'ipotesi basata sui modelli mentali e sui ricordi degli utenti. Il bias implicito può influire su quanto segue:

Modalità di raccolta e classificazione dei dati.
Come vengono progettati e sviluppati i sistemi di machine learning.

Ad esempio, quando si crea un classificatore per identificare le foto del matrimonio, un ingegnere potrebbe utilizzare la presenza di un abito bianco in una foto come caratteristica. Tuttavia, gli abiti bianchi erano consuetudine solo in certe epoche e in certe culture.

Vedi anche differenziazione della conferma.

imputazione

Forma breve di imputazione del valore.

incompatibilità delle metriche di equità

#fairness

L'idea che alcune nozioni di equità sono incompatibili reciprocamente e non possono essere soddisfatte contemporaneamente. Di conseguenza, non esiste un'unica metrica universale per quantificare l'equità che possa essere applicata a tutti i problemi di ML.

Sebbene ciò possa sembrare scoraggiante, l'incompatibilità delle metriche di equità non implica che le iniziative legate all'equità siano inutili. Suggerisce invece che l'equità debba essere definita contestualmente per un determinato problema di ML, con l'obiettivo di prevenire danni specifici per i suoi casi d'uso.

Consulta la sezione "Sulla (im)possibilità di equità" per una discussione più dettagliata su questo argomento.

apprendimento contestuale

#language

#IAgenerativa

Sinonimo di prompt few-shot.

in modo indipendente e distribuito in modo identico (i.i.d)

#fundamentals

Dati estratte da una distribuzione che non cambia e dove ogni valore tracciato non dipende dai valori tracciati in precedenza. Un i.i.d. è il gas ideale del machine learning: un costrutto matematico utile ma quasi mai trovato esattamente nel mondo reale. Ad esempio, la distribuzione dei visitatori di una pagina web potrebbe essere su una breve finestra di tempo, ovvero non cambia durante questo breve periodo e la visita di una persona è generalmente indipendente dalla visita di un'altra. Tuttavia, se espandi la finestra di tempo, potrebbero apparire differenze stagionali nei visitatori della pagina web.

Vedi anche nonstationarity.

equità individuale

#fairness

Una metrica di equità che verifica se persone simili sono classificate in modo simile. Ad esempio, Brobdingnagian Academy potrebbe voler soddisfare l'equità individuale assicurando che due studenti con voti identici e punteggi di esami standardizzati abbiano la stessa probabilità di ottenere l'ammissione.

Tieni presente che l'equità individuale si basa interamente sul modo in cui definisci la"somiglianza" (in questo caso, voti e punteggi dei test) e puoi correre il rischio di introdurre nuovi problemi di equità se la tua metrica di somiglianza tralascia informazioni importanti (come il rigore del programma di uno studente).

Consulta la sezione "Equità nella consapevolezza" per un approfondimento più dettagliato sull'equità individuale.

inferenza

#fundamentals

Nel machine learning, il processo di elaborazione di previsioni applicando un modello addestrato a esempi non etichettati.

L'inferenza ha un significato leggermente diverso in statistica. Per maggiori dettagli, consulta l' articolo di Wikipedia sull'inferenza statistica.

percorso di inferenza

#df

In un albero decisionale, durante l'inferenza, il percorso intrapreso da un determinato esempio dall' radice ad altre condizioni, terminando con una foglia. Ad esempio, nel seguente albero decisionale, le frecce più spesse mostrano il percorso di inferenza per un esempio con i seguenti valori delle caratteristiche:

x = 7
y = 12
z = -3

Il percorso di inferenza nell'illustrazione seguente viaggia attraverso tre condizioni prima di raggiungere la foglia (Zeta).

Le tre frecce spesse mostrano il percorso di inferenza.

guadagno di informazioni

#df

Nelle foreste decisionali, la differenza tra l'entropia di un nodo e la somma ponderata (per il numero di esempi) dell'entropia dei nodi figlio. L'entropia di un nodo è l'entropia degli esempi al suo interno.

Ad esempio, considera i seguenti valori di entropia:

entropia del nodo padre = 0,6
entropia di un nodo figlio con 16 esempi pertinenti = 0,2
entropia di un altro nodo figlio con 24 esempi pertinenti = 0,1

Il 40% degli esempi si trova in un nodo figlio e il 60% nell'altro nodo figlio. Pertanto:

somma dell'entropia ponderata dei nodi figlio = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Quindi, l'acquisizione di informazioni è:

guadagno di informazioni = entropia del nodo padre - somma di entropia ponderata dei nodi figlio
guadagno di informazioni = 0,6 - 0,14 = 0,46

La maggior parte degli splitter cerca di creare condizioni che massimizzano il guadagno di informazioni.

bias nel gruppo

#fairness

Mostrare parzialità rispetto al proprio gruppo o alle proprie caratteristiche. Se i tester o i revisori sono amici, familiari o colleghi dello sviluppatore di machine learning, i bias secondari potrebbero invalidare i test dei prodotti o il set di dati.

Il bias nel gruppo è una forma di bias di attribuzione gruppo. Vedi anche bias di omogeneità fuori gruppo.

generatore di input

Un meccanismo mediante il quale i dati vengono caricati in una rete neurale.

Un generatore di input può essere considerato un componente responsabile dell'elaborazione dei dati non elaborati in tensori che vengono iterati per generare batch per addestramento, valutazione e inferenza.

livello di input

#fundamentals

Il livello di una rete neurale che contiene il vettore di caratteristiche. In altre parole, il livello di input fornisce esempi per l'addestramento o l'inferenza. Ad esempio, il livello di input nella seguente rete neurale è costituito da due caratteristiche:

Quattro livelli: uno di input, due nascosti e uno di output.

condizione integrata

#df

In un albero decisionale, una condizione che verifica la presenza di un elemento in un insieme di elementi. Ad esempio, la seguente è una condizione predefinita:

  house-style in [tudor, colonial, cape]

Durante l'inferenza, se il valore della caratteristica in stile casa è tudor, colonial o cape, questa condizione restituisce Sì. Se il valore della caratteristica in stile casa è diverso (ad esempio, ranch), questa condizione restituisce No.

Le condizioni predefinite di solito portano a alberi decisionali più efficienti rispetto a condizioni che testano le caratteristiche con codifica one-hot.

istanza

Sinonimo di example.

ottimizzazione delle istruzioni

#IAgenerativa

Una forma di ottimizzazione che migliora la capacità di un modello di IA generativa di seguire le istruzioni. L'ottimizzazione delle istruzioni prevede l'addestramento di un modello sulla base di una serie di prompt di istruzione, in genere coprendo un'ampia varietà di attività. Il modello ottimizzato per le istruzioni risultante tende quindi a generare risposte utili ai prompt zero-shot in una serie di attività.

Confronta e metti a confronto con:

interpretabilità

#fundamentals

La capacità di spiegare o presentare il ragionamento di un modello ML in termini comprensibili a un essere umano.

La maggior parte dei modelli di regressione lineare, ad esempio, è altamente interpretabile. (devi solo esaminare i pesi addestrati per ciascuna caratteristica.) Anche le foreste di decisioni sono altamente interpretabili. Alcuni modelli, tuttavia, richiedono una visualizzazione sofisticata per poter essere interpretati.

Puoi utilizzare lo strumento di interpretabilità dell'apprendimento (LIT) per interpretare i modelli ML.

accordo tra classificatori

Una misurazione della frequenza con cui i revisori umani concordano nello svolgere un'attività. Se i revisori non sono d'accordo, potrebbe essere necessario migliorare le istruzioni delle attività. Talvolta è chiamato anche contratto inter-annotatore o affidabilità tra classificatori. Vedi anche kappa di Cohen, che è una delle misurazioni dei contratti tra classificatori più popolari.

intersezione su unione (IoU)

#image

L'intersezione di due insiemi divisa per la loro unione. Nelle attività di rilevamento delle immagini di machine learning, IoU viene utilizzato per misurare l'accuratezza del riquadro di delimitazione previsto del modello rispetto al riquadro di delimitazione basato su dati empirici reali. In questo caso, l'IoU dei due riquadri è il rapporto tra l'area di sovrapposizione e l'area totale e i suoi valori vanno da 0 (nessuna sovrapposizione tra il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali) a 1 (il riquadro di delimitazione previsto e il riquadro di delimitazione dei dati empirici reali hanno le stesse coordinate).

Ad esempio, nell'immagine seguente:

Il riquadro di delimitazione previsto (le coordinate che delimitano il punto in cui il modello prevede il comodino nel dipinto) è evidenziato in viola.
Il riquadro di delimitazione dei dati empirici reali (le coordinate che delimitano il luogo in cui si trova il tavolo da notte nel dipinto) è evidenziato in verde.

In questo caso, l'intersezione dei riquadri di delimitazione per la previsione e i dati empirici reali (in basso a sinistra) è 1 e l'unione dei riquadri di delimitazione per la previsione e i dati di fatto (in basso a destra) è 7, pertanto l'IoU è $\frac{1}{7}$.

Stessa immagine dell'immagine precedente, ma con ogni riquadro di delimitazione diviso in quattro quadranti. Ci sono sette quadranti in totale, poiché il quadrante in basso a destra del riquadro di delimitazione dei dati empirici reali e il quadrante in alto a sinistra del riquadro di delimitazione previsto si sovrappongono tra loro. Questa sezione sovrapposta (evidenziata in verde) rappresenta l'intersezione e ha un'area pari a 1.

IoU

Abbreviazione di intersection over Union.

matrice di elementi

#recsystems

Nei sistemi di suggerimenti, una matrice di vettori di incorporamento generata dalla fattorizzazione matriciale che contiene indicatori latenti su ogni elemento. Ogni riga della matrice degli elementi contiene il valore di una singola caratteristica latente per tutti gli elementi. Ad esempio, considera un sistema di consigli sui film. Ogni colonna nella matrice degli elementi rappresenta un singolo filmato. Gli indicatori latenti potrebbero rappresentare i generi o essere più difficili da interpretare con interazioni complesse tra genere, star, età del cinema o altri fattori.

La matrice dell'elemento ha lo stesso numero di colonne della matrice target che viene fattorizzata. Ad esempio, dato un sistema di consigli sui film che valuta 10.000 titoli di film, la matrice degli elementi avrà 10.000 colonne.

items

#recsystems

In un sistema di suggerimenti, le entità consigliate dal sistema. Ad esempio, i video sono gli articoli consigliati da un negozio di video, mentre i libri sono gli articoli consigliati in una libreria.

iterazione

#fundamentals

Un singolo aggiornamento dei parametri di un modello (ponderazioni e pregiudizi del modello) durante l'addestramento. La dimensione del batch determina il numero di esempi elaborati dal modello in una singola iterazione. Ad esempio, se la dimensione del batch è 20, il modello elabora 20 esempi prima di regolare i parametri.

Durante l'addestramento di una rete neurale, una singola iterazione prevede i due passaggi seguenti:

Un passaggio in avanti per valutare la perdita su un singolo batch.
Un passaggio a ritroso (retropropagazione) per regolare i parametri del modello in base alla perdita e al tasso di apprendimento.

J

JAX

Una libreria di array computing che combina XLA (Accelerated Linear Algebra) e la differenziazione automatica per computing numerico ad alte prestazioni. JAX fornisce un'API semplice e potente per scrivere codice numerico accelerato con trasformazioni componibili. JAX offre funzionalità quali:

grad (differenziazione automatica)
jit (compilazione just-in-time)
vmap (Vectorizzazione o batch automatici)
pmap (parallelizzazione)

JAX è un linguaggio per esprimere e comporre trasformazioni di codice numerico, analogo, ma di ambito molto più ampio, alla libreria NumPy di Python. In effetti, la libreria .numpy in JAX è una versione funzionalmente equivalente, ma completamente riscritta della libreria Python NumPy.

JAX è particolarmente adatta per accelerare molte attività di machine learning trasformando i modelli e i dati in un formato adatto al parallelismo tra i chip dell'acceleratore TPU e TPU.

Flax, Optax, Pax e molte altre librerie sono basate sull'infrastruttura JAX.

K

Keras

Una nota API di machine learning Python. Keras viene eseguito su diversi framework di deep learning, tra cui TensorFlow, in cui viene reso disponibile come tf.keras.

Macchine vettoriali di supporto kernel (KSVM)

Un algoritmo di classificazione che cerca di massimizzare il margine tra le classi positive e negative mappando i vettori di dati di input a uno spazio con dimensionamento più elevato. Considera ad esempio un problema di classificazione in cui il set di dati di input ha un centinaio di caratteristiche. Per massimizzare il margine tra le classi positive e negative, una KSVM potrebbe mappare internamente queste caratteristiche in uno spazio di milioni di dimensioni. Le KSVM utilizzano una funzione di perdita chiamata hinge loss.

punti chiave

#image

Coordinate di elementi particolari in un'immagine. Ad esempio, per un modello di riconoscimento di immagini che distingue le specie di fiori, i punti chiave potrebbero essere il centro di ogni petalo, lo stelo, lo stame e così via.

convalida incrociata k-fold

Un algoritmo per prevedere la capacità di un modello di generalizzare con nuovi dati. k in k-fold si riferisce al numero di gruppi uguali in cui suddividi gli esempi di un set di dati; in altre parole, addestri e test il tuo modello k per k. Per ogni ciclo di addestramento e test, il set di test è definito da un gruppo diverso, mentre tutti i gruppi rimanenti diventano il set di addestramento. Dopo k cicli di addestramento e test, calcoli la media e la deviazione standard delle metriche di test scelte.

Ad esempio, supponiamo che il tuo set di dati sia composto da 120 esempi. Supponiamo inoltre di decidere di impostare k su 4. Pertanto, dopo aver eseguito lo shuffling degli esempi, dividi il set di dati in quattro gruppi uguali di 30 esempi ed esegui quattro cicli di addestramento/test:

Ad esempio, errore quadratico medio (MSE) potrebbe essere la metrica più significativa per un modello di regressione lineare. Pertanto, troveresti la media e la deviazione standard dell'MSE in tutti e quattro i turni.

K-means

#clustering

Un noto algoritmo di clustering che raggruppa gli esempi nell'apprendimento non supervisionato. L'algoritmo K-means svolge fondamentalmente le seguenti operazioni:

Determina in modo iterativo i migliori punti k centrali (noti come centroidi).
Assegna ogni esempio al centroide più vicino. Questi esempi più vicini allo stesso baricentro appartengono allo stesso gruppo.

L'algoritmo k-means seleziona le posizioni del centroide per ridurre al minimo il quadrato cumulativo delle distanze da ogni esempio al baricentro più vicino.

Ad esempio, considera il seguente diagramma di altezza rispetto alla larghezza del cane:

Un grafico cartesiano con diverse decine di punti dati.

Se k=3, l'algoritmo k-means determinerà tre centroidi. Ogni esempio viene assegnato al centroide più vicino, producendo tre gruppi:

Lo stesso grafico cartesiano dell'illustrazione precedente, tranne con l'aggiunta di tre centroidi.
I punti dati precedenti sono raggruppati in tre gruppi distinti e ogni gruppo rappresenta i punti dati più vicini a un determinato centroide.

Immagina che un produttore voglia stabilire le taglie ideali per maglioni di taglia piccola, media e grande per cani. I tre centroidi identificano l'altezza e la larghezza media di ciascun cane nel cluster. Quindi, il produttore dovrebbe probabilmente basare le taglie dei maglioni su questi tre centroidi. Tieni presente che il centroide di un cluster in genere non è un esempio nel cluster.

Le illustrazioni precedenti mostrano k-means per gli esempi con solo due caratteristiche (altezza e larghezza). Tieni presente che K-means può raggruppare esempi in molte caratteristiche.

mediana k

#clustering

Un algoritmo di clustering strettamente correlato a K-means. La differenza pratica tra i due è la seguente:

In K-means, i centroidi sono determinati riducendo al minimo la somma dei quadrati della distanza tra un candidato baricentro e ciascuno dei suoi esempi.
In una mediana k, i baridi sono determinati riducendo al minimo la somma della distanza tra un candidato baricentro e ciascuno dei suoi esempi.

Anche le definizioni di distanza sono diverse:

k-means si basa sulla distanza euclidea dal baricentro per un esempio. In due dimensioni, per distanza euclidea si utilizza il teorema di Pitagora per calcolare l'ipotenusa. Ad esempio, la distanza k-means tra (2,2) e (5,-2) sarebbe:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

La mediana k si basa sulla distanza di Manhattan dal baricentro per un esempio. Questa distanza è la somma dei delta assoluti in ogni dimensione. Ad esempio, la distanza mediana k tra (2,2) e (5,-2) sarebbe:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regolarizzazione L₀

#fundamentals

Un tipo di regolarizzazione che penalizza il numero totale di ponderazioni diverse da zero in un modello. Ad esempio, un modello con 11 pesi diversi da zero verrebbe penalizzato di più di un modello simile con 10 pesi diversi da zero.

La regolarizzazione L₀ viene a volte chiamata regolarizzazione secondo la norma L0.

Fai clic sull'icona per visualizzare altre note.

La regolarizzazione L₀ è generalmente poco pratica nei modelli di grandi dimensioni, perché la regolarizzazione L₀ trasforma l'addestramento in un problema di ottimizzazione convesso.

Perdita L₁

#fundamentals

Una funzione di perdita che calcola il valore assoluto della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₁ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Valore assoluto del delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ perdita

La perdita L₁ è meno sensibile agli outlier della perdita di L₂.

L'errore medio assoluto è la perdita media L₁ per esempio.

Fai clic sull'icona per visualizzare il calcolo formale.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₁

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma del valore assoluto delle ponderazioni. La regolarizzazione L₁ aiuta a portare i pesi delle caratteristiche non pertinenti o appena pertinenti a esattamente 0. Una caratteristica con ponderazione pari a 0 viene effettivamente rimossa dal modello.

Confrontare con la regolarizzazione L₂.

Perdita L₂

#fundamentals

Una funzione di perdita che calcola il quadrato della differenza tra i valori effettivi di etichetta e i valori previsti da un modello. Ad esempio, ecco il calcolo della perdita L₂ per un batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Quadrato del delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perdita L₂

A causa del quadrato, la perdita L₂ amplifica l'influenza degli outlier. Vale a dire che la perdita L₂ reagisce più fortemente a previsioni errate rispetto alla perdita di L₁. Ad esempio, la perdita L₁ per il batch precedente sarebbe 8 anziché 16. Come puoi notare, un singolo outlier rappresenta 9 dei 16.

I modelli di regressione in genere usano la perdita L₂ come funzione di perdita.

L'errore quadratico medio indica la perdita media L₂ per esempio. Perdita al quadrato è un altro nome per la perdita L₂.

Fai clic sull'icona per visualizzare il calcolo formale.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

dove:

$n$ è il numero di esempi.
y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Regolarizzazione L₂

#fundamentals

Un tipo di regolarizzazione che penalizza le ponderazioni in proporzione alla somma dei quadrati delle ponderazioni. La regolarizzazione L₂ aiuta a ottenere i pesi outlier (quelli con valori positivi o bassi bassi elevati) più vicini a 0 ma non proprio a 0. Le caratteristiche con valori molto vicini a 0 rimangono nel modello, ma non influiscono molto sulla previsione del modello.

La regolarizzazione L₂ migliora sempre la generalizzazione nei modelli lineari.

Confrontare con la regolarizzazione L₁.

o l'etichetta.

#fundamentals

Nel machine learning supervisionato, la parte "risposta" o "risultato" di un esempio.

Ogni esempio con etichetta è costituito da una o più caratteristiche e un'etichetta. Ad esempio, in un set di dati di rilevamento di spam, l'etichetta sarà probabilmente "spam" o "non spam". In un set di dati sulle precipitazioni, l'etichetta potrebbe essere la quantità di pioggia caduta in un determinato periodo.

esempio etichettato

#fundamentals

Un esempio contenente una o più caratteristiche e un'etichetta. Ad esempio, la tabella seguente mostra tre esempi etichettati di un modello di valutazione di una casa, ciascuno con tre caratteristiche e un'etichetta:

Numero di camere	Numero di bagni	Età della casa	Prezzo casa (etichetta)
3	2	15	345.000 $
2	1	72	179.000 $
4	2	34	392.000 $

Nel machine learning supervisionato, i modelli vengono addestrati sulla base di esempi etichettati e fanno previsioni su esempi non etichettati.

Confronta l'esempio etichettato con gli esempi senza etichetta.

fuga di etichette

Un difetto di progettazione del modello in cui una caratteristica è un proxy per l'etichetta. Ad esempio, prendi in considerazione un modello di classificazione binaria che prevede se un potenziale cliente acquisterà o meno un determinato prodotto. Supponiamo che una delle caratteristiche del modello sia un valore booleano denominato SpokeToCustomerAgent. Inoltre, supponiamo che un agente del cliente venga assegnato solo dopo che il potenziale cliente ha effettivamente acquistato il prodotto. Durante l'addestramento, il modello apprenderà rapidamente l'associazione tra SpokeToCustomerAgent e l'etichetta.

Lambda

#fundamentals

Sinonimo di tasso di regolarizzazione.

Lambda è un termine sovraccarico. Ci stiamo concentrando sulla definizione del termine all'interno della regolarizzazione.

LaMDA (Language Model for Dialogue Applications)

#language

Un modello linguistico di grandi dimensioni basato su Transformer sviluppato da Google e addestrato su un ampio set di dati di dialogo in grado di generare risposte conversazionali realistiche.

LaMDA: la nostra innovativa tecnologia di conversazione offre una panoramica.

punti di riferimento

#image

Sinonimo di keypoint.

modello linguistico

#language

Un model che stima la probabilità che un model o una sequenza di token si verifichino in una sequenza di token più lunga.

Fai clic sull'icona per visualizzare altre note.

Sebbene controintuitivo, molti modelli che valutano il testo non sono modelli linguistici. Ad esempio, i modelli di classificazione del testo e i modelli di analisi del sentiment non sono modelli linguistici.

modello linguistico di grandi dimensioni

#language

Termine informale senza definizione rigorosa che di solito indica un modello linguistico con un elevato numero di parametri. Alcuni LLM contengono oltre 100 miliardi di parametri.

Fai clic sull'icona per visualizzare altre note.

Forse ti starai chiedendo quando un modello linguistico diventa abbastanza grande da essere definito un modello linguistico di grandi dimensioni (LLM). Attualmente, non esiste una linea di definizione concordata per il numero di parametri.

La maggior parte degli attuali modelli linguistici di grandi dimensioni (ad esempio, GPT) si basa sull'architettura Transformer.

spazio latente

#language

Sinonimo di spazio di incorporamento.

strato

#fundamentals

Un insieme di neuroni in una rete neurale. Ecco tre tipi comuni di strati:

Il livello di input, che fornisce i valori per tutte le caratteristiche.
Uno o più strati nascosti, che individuano relazioni non lineari tra le caratteristiche e l'etichetta.
Il livello di output, che fornisce la previsione.

L'illustrazione seguente mostra una rete neurale con uno strato di input, due strati nascosti e uno di output:

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Il livello di input è costituito da due caratteristiche. Il primo strato nascosto è costituito da tre neuroni e il secondo è composto da due neuroni. Il livello di output è costituito da un singolo nodo.

In TensorFlow, anche i livelli sono funzioni Python che prendono Tensor e opzioni di configurazione come input e producono altri tensori come output.

API Livelli (tf.layers)

#TensorFlow

Un'API TensorFlow per creare una rete neurale profonda come composizione di strati. L'API Livelli consente di creare diversi tipi di livelli, tra cui:

tf.layers.Dense per un livello completamente connesso.
tf.layers.Conv2D per un livello convoluzionale.

L'API Livelli segue le convenzioni dell'API per i livelli Keras. In altre parole, a parte un prefisso diverso, tutte le funzioni dell'API Livelli hanno gli stessi nomi e firme delle loro controparti nell'API Keras Layers.

foglia

#df

Qualsiasi endpoint in un albero decisionale. A differenza di una condizione, una foglia non esegue un test. Piuttosto, una foglia è una possibile previsione. Una foglia è anche il nodo terminale di un percorso di inferenza.

Ad esempio, il seguente albero decisionale contiene tre foglie:

Un albero decisionale con due condizioni che portano a tre foglie.

Learning Interpretability Tool (LIT)

Uno strumento visivo e interattivo per la comprensione dei modelli e la visualizzazione dei dati.

Puoi utilizzare LIT open source per interpretare i modelli o per visualizzare testo, immagini e dati tabulari.

tasso di apprendimento

#fundamentals

Un numero in virgola mobile che indica all'algoritmo di discesa del gradiente la forza di regolazione di ponderazioni e bias in ogni iterazione. Ad esempio, un tasso di apprendimento pari a 0,3 regola le ponderazioni e i bias in modo tre volte più potente rispetto a un tasso di apprendimento di 0,1.

Il tasso di apprendimento è un iperparametro fondamentale. Se imposti un tasso di apprendimento troppo basso, l'addestramento richiederà troppo tempo. Se imposti un tasso di apprendimento troppo alto, la discesa del gradiente spesso non riesce a raggiungere la convergenza.

Fai clic sull'icona per una spiegazione più matematica.

Durante ogni iterazione, l'algoritmo della discesa del gradiente moltiplica il tasso di apprendimento per il gradiente. Il prodotto risultante viene chiamato passaggio del gradiente.

regressione dei minimi quadrati

Un modello di regressione lineare addestrato riducendo al minimo la perdita L₂.

lineare

#fundamentals

Una relazione tra due o più variabili che possono essere rappresentate esclusivamente tramite addizione e moltiplicazione.

Il diagramma di una relazione lineare è una linea.

Contrasta con non lineare.

modello lineare

#fundamentals

Un model che assegna un model per model per effettuare model. I modelli lineari incorporano anche un bias. Al contrario, la relazione tra le caratteristiche e le previsioni nei modelli profondi è generalmente non lineare.

I modelli lineari sono in genere più semplici da addestrare e più interpretabili rispetto ai modelli Deep. Tuttavia, i modelli profondi possono apprendere relazioni complesse tra le caratteristiche.

La regressione lineare e la regressione logistica sono due tipi di modelli lineari.

Fai clic sull'icona per visualizzare il calcolo.

Un modello lineare segue questa formula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

dove:

"y" è la previsione non elaborata. In alcuni tipi di modelli lineari, questa previsione non elaborata verrà ulteriormente modificata. Ad esempio, consulta la sezione sulla regressione logistica.
b è il bias.
w è una peso, quindi w₁ è il peso della prima caratteristica, w₂ è il peso della seconda caratteristica e così via.
x è una caratteristica, quindi x₁ è il valore della prima caratteristica, x₂ è il valore della seconda caratteristica e così via.

Ad esempio, supponiamo che un modello lineare per tre caratteristiche apprenda i seguenti pregiudizi e ponderazioni:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Pertanto, date tre caratteristiche (x₁, x₂ e x₃), il modello lineare utilizza la seguente equazione per generare ciascuna previsione:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Supponiamo che un determinato esempio contenga i seguenti valori:

x₁ = 4
x₂ = -10
x₃ = 5

Se colleghi questi valori alla formula, ottieni una previsione per questo esempio:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

I modelli lineari includono non solo modelli che utilizzano solo un'equazione lineare per fare previsioni, ma anche un insieme più ampio di modelli che utilizzano un'equazione lineare come solo componente della formula che effettua le previsioni. Ad esempio, la regressione logistica post-elabora la previsione non elaborata (y') per produrre un valore di previsione finale compreso tra 0 e 1 in modo esclusivo.

regressione lineare

#fundamentals

Un tipo di modello di machine learning in cui si verificano entrambe le seguenti condizioni:

Il modello è un modello lineare.
La previsione è un valore in virgola mobile. Questa è la parte relativa alla regressione della regressione lineare.

Confrontare la regressione lineare con la regressione logistica. Inoltre, metti a confronto la regressione con la classificazione.

LIT

Abbreviazione di Learning Interpretability Tool (LIT), precedentemente noto come strumento di interpretabilità linguistica.

LLM

#language

Abbreviazione di Large Language Model.

regressione logistica

#fundamentals

Un tipo di modello di regressione che prevede una probabilità. I modelli di regressione logistica hanno le seguenti caratteristiche:

L'etichetta è categorica. Il termine regressione logistica in genere si riferisce alla regressione logistica binaria, ovvero a un modello che calcola le probabilità per le etichette con due valori possibili. Una variante meno comune, la regressione logistica multinomiale, calcola le probabilità per le etichette con più di due valori possibili.
La funzione di perdita durante l'addestramento è perdita logaritmica. (È possibile posizionare più unità di perdita di log in parallelo per le etichette con più di due valori possibili).
Il modello ha un'architettura lineare, non una rete neurale profonda. Tuttavia, il resto di questa definizione si applica anche ai modelli diretti che prevedono le probabilità per le etichette categoriche.

Ad esempio, consideriamo un modello di regressione logistica che calcola la probabilità che un'email di input sia spam o non spam. Durante l'inferenza, supponiamo che il modello preveda 0,72. Di conseguenza, il modello stima:

72% di probabilità che l'email sia spam.
28% di probabilità che l'email non sia spam.

Un modello di regressione logistica utilizza la seguente architettura in due fasi:

Il modello genera una previsione non elaborata (y') applicando una funzione lineare delle caratteristiche di input.
Il modello utilizza la previsione non elaborata come input di una funzione sigmoidea, che converte la previsione non elaborata in un valore compreso tra 0 e 1, esclusi.

Come ogni modello di regressione, anche quello logistica prevede un numero. Tuttavia, questo numero in genere diventa parte di un modello di classificazione binaria come segue:

Se il numero previsto è superiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe positiva.
Se il numero previsto è inferiore alla soglia di classificazione, il modello di classificazione binaria prevede la classe negativa.

logit

Il vettore di previsioni non elaborate (non normalizzate) generate da un modello di classificazione, che viene abitualmente passata a una funzione di normalizzazione. Se il modello risolve un problema di classificazione multiclasse, i logit in genere diventano un input della funzione softmax. La funzione softmax genera quindi un vettore di probabilità (normalizzate) con un valore per ogni classe possibile.

Log Loss

#fundamentals

La funzione di perdita utilizzata nella regressione logistica binaria.

Fai clic sull'icona per visualizzare il calcolo.

La seguente formula calcola la perdita logaritmica:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

dove:

$(x,y)\in D$ è il set di dati contenente molti esempi etichettati, che sono $(x,y)$ coppie.
$y$ è l'etichetta in un esempio etichettato. Poiché si tratta di una regressione logistica, ogni valore di $y$ deve essere 0 o 1.
$y'$ è il valore previsto (compreso tra 0 e 1, esclusi), dato l'insieme di caratteristiche in $x$.

log-odd

#fundamentals

Il logaritmo delle probabilità di un evento.

Fai clic sull'icona per visualizzare il calcolo.

Se l'evento è una probabilità binaria, odds si riferisce al rapporto tra la probabilità di successo (p) e la probabilità di errore (1-p). Ad esempio, supponiamo che un determinato evento abbia una probabilità di successo del 90% e una probabilità di errore del 10%. In questo caso, le quote vengono calcolate come segue:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

I log-odd sono semplicemente il logaritmo delle probabilità. Per convenzione, "logaritmo" si riferisce al logaritmo naturale, ma in realtà il logaritmo potrebbe essere qualsiasi base maggiore di 1. Rispettando le convenzioni, i log-odd dell'esempio sono quindi:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

La funzione log-odds è l'inversa della funzione sigmoidea.

LSTM (Long Short-Term Memory).

#seq

Un tipo di cella in una rete neurale ricorrente utilizzata per elaborare sequenze di dati in applicazioni quali riconoscimento della scrittura a mano libera, traduzione automatica e didascalie delle immagini. Gli LSTM risolvono il problema del gradiente scomparso che si verifica durante l'addestramento degli RNN a causa di lunghe sequenze di dati mantenendo la cronologia in uno stato di memoria interna in base al nuovo input e al contesto delle celle precedenti nell'RNN.

LoRA

#language

#IAgenerativa

Abbreviazione di Low-Rank Adapter.

perdita

#fundamentals

Durante l'addestramento di un modello supervisionato, una misura della distanza della previsione di un modello rispetto all'etichetta.

Una funzione di perdita calcola la perdita.

aggregatore perdita

Tipo di algoritmo di machine learning che migliora le prestazioni di un modello combinando le previsioni di più modelli e utilizzando queste previsioni per fare un'unica previsione. Di conseguenza, un aggregatore di perdite può ridurre la varianza delle previsioni e migliorare l'accuratezza delle previsioni.

curva di perdita

#fundamentals

Un grafico della perdita in funzione del numero di iterazioni di addestramento. Il seguente grafico mostra una tipica curva di perdita:

Un grafico cartesiano della perdita rispetto alle iterazioni di addestramento, che mostra un rapido calo della perdita per le iterazioni iniziali, seguito da un calo graduale e da una pendenza piatta durante le iterazioni finali.

Le curve di perdita possono aiutarti a determinare quando il modello è convergente o overfitting.

Le curve di perdita possono tracciare tutti i seguenti tipi di perdita:

Vedi anche la curva di generalizzazione.

funzione di perdita

#fundamentals

Durante l'addestramento o il test, una funzione matematica che calcola la perdita su un batch di esempi. Una funzione di perdita restituisce una perdita più bassa per i modelli che generano buone previsioni rispetto a quelli che fanno previsioni errate.

L'obiettivo dell'addestramento è in genere quello di minimizzare la perdita restituita da una funzione di perdita.

Esistono molti tipi diversi di funzioni di perdita. Scegli la funzione di perdita appropriata per il tipo di modello che stai creando. Ad esempio:

La perdita L₂ (o errore quadratico medio) è la funzione di perdita per la regressione lineare.
Perdita logaritmica è la funzione di perdita per la regressione logistica.

superficie di perdita

Un grafico del confronto tra ponderazioni e perdita. La discesa del gradiente punta a trovare i pesi per i quali la superficie di perdita è al minimo locale.

Adattabilità Low-Rank (LoRA)

#language

#IAgenerativa

Un algoritmo per l'ottimizzazione efficiente dei parametri che perfeziona solo un sottoinsieme dei parametri di un modello linguistico di grandi dimensioni. LoRA offre i seguenti vantaggi:

Perfeziona più rapidamente rispetto alle tecniche che richiedono l'ottimizzazione di tutti i parametri di un modello.
Riduce il costo di calcolo dell'inferenza nel modello ottimizzato.

Un modello ottimizzato con LoRA mantiene o migliora la qualità delle sue previsioni.

LoRA consente più versioni specializzate di un modello.

LSTM

#seq

Abbreviazione di Long Short-Term Memory.

L

machine learning

#fundamentals

Un programma o sistema che addestra un modello a partire dai dati di input. Il modello addestrato può fare previsioni utili da nuovi dati (mai visti in precedenza) ricavati dalla stessa distribuzione di quello utilizzato per addestrare il modello.

Il machine learning si riferisce anche all'area di studio relativa a questi programmi o sistemi.

classe di maggioranza

#fundamentals

L'etichetta più comune in un set di dati class-non bilanciato. Ad esempio, in un set di dati contenente il 99% di etichette negative e l'1% di etichette positive, le etichette negative sono la classe di maggioranza.

Contrasta con classe di minoranza.

Processo decisionale di Markov (MDP)

#rl

Un grafico che rappresenta il modello decisionale in cui vengono prese decisioni (o azioni) per navigare in una sequenza di stati ipotizzando la proprietà Markov. Nell'apprendimento per rinforzo, queste transizioni tra gli stati restituiscono un premio numerico.

Proprietà di Markov

#rl

Una proprietà di determinati ambienti, in cui le transizioni di stato sono determinate interamente da informazioni implicite nello stato corrente e nell'azione dell'agente.

modello linguistico mascherato

#language

Un modello linguistico che prevede la probabilità che i token dei candidati riempiano gli spazi vuoti in una sequenza. Ad esempio, un modello linguistico mascherato può calcolare le probabilità che le parole candidati sostituiscano la sottolineatura nella seguente frase:

Il ____ con il cappello è tornato.

In genere in letteratura viene utilizzata la stringa "MASK" anziché una sottolineatura. Ad esempio:

La "MASCHERA" nel cappello è tornata.

La maggior parte dei moderni modelli linguistici con mascheramento è bidirezionale.

matplotlib

Una libreria di tracciamento 2D Python open source. matplotlib ti aiuta a visualizzare diversi aspetti del machine learning.

fattorizzazione matriciale

#recsystems

In matematica, un meccanismo per trovare le matrici il cui prodotto scalare approssima una matrice target.

Nei sistemi di suggerimenti, la matrice target spesso contiene le valutazioni degli utenti sugli elementi. Ad esempio, la matrice target per un sistema di consigli sui film potrebbe essere simile alla seguente, dove i numeri interi positivi sono valutazioni degli utenti e 0 significa che l'utente non ha valutato il film:

	Casablanca	La storia di Filadelfia	Black Panther	Wonder Woman	Pulp novel
Utente 1	5,0	3,0	0,0	2.0	0,0
Utente 2	4.0	0,0	0,0	1,0	5,0
Utente 3	3,0	1,0	4.0	5,0	0,0

Il sistema di consigli sui film ha lo scopo di prevedere le valutazioni degli utenti per i film senza classificazione. Ad esempio, all'utente 1 piacerà Black Panther?

Un approccio per i sistemi di suggerimenti è utilizzare la fattorizzazione matriciale per generare le seguenti due matrici:

Una matrice utente, formulata come il numero di utenti X il numero di dimensioni di incorporamento.
Una matrice di elementi, con la forma del numero di dimensioni di incorporamento X il numero di elementi.

Ad esempio, l'utilizzo della fattorizzazione matriciale per i tre utenti e i cinque elementi potrebbe restituire le seguenti matrici di utenti e elementi:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Il prodotto scalare della matrice dell'utente e della matrice degli elementi restituisce una matrice di suggerimenti che contiene non solo le valutazioni originali degli utenti, ma anche le previsioni per i film che ogni utente non ha visto. Ad esempio, considera la valutazione dell'utente 1 su Casablanca, che era 5,0. Il prodotto scalare corrispondente a quella cella nella matrice dei suggerimenti dovrebbe essere all'incirca 5,0, e questo è:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Ma soprattutto, l'utente 1 apprezzerà Black Panther? Prendendo il prodotto scalare corrispondente alla prima riga e alla terza colonna si ottiene una valutazione prevista pari a 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

La fattorizzazione matriciale in genere produce una matrice utente e una matrice elemento che, insieme, sono significativamente più compatte rispetto alla matrice target.

Errore medio assoluto (MAE)

La perdita media per esempio quando si utilizza la perdita L₁. Calcola l'errore medio assoluto come segue:

Calcolare la perdita L₁ di un batch.
Dividi la perdita L₁ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare il calcolo formale.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

dove:

$n$ è il numero di esempi.
y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è il valore previsto dal modello per $y$.

Ad esempio, considera il calcolo della perdita L₁ sul seguente batch di cinque esempi:

Valore effettivo dell'esempio	Valore previsto del modello	Perdita (differenza tra effettiva e prevista)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = L₁ perdita

Quindi, la perdita L₁ è 8 e il numero di esempi è 5. Di conseguenza, l'errore medio assoluto è:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Contrasta l'errore medio assoluto con errore quadratico medio e errore quadratico medio.

errore quadratico medio (MSE)

La perdita media per esempio quando si utilizza la perdita L₂. Calcola lo scarto quadratico medio come segue:

Calcolare la perdita L₂ di un batch.
Dividi la perdita L₂ per il numero di esempi nel batch.

Fai clic sull'icona per visualizzare il calcolo formale.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ dove:

$n$ è il numero di esempi.
y$ è il valore effettivo dell'etichetta.
$\hat{y}$ è la previsione del modello per $y$.

Considera ad esempio la perdita nel seguente batch di cinque esempi:

Valore effettivo	Previsione del modello	Perdita	Perdita quadratica
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = perdita L₂

Pertanto, lo scarto quadratico medio è:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Lo scarto quadratico medio è un ottimizzatore di addestramento molto diffuso, in particolare per la regressione lineare.

Contrasta lo scarto quadratico medio con Errore medio assoluto ed Errore quadratico medio.

TensorFlow Playground utilizza lo scarto quadratico medio per calcolare i valori della perdita.

Fai clic sull'icona per visualizzare ulteriori dettagli sugli outlier.

I valori anomali influiscono notevolmente sullo scarto quadratico medio (errore quadratico medio). Ad esempio, una perdita di 1 equivale a una perdita al quadrato di 1, mentre una perdita di 3 è una perdita al quadrato di 9. Nella tabella precedente, l'esempio con una perdita di 3 rappresenta circa il 56% dello scarto quadratico medio, mentre ciascun esempio con una perdita di 1 rappresenta solo il 6% dello scarto quadratico medio.

I valori anomali non influiscono sull'errore medio assoluto come lo scarto quadratico medio. Ad esempio, una perdita di 3 rappresenta solo circa il 38% dell'errore medio assoluto.

Il taglio è un modo per evitare che outlier estremi danneggino la capacità predittiva del modello.

mesh

#TensorFlow

#GoogleCloud

Nella programmazione parallela ML, un termine associato all'assegnazione dei dati e del modello ai chip TPU e alla definizione di come questi valori verranno sottoposti a sharding o replicati.

Mesh è un termine sovraccarico, che può indicare uno dei seguenti termini:

Un layout fisico di chip TPU.
Un costrutto logico astratto per mappare i dati e il modello sui chip TPU.

In entrambi i casi, una mesh viene specificata come forma.

meta-learning

#language

Un sottoinsieme del machine learning che rileva o migliora un algoritmo di apprendimento. Un sistema di meta-learning può anche puntare ad addestrare un modello per apprendere rapidamente una nuova attività da una piccola quantità di dati o dall'esperienza acquisita nelle attività precedenti. Gli algoritmi di meta-learning generalmente tentano di ottenere i seguenti risultati:

Migliora o impara le funzionalità progettate manualmente (come un inizializzatore o un ottimizzatore).
Aumenta l'efficienza nei dati e nel calcolo.
Migliorare la generalizzazione.

Il meta-learning è correlato all'apprendimento few-shot.

metrica

#TensorFlow

Una statistica che ti interessa.

Un scopo è una metrica che un sistema di machine learning prova a ottimizzare.

API Metrics (tf.metrics)

Un'API TensorFlow per la valutazione dei modelli. Ad esempio, tf.metrics.accuracy determina la frequenza con cui le previsioni di un modello corrispondono alle etichette.

mini-batch

#fundamentals

Piccolo sottoinsieme selezionato in modo casuale di un batch elaborato in un'iterazione. La dimensione del batch di un mini-batch è in genere tra 10 e 1000 esempi.

Supponi, ad esempio,che l'intero set di addestramento (il batch completo) sia composto da 1000 esempi. Inoltre, supponi di impostare la dimensione del batch di ogni mini-batch su 20. Pertanto, ogni iterazione determina la perdita su 20 casuali dei 1000 esempi,quindi regola le ponderazioni e si pregiudica di conseguenza.

È molto più efficiente calcolare la perdita su un mini-batch rispetto a quella su tutti gli esempi nel batch completo.

discesa stocastica del gradiente in mini-batch

Un algoritmo di discesa del gradiente che utilizza mini-batch. In altre parole, la discesa stocastica del gradiente in mini-batch stima il gradiente in base a un piccolo sottoinsieme di dati di addestramento. La discesa stocastica del gradiente regolare utilizza un mini-batch di dimensione 1.

perdita minimax

Una funzione di perdita per le reti generative avversarie, basata sull'entropia incrociata tra la distribuzione dei dati generati e dei dati reali.

La perdita minima è utilizzata nel primo documento per descrivere le reti generative.

classe di minoranze

#fundamentals

L'etichetta meno comune in un set di dati class-non bilanciato. Ad esempio, in un set di dati che contiene il 99% di etichette negative e l'1% di etichette positive, le etichette positive rappresentano la classe di minoranza.

Contrasta la classe di maggioranza.

Fai clic sull'icona per visualizzare altre note.

Un set di addestramento con un milione di esempi sembra impressionante. Tuttavia, se la classe delle minoranze è scarsamente rappresentata, anche un set di formazione molto ampio potrebbe non essere sufficiente. Concentrati meno sul numero totale di esempi nel set di dati e di più sul numero di esempi nella classe di minoranza.

Se il set di dati non contiene un numero sufficiente di esempi di classi di minoranza, valuta la possibilità di utilizzare il downsampling (la definizione nel secondo punto) per integrare la classe di minoranza.

ML

Abbreviazione di machine learning.

MNIST

#image

Un set di dati di dominio pubblico compilato da LeCun, Cortes e Burges contenente 60.000 immagini, ciascuna delle quali mostra come un essere umano ha scritto manualmente una determinata cifra da 0 a 9. Ogni immagine viene archiviata come un array di numeri interi 28x28, dove ogni numero intero è un valore in scala di grigi compreso tra 0 e 255 inclusi.

MNIST è un set di dati canonico per il machine learning, spesso utilizzato per testare nuovi approcci al machine learning. Per maggiori dettagli, consulta Database MNIST di cifre scritte a mano libera.

modalità

#language

Una categoria di dati di alto livello. Ad esempio, numeri, testo, immagini, video e audio sono cinque modalità diverse.

model

#fundamentals

In generale, qualsiasi costrutto matematico che elabora i dati di input e restituisce l'output. Con una frase diversa, un modello è l'insieme di parametri e struttura necessari a un sistema per fare previsioni. Nel machine learning supervisionato, un modello prende un esempio come input e deduce una previsione come output. Nel machine learning supervisionato, i modelli sono leggermente diversi. Ad esempio:

Un modello di regressione lineare è costituito da un insieme di ponderazioni e da un bias.
Un modello di rete neurale è costituito da:
- Un insieme di strati nascosti, ciascuno contenente uno o più neuroni.
- Le ponderazioni e i bias associati a ciascun neurone.
Un modello albero decisionale è costituito da:
- La forma dell'albero, ovvero il modello in cui le condizioni e le foglie sono collegate.
- Le condizioni e se ne va.

Puoi salvare, ripristinare o creare copie di un modello.

Anche il machine learning non supervisionato genera modelli, in genere una funzione in grado di mappare un esempio di input al cluster più appropriato.

Fai clic sull'icona per confrontare le funzioni algebriche e di programmazione con i modelli ML.

Una funzione algebrica come la seguente è un modello:

  f(x, y) = 3x -5xy + y² + 17

La funzione precedente mappa i valori di input (x e y) all'output.

Analogamente, anche una funzione di programmazione come la seguente è un modello:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Un chiamante passa argomenti alla funzione Python precedente e la funzione Python genera l'output (tramite l'istruzione return).

Sebbene una rete neurale profonda abbia una struttura matematica molto diversa rispetto a una funzione algebrica o di programmazione, una rete neurale profonda accetta comunque l'input (un esempio) e restituisce l'output (una previsione).

Un programmatore umano codifica manualmente una funzione di programmazione. Al contrario, un modello di machine learning apprende gradualmente i parametri ottimali durante l'addestramento automatico.

capacità del modello

La complessità dei problemi che un modello può apprendere. Più complessi sono i problemi che un modello può apprendere, maggiore è la capacità del modello. La capacità di un modello solitamente aumenta con il numero di parametri del modello. Per una definizione formale della capacità del classificatore, consulta Dimensione VC.

a cascata dei modelli

#IAgenerativa

Un sistema che sceglie il model ideale per una query di inferenza specifica.

Immagina un gruppo di modelli, che vanno da molto grandi (molti parametri) a molto più piccoli (molti meno parametri). I modelli molto grandi consumano più risorse di calcolo durante il periodo di inferenza rispetto ai modelli più piccoli. Tuttavia, i modelli molto grandi possono in genere dedurre richieste più complesse rispetto ai modelli più piccoli. L'uso a cascata del modello determina la complessità della query di inferenza, quindi sceglie il modello appropriato per eseguire l'inferenza. Il motivo principale per il calcolo a cascata è la riduzione dei costi di inferenza mediante la selezione di modelli più piccoli e la selezione di un modello più grande solo per query più complesse.

Immagina che un modello di piccole dimensioni venga eseguito su un telefono e una versione più grande di quel modello venga eseguita su un server remoto. La gestione a cascata di un buon modello riduce i costi e la latenza consentendo al modello più piccolo di gestire le richieste semplici e chiamando il modello remoto solo per gestire le richieste complesse.

Vedi anche router modello.

parallelismo del modello

#language

Un modo di scalare l'addestramento o l'inferenza che pone parti diverse di un model su model differenti. Il parallelismo dei modelli consente modelli troppo grandi per essere inseriti in un singolo dispositivo.

Per implementare il parallelismo del modello, un sistema in genere svolge le seguenti operazioni:

Shard (divide) il modello in parti più piccole.
Distribuisce l'addestramento delle parti più piccole su più processori. Ogni processore addestra la propria parte del modello.
Combina i risultati per creare un singolo modello.

Il parallelismo del modello rallenta l'addestramento.

Vedi anche parallelismo dei dati.

modello router

#IAgenerativa

L'algoritmo che determina il model ideale per l'model nella model. Un router modello è a sua volta un modello di machine learning che impara gradualmente a scegliere il modello migliore per un determinato input. Tuttavia, un router modello a volte potrebbe essere un algoritmo non ML più semplice.

addestramento del modello

Il processo di determinazione del model migliore.

Momentum

Un sofisticato algoritmo di discesa del gradiente in cui un passaggio di apprendimento dipende non solo dalla derivata nel passaggio attuale, ma anche dalle derivate dei passaggi che lo hanno immediatamente preceduto. La quantità di moto comporta il calcolo di una media mobile ponderata in modo esponenziale dei gradienti nel tempo, in modo analogo all'impulso in fisica. A volte la quantità di moto impedisce all'apprendimento di bloccarsi nei minimi locali.

classificazione multiclasse

#fundamentals

Nell'apprendimento supervisionato, un problema di classificazione in cui il set di dati contiene più di due classi di etichette. Ad esempio, le etichette nel set di dati Iris devono essere una delle seguenti tre classi:

Iris setosa
Iris virginica
Iris versicolor

Un modello addestrato sul set di dati Iris che prevede il tipo Iris su nuovi esempi sta eseguendo la classificazione multiclasse.

Al contrario, i problemi di classificazione che distinguono esattamente due classi sono modelli di classificazione binaria. Ad esempio, un modello email che prevede spam o non spam è un modello di classificazione binaria.

Nei problemi di clustering, per classificazione multiclasse si intende più di due cluster.

regressione logistica multiclasse

Utilizzare la regressione logistica nei problemi di classificazione multiclasse.

auto-attenzione multi-testa

#language

Un'estensione dell'auto-attenzione che applica il meccanismo di auto-attenzione più volte per ogni posizione nella sequenza di input.

I Transformer hanno introdotto l'auto-attenzione multi-head.

modello multimodale

#language

Un modello i cui input e/o output includono più di una modalità. Ad esempio, considera un modello che prende sia un'immagine che una didascalia di testo (due modalità) come caratteristiche e restituisce un punteggio che indica quanto è appropriata la didascalia di testo per l'immagine. Pertanto, gli input di questo modello sono multimodali e l'output è unimodale.

classificazione multinomiale

Sinonimo di classificazione multi-classe.

regressione multinomiale

Sinonimo di regressione logistica multiclasse.

multitasking

Una tecnica di machine learning in cui un singolo model viene addestrato per eseguire più model.

I modelli multitasking vengono creati mediante l'addestramento su dati appropriati per ciascuna delle diverse attività. Ciò consente al modello di imparare a condividere informazioni tra le attività, aiutandolo ad apprendere in modo più efficace.

Un modello addestrato per più attività spesso ha migliorato le capacità di generalizzazione e può essere più efficace nella gestione di diversi tipi di dati.

N

Trappola NaN

Quando un numero nel modello diventa NaN durante l'addestramento, facendo sì che molti o tutti gli altri numeri del modello diventano NaN.

NaN è l'abbreviazione di Not a numero.

comprensione del linguaggio naturale

#language

Stabilire le intenzioni di un utente in base a ciò che ha digitato o detto. Ad esempio, un motore di ricerca utilizza la comprensione del linguaggio naturale per determinare ciò che l'utente sta cercando in base a ciò che ha digitato o detto.

classe esclusa

#fundamentals

Nella classificazione binaria, una classe viene definita positiva e l'altra negativa. La classe positiva è la cosa o l'evento per cui il modello sta eseguendo il test, mentre la classe negativa è l'altra possibilità. Ad esempio:

La classe negativa in un test medico potrebbe essere "non tumore".
La classe esclusa in un classificatore email potrebbe essere "non spam".

Contrasta con classe positiva.

campionamento negativo

Sinonimo di campionamento dei candidati.

Neural Architecture Search (NAS)

Una tecnica per progettare automaticamente l'architettura di una rete neurale. Gli algoritmi NAS possono ridurre la quantità di tempo e risorse necessarie per addestrare una rete neurale.

Il NAS in genere utilizza:

Uno spazio di ricerca, ovvero un insieme di architetture possibili.
Una funzione di fitness, ovvero una misura delle prestazioni di una determinata architettura su una determinata attività.

Gli algoritmi NAS spesso iniziano con un piccolo insieme di possibili architetture ed espandono gradualmente lo spazio di ricerca man mano che l'algoritmo apprende di più su quali architetture sono efficaci. La funzione di fitness si basa in genere sulle prestazioni dell'architettura su un set di addestramento e l'algoritmo viene generalmente addestrato utilizzando una tecnica di apprendimento per rinforzo.

Gli algoritmi NAS si sono dimostrati efficaci nel trovare architetture ad alte prestazioni per una serie di attività, tra cui la classificazione delle immagini, la classificazione del testo e la traduzione automatica.

feed-forward

#fundamentals

Un model contenente almeno uno model. Una rete neurale profonda è un tipo di rete neurale contenente più di uno strato nascosto. Ad esempio, il seguente diagramma mostra una rete neurale profonda contenente due strati nascosti.

Una rete neurale con uno strato di input, due strati nascosti e uno di output.

Ogni neurone di una rete neurale si connette a tutti i nodi dello strato successivo. Ad esempio, nel diagramma precedente, nota che ciascuno dei tre neuroni nel primo strato nascosto si connette separatamente a entrambi i due neuroni nel secondo strato nascosto.

Le reti neurali implementate sui computer sono a volte chiamate reti neurali artificiali per differenziarle dalle reti neurali presenti nel cervello e in altri sistemi nervosi.

Alcune reti neurali possono imitare relazioni non lineari estremamente complesse tra le diverse caratteristiche e l'etichetta.

Vedi anche rete neurale convoluzionale e rete neurale ricorrente.

neurone

#fundamentals

Nel machine learning, un'unità distinta all'interno di uno strato nascosto di una rete neurale. Ogni neurone esegue la seguente azione in due fasi:

Calcola la somma ponderata dei valori di input moltiplicata per le ponderazioni corrispondenti.
Passa la somma ponderata come input a una funzione di attivazione.

Un neurone nel primo strato nascosto accetta input dai valori delle caratteristiche nel livello di input. Un neurone in qualsiasi strato nascosto oltre il primo accetta input dai neuroni dello strato nascosto precedente. Ad esempio, un neurone nel secondo strato nascosto accetta input dai neuroni del primo strato nascosto.

L'illustrazione seguente evidenzia due neuroni e i relativi input.

Una rete neurale con uno strato di input, due strati nascosti e uno di output. Vengono evidenziati due neuroni: uno nel primo strato nascosto e l'altro nel secondo. Il neurone evidenziato nel primo strato nascosto riceve input da entrambe le funzionalità nel livello di input. Il neurone evidenziato nel secondo strato nascosto riceve input da ciascuno dei tre neuroni del primo strato nascosto.

Un neurone in una rete neurale imita il comportamento dei neuroni nel cervello e in altre parti dei sistemi nervosi.

N-grammi

#seq

#language

Una sequenza ordinata di N parole. Ad esempio, davvero folle è un 2 grammi. Dato che l'ordine è pertinente, perfettamente è un 2 grammi diverso da davvero folle.

N	Nomi di questo tipo di n-grammi	Esempi
2	bigram o 2 grammi	andare, andare, pranzare, cena
3	trigram o 3 grammi	ho mangiato troppo, tre topi ciechi, le campane
4	4 grammi	passeggiata nel parco, polvere al vento, il ragazzo mangiava lenticchie

Molti modelli di comprensione del linguaggio naturale si basano su n-grammi per prevedere la parola successiva che l'utente digiterà o dirà. Ad esempio, supponiamo che un utente abbia digitato tre ciechi. Un modello NLU basato su trigrammi probabilmente prevede che l'utente digiterà il prossimo topo.

Confrontare n-grammi con sacco di parole, che sono insieme di parole non ordinate.

NLU

#language

Abbreviazione di comprensione del linguaggio naturale.

nodo (albero decisionale)

#df

In un albero decisionale, qualsiasi condizione o foglia.

Un albero decisionale con due condizioni e tre foglie.

nodo (rete neurale)

#fundamentals

Un neurone in uno strato nascosto.

nodo (grafico TensorFlow)

#TensorFlow

Un'operazione in un grafico TensorFlow.

rumore

In termini generali, tutto ciò che nasconde il segnale in un set di dati. Il rumore può essere introdotto nei dati in diversi modi. Ad esempio:

I revisori commettono errori nell'etichettare gli elementi.
Persone e strumenti registrano erroneamente o omettono i valori delle caratteristiche.

condizione non binaria

#df

Una condizione contenente più di due risultati possibili. Ad esempio, la seguente condizione non binaria contiene tre possibili risultati:

Una condizione (number_of_legs = ?) che porta a tre possibili risultati. Un risultato (number_of_legs = 8) porta a una foglia
denominata spider. Un secondo risultato (number_of_legs = 4) porta a
un cane di nome foglia. Un terzo risultato (number_of_legs = 2) porta a una foglia chiamata pinguino.

non lineare

#fundamentals

Una relazione tra due o più variabili che non possono essere rappresentate solo tramite addizione e moltiplicazione. Una relazione lineare può essere rappresentata come una linea; una relazione non lineare non può essere rappresentata come una linea. Ad esempio, considera due modelli, ognuno che collega una singola caratteristica a una singola etichetta. Il modello a sinistra è lineare, mentre quello a destra non è lineare:

Due diagrammi. Un grafico è una linea, quindi questa è una relazione lineare.
L'altro grafico è una curva, quindi questa è una relazione non lineare.

bias senza risposta

#fairness

Vedi bias di selezione.

non stazionarietà

#fundamentals

Una caratteristica i cui valori cambiano in una o più dimensioni, di solito nel tempo. Considera ad esempio i seguenti esempi di non stazionarietà:

Il numero di costumi da bagno venduti in un determinato negozio varia in base alla stagione.
La quantità di un particolare frutto raccolto in una determinata regione è pari a zero per gran parte dell'anno, ma è consistente per un breve periodo.
A causa del cambiamento climatico, le temperature medie annuali stanno cambiando.

Contrasta la stationarità.

normalizzazione

#fundamentals

In termini generali, il processo di conversione dell'intervallo di valori effettivo di una variabile in un intervallo di valori standard, ad esempio:

Da -1 a +1
Da 0 a 1
la normale distribuzione

Ad esempio, supponiamo che l'intervallo effettivo di valori di una determinata caratteristica sia da 800 a 2400. Nell'ambito del feature engineering, puoi normalizzare i valori effettivi fino a un intervallo standard, ad esempio da -1 a +1.

La normalizzazione è un'attività comune nel feature engineering. In genere, i modelli si addestrano più velocemente (e producono previsioni migliori) quando ogni caratteristica numerica nel vettore di caratteristiche ha all'incirca lo stesso intervallo.

rilevamento delle novità

Il processo per determinare se un nuovo (nuovo) esempio proviene dalla stessa distribuzione del set di addestramento. In altre parole, dopo l'addestramento sul set di addestramento, il rilevamento delle novità determina se un nuovo esempio (durante l'inferenza o durante l'addestramento aggiuntivo) è un outlier.

Effettuare il contrasto con il rilevamento outlier.

dati numerici

#fundamentals

Caratteristiche rappresentate come numeri interi o numeri reali. Ad esempio, un modello di valutazione di una casa rappresenterebbe probabilmente la dimensione di una casa (in piedi quadrati o metri quadrati) come dati numerici. Rappresentare una caratteristica come dati numerici indica che i valori della caratteristica hanno una relazione matematica con l'etichetta. Questo significa che il numero di metri quadrati di una casa ha probabilmente una relazione matematica con il valore della casa.

Non tutti i dati interi devono essere rappresentati come dati numerici. Ad esempio, i codici postali in alcune parti del mondo sono numeri interi; tuttavia, i codici postali interi non devono essere rappresentati come dati numerici nei modelli. Questo perché un codice postale 20000 non è due volte (o la metà) più potente di un codice postale 10000. Inoltre, anche se codici postali diversi sono correlati a valori immobiliari diversi, non possiamo presumere che i valori degli immobili con codice postale 20000 siano due volte più importanti rispetto a quelli con codice postale 10000. I codici postali devono essere rappresentati come dati categorici.

Le caratteristiche numeriche a volte sono chiamate caratteristiche continue.

NumPy

Una libreria matematica open source che fornisce operazioni efficienti sugli array in Python. pandas è basato su NumPy.

O

scopo

Una metrica che l'algoritmo sta cercando di ottimizzare.

funzione obiettivo

La formula matematica o la metrica che un modello mira a ottimizzare. Ad esempio, la funzione obiettivo per la regressione lineare è in genere Perdita quadratica media. Pertanto, durante l'addestramento di un modello di regressione lineare, l'addestramento mira a minimizzare la perdita quadratica media.

In alcuni casi, l'obiettivo è massimizzare la funzione obiettivo. Ad esempio, se la funzione obiettivo è accuratezza, l'obiettivo è massimizzare l'accuratezza.

Vedi anche perdita.

condizione obliqua

#df

In un albero decisionale, una condizione che riguarda più di una caratteristica. Ad esempio, se altezza e larghezza sono entrambe caratteristiche, la seguente è una condizione obliqua:

  height > width

Contrasta con la condizione allineata all'asse.

offline

#fundamentals

Sinonimo di statico.

inferenza offline

#fundamentals

Il processo di un modello che genera un batch di previsioni e poi memorizza nella cache (salvataggio) queste previsioni. Le app possono quindi accedere alla previsione dedotta dalla cache anziché eseguire nuovamente il modello.

Ad esempio, considera un modello che genera le previsioni meteo locali una volta ogni quattro ore. Dopo l'esecuzione di ogni modello, il sistema memorizza nella cache tutte le previsioni meteo locali. Le app meteo recuperano le previsioni dalla cache.

L'inferenza offline è chiamata anche inferenza statica.

Confrontare con l'inferenza online.

codifica one-hot

#fundamentals

Rappresentazione dei dati categorici come un vettore in cui:

Un elemento è impostato su 1.
Tutti gli altri elementi sono impostati su 0.

La codifica one-hot viene comunemente utilizzata per rappresentare stringhe o identificatori che hanno un insieme finito di valori possibili. Ad esempio, supponiamo che una determinata caratteristica categorica denominata Scandinavia abbia cinque valori possibili:

"Danimarca"
"Svezia"
"Norvegia"
"Finlandia"
"Islanda"

La codifica one-hot potrebbe rappresentare ciascuno dei cinque valori come segue:

country	Vettore
"Danimarca"	1	0	0	0	0
"Svezia"	0	1	0	0	0
"Norvegia"	0	0	1	0	0
"Finlandia"	0	0	0	1	0
"Islanda"	0	0	0	0	1

Grazie alla codifica one-hot, un modello può apprendere connessioni diverse in base a ciascuno dei cinque paesi.

La rappresentazione di una caratteristica come dati numerici è un'alternativa alla codifica one-hot. Purtroppo, rappresentare numericamente i paesi scandinavi non è una buona scelta. Ad esempio, considera la seguente rappresentazione numerica:

"Danimarca" è 0
"Svezia" è 1
"Norvegia" è 2
"Finlandia" ha 3
"Islanda" ha 4

Con la codifica numerica, un modello interpreta i numeri non elaborati in modo matematico e prova ad allenarsi sulla base di questi numeri. Tuttavia, l'Islanda non rappresenta il doppio (o la metà) di qualcosa rispetto alla Norvegia, quindi il modello dovrebbe giungere ad alcune strane conclusioni.

apprendimento one-shot

Approccio basato sul machine learning, spesso usato per la classificazione degli oggetti, per apprendere classificatori

Vedi anche few-shot learning e zero-shot learning.

Prompt one-shot

#language

#IAgenerativa

Un prompt che contiene un esempio che mostra come dovrebbe rispondere il modello linguistico di grandi dimensioni. Ad esempio, il seguente prompt contiene un esempio che mostra un modello linguistico di grandi dimensioni (LLM) come dovrebbe rispondere a una query.

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`Francia: EUR`	Un esempio.
`India:`	La query effettiva.

Confronta e contrapponi i prompt one-shot con i seguenti termini:

uno contro tutti

#fundamentals

Dato un problema di classificazione con le classi N, una soluzione composta da N classificatori binari separati, un classificatore binario per ogni possibile risultato. Ad esempio, dato un modello che classifica gli esempi come animale, vegetale o minerale, una soluzione uno contro tutti fornisce i seguenti tre classificatori binari separati:

animale/non animale
vegetale/non vegetale
minerale/non minerale

online

#fundamentals

Sinonimo di Dynamic.

inferenza online

#fundamentals

Generazione di previsioni on demand. Ad esempio, supponiamo che un'app trasmetta un input a un modello e invii una richiesta per una previsione. Un sistema che utilizza l'inferenza online risponde alla richiesta eseguendo il modello (e restituendo la previsione all'app).

Confrontare con l'inferenza offline.

operazione (operazione)

#TensorFlow

In TensorFlow, qualsiasi procedura che crei, manipola o distruggi un Tensor. Ad esempio, una moltiplicazione matriciale è un'operazione che prende due tensori come input e genera un Tensor come output.

Optax

Una libreria di elaborazione e ottimizzazione dei gradienti per JAX. Optax facilita la ricerca fornendo componenti di base che possono essere ricombinati in modi personalizzati per ottimizzare i modelli parametrici come le reti neurali profonde. Altri obiettivi includono:

Fornire implementazioni leggibili, ben collaudate ed efficienti dei componenti principali.
Migliorare la produttività consentendo di combinare elementi di basso livello in ottimizzatori personalizzati (o altri componenti di elaborazione del gradiente).
per accelerare l'adozione di nuove idee, consentendo a chiunque di contribuire.

ottimizzatore

Un'implementazione specifica dell'algoritmo di discesa del gradiente. Gli ottimizzatori più diffusi includono:

AdaGrad, che indica la discesa ADAptive GRADient.
Adam, acronimo di ADAptive with Momentum,

bias di omogeneità fuori gruppo

#fairness

La tendenza a vedere i membri fuori dal gruppo come più simili rispetto ai membri del gruppo quando si confrontano atteggiamenti, valori, tratti della personalità e altre caratteristiche. In gruppo si riferisce alle persone con cui interagisci regolarmente; out-group si riferisce alle persone con cui non interagisci regolarmente. Se crei un set di dati chiedendo alle persone di fornire attributi relativi ai gruppi esterni, questi attributi potrebbero essere meno articolati e più stereotipati degli attributi elencati dai partecipanti per le persone del loro gruppo.

Ad esempio, i lilliputi potrebbero descrivere con grande dettaglio le case di altri lilliputi, citando piccole differenze negli stili architettonici, nelle finestre, nelle porte e nelle dimensioni. Tuttavia, gli stessi lilliputi potrebbero semplicemente dichiarare che i Brobdingnagia vivono tutti in case identiche.

Il bias di omogeneità fuori gruppo è una forma di differenziazione di attribuzione di gruppo.

Vedi anche bias in-group.

rilevamento outlier

Il processo di identificazione degli outlier in un set di addestramento.

Crea un contrasto con il rilevamento delle novità.

le anomalie

Valori lontani dalla maggior parte degli altri valori. Nel machine learning, tutti i seguenti sono valori anomali:

Inserisci dati i cui valori sono superiori a circa 3 deviazioni standard dalla media.
Ponderazioni con valori assoluti elevati.
Valori previsti relativamente lontani dai valori effettivi.

Ad esempio, supponiamo che widget-price sia una caratteristica di un determinato modello. Supponiamo che la media widget-price sia di 7 euro con una deviazione standard di 1 euro. Gli esempi contenenti un valore widget-price di 12 o 2 euro verranno quindi considerati come valori anomali, poiché ciascuno di questi prezzi è costituito da cinque deviazioni standard dalla media.

I valori anomali sono spesso causati da errori di battitura o altri errori di input. In altri casi, gli outlier non sono errori; dopo tutto, i valori a cinque deviazioni standard dalla media sono rari ma difficilmente impossibili.

I valori anomali spesso causano problemi durante l'addestramento del modello. Il taglio è un modo per gestire i valori anomali.

valutazione out-of-bag (valutazione OOB)

#df

Un meccanismo per valutare la qualità di una foresta decisionale testando ogni albero decisionale rispetto agli esempi non utilizzati durante l'addestramento dell'albero decisionale. Ad esempio, nel diagramma seguente, puoi notare che il sistema addestra ogni albero decisionale su circa due terzi degli esempi, quindi li valuta in base a un terzo rimanente degli esempi.

La valutazione out-of-bag è un'approssimazione conservativa e efficiente dal punto di vista del calcolo del meccanismo di convalida incrociata. Nella convalida incrociata, viene addestrato un modello per ogni fase di convalida incrociata (ad esempio, 10 modelli vengono addestrati in una convalida incrociata di 10 volte). Con la valutazione OOB, viene addestrato un singolo modello. Poiché il bagging trattene alcuni dati di ogni albero durante l'addestramento, la valutazione OOB può utilizzare questi dati per approssimare la convalida incrociata.

livello di output

#fundamentals

Lo strato "finale" di una rete neurale. Il livello di output contiene la previsione.

L'illustrazione seguente mostra una piccola rete neurale profonda con un livello di input, due strati nascosti e uno di output:

overfitting

#fundamentals

Creazione di un model che corrisponda ai model a tal punto che non riesce a fare previsioni corrette sui nuovi dati.

La regolarizzazione può ridurre l'overfitting. L'addestramento con un set di dati ampio e diversificato può anche ridurre l'overfitting.

Fai clic sull'icona per visualizzare altre note.

L'overfitting è come seguire rigorosamente i consigli del tuo insegnante preferito. Probabilmente avrai successo nella classe di quell'insegnante, ma potresti "superficiere" alle idee di quell'insegnante e non avere successo negli altri corsi. Seguire i consigli di un insieme di insegnanti vi permetterà di adattarvi meglio alle nuove situazioni.

sovracampionamento

Riutilizzo degli esempi di una classe di minoranza in un set di dati non bilanciati dalla classe per creare un set di addestramento più bilanciato.

Ad esempio, considera un problema di classificazione binaria in cui il rapporto tra la classe di maggioranza e la classe di minoranza è 5000:1. Se il set di dati contiene un milione di esempi, il set di dati contiene solo circa 200 esempi della classe di minoranza, che potrebbero essere troppo pochi per un addestramento efficace. Per ovviare a questa mancanza, potresti sovracampionare (riutilizzare) i 200 esempi più volte, ottenendo esempi sufficienti per un addestramento utile.

Devi prestare attenzione all'overfitting durante il sovracampionamento.

Contrastare il sottocampionamento.

P

dati pacchettizzati

Un approccio per archiviare i dati in modo più efficiente.

I dati pacchettizzati archiviano i dati utilizzando un formato compresso o in altro modo che consente un accesso più efficiente. I dati pacchettizzati riducono al minimo la quantità di memoria e calcolo necessari per accedervi, portando a un addestramento più rapido e a una inferenza del modello più efficiente.

I dati compressi vengono spesso utilizzati con altre tecniche, come l'aumento dei dati e la regolarizzazione, migliorando ulteriormente le prestazioni dei modelli.

panda

#fundamentals

Un'API di analisi dei dati orientata a colonne basata su numpy. Molti framework di machine learning, incluso TensorFlow, supportano le strutture dati Pandas come input. Per i dettagli, consulta la documentazione di Pandas.

parametro

#fundamentals

Le ponderazioni e i pregiudizi appresi da un modello durante l'addestramento. Ad esempio, in un modello di regressione lineare, i parametri sono costituiti dal bias (b) e da tutte le ponderazioni (w₁, w₂ e così via) nella formula seguente:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Al contrario, gli iperparametri sono i valori che tu (o un servizio di ottimizzazione degli iperparametri) fornisci al modello. Ad esempio, il tasso di apprendimento è un iperparametro.

ottimizzazione efficiente dei parametri

#language

#IAgenerativa

Un insieme di tecniche per mettere a punto un modello linguistico preaddestrato (PLM) di grandi dimensioni in modo più efficiente rispetto all'ottimizzazione completa. L'ottimizzazione efficiente dei parametri in genere perfeziona molti meno parametri rispetto all'ottimizzazione completa, ma in genere produce un modello linguistico di grandi dimensioni che ha le stesse prestazioni (o quasi) di un modello linguistico di grandi dimensioni (LLM) creato a partire da un'ottimizzazione completa.

Confronta e contrapporre l'ottimizzazione efficiente dei parametri con:

L'ottimizzazione efficiente dei parametri è anche nota come ottimizzazione efficiente dei parametri.

Server dei parametri (PS)

#TensorFlow

Un job che tiene traccia dei parametri di un modello in un'impostazione distribuita.

aggiornamento dei parametri

L'operazione di regolazione dei parametri di un modello durante l'addestramento, in genere entro una singola iterazione della discesa del gradiente.

derivata parziale

derivata in cui tutte le variabili tranne una sono considerate costanti. Ad esempio, la derivata parziale di f(x, y) rispetto a x è la derivata di f considerata come una funzione del solo x (ovvero, mantenendo costante y). La derivata parziale di f rispetto a x si concentra solo sul modo in cui x sta cambiando e ignora tutte le altre variabili dell'equazione.

bias di partecipazione

#fairness

Sinonimo di bias di mancata risposta. Vedi bias di selezione.

strategia di partizionamento

L'algoritmo in base al quale le variabili vengono suddivise tra i server dei parametri.

Pax

Un framework di programmazione progettato per addestrare modelli di rete neurali su larga scala così grandi da coprire più chip di acceleratori TPU slice o pod su larga scala.

Pax è basato su Flax, che è basato su JAX.

Diagramma che indica la posizione di Pax nello stack software.
Pax è costruito su JAX. Pax stessa è composta da tre livelli. Il livello inferiore contiene TensorStore e Flax.
Il livello centrale contiene Optax e Flaxformer. Il livello superiore contiene la libreria dei modelli Praxis. Fiddle è costruito su Pax.

Perceptron

Un sistema (hardware o software) che accetta uno o più valori di input, esegue una funzione sulla somma ponderata degli input e calcola un singolo valore di output. Nel machine learning, la funzione in genere non è lineare, ad esempio ReLU, sigmoid o tanh. Ad esempio, il seguente perceptrone si basa sulla funzione sigmoidea per elaborare tre valori di input:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Nell'illustrazione seguente, il perceptrone accetta tre input, ognuno dei quali viene modificato a sua volta da un peso prima di entrare nel perceptrone:

Un perceptrone che accetta 3 input, ognuno moltiplicato per pesi separati. Il perceptron restituisce un singolo valore.

I percetroni sono i neuroni nelle reti neurali.

prestazioni

Termine sovraccarico con i seguenti significati:

Significato standard nel campo del software engineering. Vale a dire: quanto rapidamente (o efficiente) viene eseguito questo software?
Il significato nel machine learning. In questo caso, le risposte alla seguente domanda: Quanto è corretto questo model? In altre parole, qual è la qualità delle previsioni del modello?

importanza delle variabili di permutazione

#df

Un tipo di importanza delle variabili che valuta l'aumento dell'errore di previsione di un modello dopo la variazione dei valori della caratteristica. L'importanza delle variabili di permutazione è una metrica indipendente dal modello.

perplessità

Una misura dell'efficacia di un model nello svolgimento delle sue attività. Ad esempio, supponi che l'attività consenta di leggere le prime lettere di una parola che un utente sta digitando sulla tastiera di un telefono e di offrire un elenco di possibili parole di completamento. La complessità, P, per questa attività corrisponde approssimativamente al numero di ipotesi che devi offrire affinché l'elenco contenga la parola effettiva che l'utente sta cercando di digitare.

La perplessità è correlata all'entropia incrociata come segue:

$$P= 2^{-\text{cross entropy}}$$

pipeline

L'infrastruttura che circonda un algoritmo di machine learning. Una pipeline include la raccolta dei dati, l'inserimento dei dati nei file di dati di addestramento, l'addestramento di uno o più modelli ed l'esportazione dei modelli in produzione.

pipeline

#language

Una forma di parallelismo del modello in cui l'elaborazione di un modello viene divisa in fasi consecutive e ogni fase viene eseguita su un dispositivo diverso. Mentre una fase elabora un batch, la fase precedente può lavorare sul batch successivo.

Vedi anche addestramento in fasi.

pjit

Una funzione JAX che divide il codice in modo che venga eseguito su più chip dell'acceleratore. L'utente passa una funzione a pjit, che restituisce una funzione che ha la semantica equivalente ma è compilata in un calcolo XLA eseguito su più dispositivi (ad esempio GPU o core TPU).

pjit consente agli utenti di eseguire lo sharding dei calcoli senza riscriverli utilizzando il partizionatore SPMD.

A partire da marzo 2023, pjit è stata unita a jit. Per ulteriori dettagli, consulta Array distribuiti e parallelizzazione automatica.

PLM

#language

#IAgenerativa

Abbreviazione di modello linguistico preaddestrato.

mappa p

Una funzione JAX che esegue copie di una funzione di input su più dispositivi hardware sottostanti (CPU, GPU o TPU), con valori di input diversi. pmap si basa su SPMD.

policy

#rl

Nell'apprendimento per rinforzo, una mappatura probabilistica di un agente dagli stati alle azioni.

di pooling

#image

Ridurre una o più matrici create da uno strato convoluzionale precedente in una matrice più piccola. Il pooling solitamente comporta l'assunzione del valore massimo o medio all'interno dell'area in pool. Ad esempio, supponiamo di avere la seguente matrice 3x3:

La matrice 3x3 [[5,3,1], [8,2,5], [9,4,3]].

Un'operazione di pooling, proprio come un'operazione convoluzionale, divide la matrice in sezioni e quindi la esegue per passi. Ad esempio, supponiamo che l'operazione di pooling divida la matrice convoluzionale in sezioni 2 x 2 con passo 1 x 1. Come illustrato nel diagramma seguente, vengono eseguite quattro operazioni di pooling. Immagina che ogni operazione di pooling scelga il valore massimo dei quattro in quella sezione:

Il pooling aiuta ad applicare l'invarianza traslazionale nella matrice di input.

Il pooling per le applicazioni di visione artificiale è noto più formalmente come pooling spaziale. Le applicazioni di serie temporali di solito fanno riferimento al pooling con il termine pooling temporale. Il pooling viene spesso chiamato sottocampionamento o downsampling in modo meno formale.

codifica posizionale

#language

Una tecnica per aggiungere informazioni sulla posizione di un token in una sequenza all'incorporamento del token. I modelli Transformer utilizzano la codifica posizionale per comprendere meglio la relazione tra le diverse parti della sequenza.

Una comune implementazione della codifica posizionale utilizza una funzione sinusoidale. In particolare, la frequenza e l'ampiezza della funzione sinusoidale sono determinate dalla posizione del token nella sequenza. Questa tecnica consente a un modello Transformer di imparare a gestire diverse parti della sequenza in base alla loro posizione.

classe positiva

#fundamentals

Il corso per cui stai eseguendo il test.

Ad esempio, la classe positiva in un modello di cancro potrebbe essere "tumora". La classe positiva in un classificatore di email potrebbe essere "spam".

Contrasta con classe negativa.

Fai clic sull'icona per visualizzare altre note.

Il termine classe positiva può creare confusione perché il risultato "positivo" di molti test è spesso un risultato indesiderato. Ad esempio, la classe positiva di molti test medici corrisponde a tumori o malattie. In generale, vuoi che un medico ti dica: "Complimenti! I risultati del test sono stati negativi." Indipendentemente da ciò, la classe positiva è l'evento che il test sta cercando di trovare.

Devi confermare che stai eseguendo contemporaneamente il test delle classi positive e negative.

post-elaborazione

#fairness

#fundamentals

Modifica dell'output di un modello dopo l'esecuzione del modello. La post-elaborazione può essere utilizzata per applicare vincoli di equità senza modificare i modelli stessi.

Ad esempio, si potrebbe applicare la post-elaborazione a un classificatore binario impostando una soglia di classificazione in modo da mantenere l'uguaglianza di opportunità per alcuni attributi controllando che la percentuale di veri positivi sia la stessa per tutti i valori di quell'attributo.

AUC PR (area sotto la curva PR)

Area sotto la curva di precisione-richiamo interpolata, ottenuta tracciando i punti (richiamo, precisione) per valori diversi della soglia di classificazione. A seconda di come viene calcolata, l'AUC PR può essere equivalente alla precisione media del modello.

Prassi

Una libreria ML di base ad alte prestazioni di Pax. Praxis è spesso chiamato "Libreria di livelli".

Praxis contiene non solo le definizioni della classe Layer, ma anche la maggior parte dei suoi componenti di supporto, tra cui:

input di dati
librerie di configurazione (HParam e Fiddle)
ottimizzatori

Praxis fornisce le definizioni della classe Modello.

precision

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando il modello ha previsto la classe positiva, qual è la percentuale di previsioni corrette?

Ecco la formula:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.
Un falso positivo indica che il modello ha previsto erroneamente la classe positiva.

Ad esempio, supponiamo che un modello abbia fatto 200 previsioni positive. Di queste 200 previsioni positive:

150 erano veri positivi.
50 erano falsi positivi.

In questo caso:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Contrasta accuratezza e richiamo.

curva di precisione-richiamo

Una curva di precisione e richiamo con soglie di classificazione diverse.

la previsione.

#fundamentals

L'output di un modello. Ad esempio:

La previsione di un modello di classificazione binario è la classe positiva o la classe negativa.
La previsione di un modello di classificazione multiclasse è una classe.
La previsione di un modello di regressione lineare è un numero.

#IAgenerativa

Addestramento iniziale di un modello su un set di dati di grandi dimensioni. Alcuni modelli pre-addestrati sono goffi giganti e in genere devono essere perfezionati mediante addestramento aggiuntivo. Ad esempio, gli esperti di ML potrebbero preaddestrare un modello linguistico di grandi dimensioni su un ampio set di dati di testo, come tutte le pagine in inglese di Wikipedia. Dopo l'addestramento, il modello risultante potrebbe essere ulteriormente perfezionato mediante una delle seguenti tecniche:

credenza precedente

Cosa pensi dei dati prima di iniziare l'addestramento. Ad esempio, la regolarizzazione L₂ si basa su una precedente convinzione che le ponderazioni debbano essere piccole e normalmente distribuite attorno a zero.

modello di regressione probabilistica

Un modello di regressione che utilizza non solo le ponderazioni per ogni caratteristica, ma anche l'incertezza di queste ponderazioni. Un modello di regressione probabilistica genera una previsione e l'incertezza di questa previsione. Ad esempio, un modello di regressione probabilistica potrebbe restituire una previsione di 325 con una deviazione standard di 12. Per ulteriori informazioni sui modelli di regressione probabilistica, consulta questo articolo di Colab su tensorflow.org.

funzione di densità di probabilità

Una funzione che identifica la frequenza dei campioni di dati che hanno esattamente un determinato valore. Quando i valori di un set di dati sono numeri in virgola mobile continui, raramente si verificano corrispondenze esatte. Tuttavia, l'integrating di una funzione di densità di probabilità dal valore x al valore y restituisce la frequenza prevista dei campioni di dati compresi tra x e y.

Ad esempio, considera una distribuzione normale con media 200 e deviazione standard di 30. Per determinare la frequenza prevista dei campioni di dati che rientrano nell'intervallo da 211,4 a 218,7, puoi integrare la funzione di densità di probabilità per una distribuzione normale da 211,4 a 218,7.

richiesta

#language

#IAgenerativa

Qualsiasi testo inserito come input a un modello linguistico di grandi dimensioni per condizionare il comportamento del modello in un determinato modo. I prompt possono essere brevi come una frase o arbitrariamente lunghi (ad esempio, l'intero testo di un romanzo). I prompt rientrano in più categorie, tra cui quelle mostrate nella seguente tabella:

Categoria prompt	Esempio	Note
Domanda	`A che velocità può volare un piccione?`
Istruzione	`Scrivi una poesia divertente sull'arbitraggio.`	Un prompt che chiede al modello linguistico di grandi dimensioni (LLM) di fare qualcosa.
Esempio	`Traduci il codice Markdown in HTML. Ad esempio: Markdown: * list item HTML: <ul> <li>list item</li> </ul>`	La prima frase di questo prompt di esempio è un'istruzione. Il resto del prompt è l'esempio.
Ruolo	`Spiega perché la discesa del gradiente è utilizzata nell'addestramento del machine learning fino al dottorato di ricerca in fisica.`	La prima parte della frase è un'istruzione; la frase "a un dottorato di ricerca in fisica" è la parte del ruolo.
Input parziale per il completamento del modello	`Il Primo Ministro del Regno Unito vive`	Un prompt di input parziale può terminare bruscamente (come in questo esempio) o con un trattino basso.

Un modello di IA generativa è in grado di rispondere a un prompt con testo, codice, immagini, incorporamenti, video e praticamente qualsiasi cosa.

apprendimento basato su prompt

#language

#IAgenerativa

Capacità di alcuni modelli che consente di adattare il comportamento in risposta a un input di testo arbitrario (messaggi). In un tipico paradigma di apprendimento basato su prompt, un modello linguistico di grandi dimensioni risponde a un prompt generando testo. Ad esempio, supponiamo che un utente inserisca la seguente richiesta:

Riassumi la terza legge della moto di Newton.

Un modello in grado di apprendere basato su prompt non è addestrato in modo specifico per rispondere al prompt precedente. Piuttosto, il modello "sa" molti fatti sulla fisica, molto sulle regole generali del linguaggio e molto su ciò che costituisce una risposta generalmente utile. Queste informazioni sono sufficienti per fornire (si spera) una risposta utile. Un ulteriore feedback umano ("Quella risposta era troppo complicata." oppure "Qual è una reazione?" consente ad alcuni sistemi di apprendimento basati su prompt di migliorare gradualmente l'utilità delle loro risposte.

progettazione dei prompt

#language

#IAgenerativa

Sinonimo di prompt engineering.

ingegneria del prompt

#language

#IAgenerativa

L'arte di creare prompt che suscitano le risposte desiderate da un modello linguistico di grandi dimensioni. Gli esseri umani eseguono il prompt engineering. Scrivere prompt ben strutturati è essenziale per garantire risposte utili da un modello linguistico di grandi dimensioni. La progettazione del prompt dipende da molti fattori, tra cui:

Il set di dati utilizzato per preaddestrare ed eventualmente ottimizzare il modello LLM.
La temperatura e altri parametri di decodifica utilizzati dal modello per generare le risposte.

Consulta Introduzione alla progettazione dei prompt per ulteriori dettagli sulla scrittura di prompt utili.

progettazione dei prompt è un sinonimo di prompt engineering.

ottimizzazione dei prompt

#language

#IAgenerativa

Un meccanismo di ottimizzazione efficiente dei parametri che apprende un "prefisso" che il sistema antepone al prompt effettivo.

Una variante dell'ottimizzazione dei prompt, a volte chiamata ottimizzazione del prefisso, è quella di anteporre il prefisso a ogni livello. Al contrario, la maggior parte dell'ottimizzazione dei prompt aggiunge solo un prefisso al livello di input.

Fai clic sull'icona per scoprire di più sui prefissi.

Per l'ottimizzazione dei prompt, il "prefisso" (noto anche come "prompt flessibile") è costituito da una manciata di vettori appresi e specifici per le attività anteposti alle rappresentazioni distribuite del token di testo dal prompt effettivo. Il sistema apprende il soft prompt bloccando tutti gli altri parametri del modello e perfezionando un'attività specifica.

etichette proxy

#fundamentals

Dati utilizzati per approssimare le etichette non direttamente disponibili in un set di dati.

Ad esempio, supponiamo che tu debba addestrare un modello per prevedere il livello di stress dei dipendenti. Il set di dati contiene molte funzionalità predittive, ma non contiene un'etichetta denominata livello di stress. Senza paura, scegli "incidenti sul posto di lavoro" come etichetta sostitutiva per il livello di stress. Dopotutto, i dipendenti sotto stress sono più incidenti che quelli calmi. O no? Forse gli incidenti sul lavoro in realtà aumentano e diminuiscono per vari motivi.

Come secondo esempio, supponi di voler usare sta piove? come etichetta booleana per il tuo set di dati, ma quest'ultimo non contiene dati sulle precipitazioni. Se sono disponibili fotografie, potresti creare immagini di persone con ombrelli come etichetta proxy per "sta piove"? È un'etichetta proxy valida? È probabile, ma è più probabile che le persone di alcune culture portino con sé ombrelli per proteggersi dal sole che dalla pioggia.

Le etichette del proxy sono spesso imperfette. Se possibile, scegli etichette effettive rispetto alle etichette proxy. Detto questo, quando manca un'etichetta effettiva, sceglila con estrema attenzione e scegli quella meno orribile.

proxy (attributi sensibili)

#fairness

Un attributo utilizzato come sostituzione per un attributo sensibile. Ad esempio, il codice postale di un individuo potrebbe essere utilizzato come sostituto del suo reddito, gruppo etnico.

funzione pura

Una funzione i cui output si basano solo sugli input e che non hanno effetti collaterali. Nello specifico, una funzione pura non utilizza né modifica alcuno stato globale, ad esempio il contenuto di un file o il valore di una variabile esterna alla funzione.

Le funzioni pure possono essere utilizzate per creare codice a sicurezza thread, il che è utile per lo sharding del codice del model su più model.

I metodi di trasformazione delle funzioni di JAX richiedono che le funzioni di input siano funzioni pure.

D

Funzione Q

#rl

Nel apprendimento per rinforzo, la funzione che prevede il ritorno previsto dopo l'esecuzione di un'azione in uno stato e il seguito di un determinato criterio.

La funzione Q è nota anche come funzione del valore di azione dello stato.

Q-learning

#rl

Nel reinforcement learning, un algoritmo che consente a un agente di apprendere la funzione Q ottimale di un processo decisionale di Markov applicando l'equazione di Bellman. Il processo decisionale di Markov modella un ambiente.

quantile

Ogni bucket in bucketing quantile.

bucketing dei quantili

Distribuzione dei valori di una caratteristica in bucket in modo che ogni bucket contenga lo stesso numero di esempi. Ad esempio, la figura seguente divide 44 punti in 4 bucket, ognuno dei quali contiene 11 punti. Affinché ogni bucket nella figura contenga lo stesso numero di punti, alcuni bucket hanno una larghezza diversa di valori x.

44 punti dati divisi in 4 bucket di 11 punti ciascuno.
Sebbene ogni bucket contenga lo stesso numero di punti dati, alcuni bucket contengono una gamma più ampia di valori delle caratteristiche rispetto ad altri bucket.

quantizzazione

Termine sovraccarico che potrebbe essere utilizzato in uno dei seguenti modi:

L'implementazione del bucketing quantile su una determinata funzionalità.
Trasformazione dei dati in zeri e uno per archiviazione, addestramento e inferenza più rapidi. Poiché i dati booleani sono più affidabili per il rumore e gli errori rispetto ad altri formati, la quantizzazione può migliorare la correttezza del modello. Le tecniche di quantizzazione includono arrotondamento, troncamento e binning.
Ridurre il numero di bit utilizzati per archiviare i parametri di un modello. Ad esempio, supponiamo che i parametri di un modello siano memorizzati come numeri in virgola mobile a 32 bit. La quantizzazione converte questi parametri da 32 bit a 4, 8 o 16 bit. La quantizzazione riduce quanto segue:
- Utilizzo di computing, memoria, disco e rete
- Tempo per dedurre una predicazione
- Consumo energetico
Tuttavia, la quantizzazione a volte riduce la correttezza delle previsioni di un modello.

queue

#TensorFlow

Un'operazione TensorFlow che implementa una struttura di dati di coda. Opzione generalmente utilizzata in I/O.

R

RAG

#fundamentals

Abbreviazione di retrieval-augmented Generation.

foresta casuale

#df

Un insieme di alberi decisionali in cui ogni albero decisionale viene addestrato con un rumore casuale specifico, come il bagging.

Le foreste casuali sono un tipo di foresta decisionale.

criterio casuale

#rl

Nel reinforcement learning, una norma che sceglie un'azione in modo casuale.

classifica

Un tipo di apprendimento supervisionato il cui obiettivo è ordinare un elenco di elementi.

ranking (ordinalità)

La posizione ordinale di una classe in un problema di machine learning che classifica le classi dalla più alta a quella più bassa. Ad esempio, un sistema di ranking del comportamento potrebbe classificare le ricompense di un cane da più alta (una bistecca) a più bassa (cavolo appassito).

ranking (Tensor)

#TensorFlow

Il numero di dimensioni in un Tensor. Ad esempio, uno scalare ha rango 0, un vettore ha rango 1 e una matrice ha rango 2.

Da non confondere con il ranking (ordinalità).

classificatore

#fundamentals

Una persona che fornisce le etichette per gli esempi. "Annotatore" è un altro nome per il classificatore.

recall

Una metrica per i modelli di classificazione che risponde alla seguente domanda:

Quando i dati empirici reali erano la classe positiva, quale percentuale di previsioni il modello ha correttamente identificato come classe positiva?

Ecco la formula:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

dove:

vero positivo indica che il modello ha previsto correttamente la classe positiva.
falso negativo indica che il modello ha previsto erroneamente la classe negativa.

Ad esempio, supponiamo che il tuo modello abbia fatto 200 previsioni su esempi per i quali i dati di fatto erano la classe positiva. Di queste 200 previsioni:

180 erano veri positivi.
20 erano falsi negativi.

In questo caso:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Fai clic sull'icona per visualizzare note sui set di dati non bilanciati.

Il richiamo è particolarmente utile per determinare la capacità predittiva dei modelli di classificazione in cui la classe positiva è rara. Ad esempio, considera un set di dati di tipo squilibrato di classe in cui la classe positiva per una determinata malattia si verifica solo in 10 pazienti su un milione. Supponiamo che il tuo modello faccia cinque milioni di previsioni che producono i seguenti risultati:

30 veri positivi
20 falsi negativi
4.999.000 veri negativi
950 falsi positivi

Il richiamo di questo modello è quindi:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Al contrario, la accuratezza di questo modello è:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Questo valore elevato dell'accuratezza sembra impressionante, ma è essenzialmente privo di significato. Il richiamo è una metrica molto più utile per i set di dati non bilanciati sulle classi rispetto all'accuratezza.

sistema di suggerimenti

#recsystems

Un sistema che seleziona per ogni utente un insieme relativamente piccolo di elementi desiderabili da un grande corpus. Ad esempio, un sistema di consigli video potrebbe consigliare due video da un corpus di 100.000 video, selezionando Casablanca e The Philadelphia Story per un utente e Wonder Woman e Black Panther per un altro. Un sistema di consigli per i video potrebbe basare i suoi consigli su fattori quali:

Film che utenti simili hanno valutato o guardato.
Genere, registi, attori, gruppi demografici di destinazione...

Unità lineare rettificata (ReLU)

#fundamentals

Una funzione di attivazione con il seguente comportamento:

Se l'input è negativo o pari a zero, l'output è 0.
Se l'input è positivo, l'output è uguale all'input.

Ad esempio:

Se l'input è -3, l'output è 0.
Se l'ingresso è +3, l'output è 3.0.

Ecco un grafico di ReLU:

ReLU è una funzione di attivazione molto diffusa. Nonostante il suo comportamento semplice, ReLU consente comunque a una rete neurale di apprendere relazioni non lineari tra le caratteristiche e l'etichetta.

rete neurale ricorrente

#seq

Una rete neurale eseguita intenzionalmente più volte, in cui parti di ogni esecuzione vengono alimentate nell'esecuzione successiva. In particolare, i livelli nascosti dell'esecuzione precedente forniscono parte dell'input allo stesso strato nascosto nell'esecuzione successiva. Le reti neurali ricorrenti sono particolarmente utili per valutare le sequenze, in modo che gli strati nascosti possano apprendere dalle esecuzioni precedenti della rete neurale nelle parti precedenti della sequenza.

Ad esempio, la figura seguente mostra una rete neurale ricorrente che viene eseguita 4 volte. Nota che i valori appresi negli strati nascosti dalla prima esecuzione diventano parte dell'input per gli stessi strati nascosti nella seconda esecuzione. Allo stesso modo, i valori appresi nello strato nascosto alla seconda esecuzione diventano parte dell'input per lo stesso strato nascosto nella terza esecuzione. In questo modo, la rete neurale ricorrente addestra e prevede gradualmente il significato dell'intera sequenza anziché solo il significato delle singole parole.

Un RNN che viene eseguito quattro volte per elaborare quattro parole di input.

modello di regressione

#fundamentals

Informale, un modello che genera una previsione numerica. Al contrario, un modello di classificazione genera una previsione di classe. Ad esempio, di seguito sono riportati tutti i modelli di regressione:

Un modello che prevede il valore di una certa casa, come 423.000 euro.
Un modello che prevede la aspettativa di vita di un determinato albero, ad esempio 23,2 anni.
Un modello che prevede la quantità di pioggia che cadrà in una determinata città nelle prossime sei ore, ad esempio 45 mm.

Due tipi comuni di modelli di regressione sono:

Regressione lineare, che trova la linea che più si adatta ai valori delle etichette alle caratteristiche.
Regressione logistica, che genera una probabilità compresa tra 0,0 e 1,0 che un sistema in genere associa a una previsione di classe.

Non tutti i modelli che producono previsioni numeriche sono modelli di regressione. In alcuni casi, una previsione numerica è solo un modello di classificazione che ha nomi di classi numerici. Ad esempio, un modello che prevede un codice postale numerico è un modello di classificazione, non di regressione.

regolarizzazione

#fundamentals

Qualsiasi meccanismo che riduca l'overfitting. I tipi di regolarizzazione più comuni includono:

L₁ regolarizzazione
L₂ regolarizzazione
regolarizzazione del dropout
interruzione anticipata (non si tratta di un metodo di regolarizzazione formale, ma può limitare in modo efficace l'overfitting)

La regolarizzazione può anche essere definita come la penalizzazione sulla complessità di un modello.

Fai clic sull'icona per visualizzare altre note.

La regolarizzazione è controintuitiva. L'aumento della regolarizzazione di solito aumenta la perdita di addestramento, il che genera confusione perché l'obiettivo non è minimizzare la perdita di addestramento?

In realtà, no. L'obiettivo non è ridurre al minimo la perdita dell'addestramento. L'obiettivo è fare previsioni eccellenti su esempi reali. È degno di nota, anche se una maggiore regolarizzazione aumenta la perdita di addestramento, ma di solito aiuta i modelli a fare previsioni migliori su esempi reali.

tasso di regolarizzazione

#fundamentals

Un numero che specifica l'importanza relativa della regolarizzazione durante l'addestramento. L'aumento della tasso di regolarizzazione riduce l'overfitting, ma potrebbe ridurre la capacità predittiva del modello. Al contrario, ridurre o omettere il tasso di regolarizzazione aumenta l'overfitting.

Fai clic sull'icona per visualizzare il calcolo.

Il tasso di regolarizzazione è generalmente rappresentato dalla lettera greca lambda. La seguente equazione semplificata della perdita mostra l'influenza di lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

dove per regolarizzazione si intende qualsiasi meccanismo di regolarizzazione, tra cui:

apprendimento per rinforzo (RL)

#rl

Una famiglia di algoritmi che apprendono una norma ottimale, il cui obiettivo è massimizzare il ritorno quando si interagisce con un ambiente. Ad esempio, la ricompensa definitiva della maggior parte dei giochi è la vittoria. I sistemi di apprendimento per rinforzo possono diventare esperti nel gioco complessi valutando sequenze di mosse di gioco precedenti che alla fine hanno portato a vittorie e sequenze che hanno infine portato a sconfitte.

Apprendimento per rinforzo con feedback umano (RLHF)

#IAgenerativa

#rl

Utilizzare il feedback di revisori umani per migliorare la qualità delle risposte di un modello. Ad esempio, un meccanismo RLHF può chiedere agli utenti di valutare la qualità della risposta di un modello con un'emoji 👍 o 👎. Il sistema può quindi modificare le risposte future in base a quel feedback.

ReLU

#fundamentals

Abbreviazione di Rectified Linear Unit.

buffer di ripetizione

#rl

In algoritmi di tipo DQN, la memoria utilizzata dall'agente per archiviare le transizioni di stato da utilizzare nella riproduzione dell'esperienza.

Cloud SQL

Una copia del set di addestramento o del modello, in genere su un'altra macchina. Ad esempio, un sistema potrebbe utilizzare la seguente strategia per implementare il parallelismo dei dati:

Posiziona le repliche di un modello esistente su più macchine.
Invia sottoinsiemi diversi del set di addestramento a ogni replica.
Aggrega gli aggiornamenti dei parametri.

bias nei report

#fairness

Il fatto che la frequenza con cui le persone scrivono di azioni, risultati o proprietà non riflette la frequenza reale o il grado in cui una proprietà è caratteristica di una classe di individui. I bias nei report possono influenzare la composizione dei dati da cui i sistemi di machine learning apprendono.

Ad esempio, nei libri, la parola risata è più prevalente che respirato. Un modello di machine learning che stima la frequenza relativa di risate e respiro provenienti dalla raccolta di un libro potrebbe determinare che ridere è più comune del respiro.

vettoriale prima che arrivassero

Il processo di mappatura dei dati a funzionalità utili.

riassegnazione

#recsystems

La fase finale di un sistema di suggerimenti, durante la quale gli elementi con punteggio possono essere riclassificati in base ad altri algoritmi (in genere non ML). Il nuovo ranking valuta l'elenco degli elementi generati dalla fase di punteggio, intraprendendo azioni come:

Eliminando gli articoli che l'utente ha già acquistato.
Miglioramento del punteggio degli articoli più recenti.

RAG (Retrieval Augmented Generation)

#fundamentals

Una tecnica per migliorare la qualità dell'output del modello linguistico di grandi dimensioni (LLM) basandosi su fonti di conoscenza recuperate dopo l'addestramento del modello. RAG migliora l'accuratezza delle risposte LLM fornendo all'LLM addestrato l'accesso alle informazioni recuperate da knowledge base o documenti attendibili.

Le motivazioni comuni per l'utilizzo della generazione aumentata con il recupero includono:

Aumentare l'accuratezza oggettiva delle risposte generate da un modello.
Concedere al modello l'accesso alle conoscenze su cui non è stato addestrato.
Modifica delle conoscenze utilizzate dal modello.
Attivazione del modello per citare le fonti.

Ad esempio, supponiamo che un'app di chimica utilizzi l'API PaLM per generare riepiloghi relativi alle query degli utenti. Quando il backend dell'app riceve una query, il backend:

Consente di cercare ("recuperare") dati pertinenti alla query dell'utente.
Aggiunge ("augment") i dati chimici pertinenti alla query dell'utente.
Indica all'LLM di creare un riepilogo in base ai dati aggiunti.

return

#rl

Nell'apprendimento per rinforzo, con una determinata norma e uno stato specifico, il ritorno è la somma di tutti i premi che l'agente si aspetta di ricevere quando segue la norma dallo stato alla fine dell'episodio. L'agente conta la natura ritardata dei premi previsti scontando i premi in base alle transizioni di stato necessarie per ottenere il premio.

Pertanto, se il fattore di sconto è $\gamma$e $r_0, \ldots, r_{N}$ indica i premi fino alla fine della puntata, il calcolo del ritorno è il seguente:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

premio

#rl

Nell'apprendimento per rinforzo, il risultato numerico dell'esecuzione di un'azione in uno stato, come definito dall'ambiente.

regolarizzazione della cresta

Sinonimo di regolarizzazione L₂. Il termine regolarizzazione cresta è più spesso utilizzato in contesti statistici puri, mentre la regolarizzazione L₂ è usata più spesso nel machine learning.

RNN

#seq

Abbreviazione di recurrent Neural Networks.

Curva ROC (caratteristica operativa del ricevitore)

#fundamentals

Un grafico che mostra il tasso di veri positivi rispetto al tasso di falsi positivi per le diverse soglie di classificazione nella classificazione binaria.

La forma di una curva ROC suggerisce la capacità di un modello di classificazione binaria di separare le classi positive da quelle negative. Supponiamo, ad esempio, che un modello di classificazione binaria separi perfettamente tutte le classi negative da tutte le classi positive:

Una linea dei numeri con 8 esempi positivi a destra e 7 esempi negativi a sinistra.

La curva ROC per il modello precedente ha il seguente aspetto:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ha la forma a L invertita. La curva
parte da (0,0,0,0) e arriva direttamente fino a (0,0,1,0). La curva va da (0,0,1,0) a (1,0,1,0).

Al contrario, nell'illustrazione seguente vengono rappresentati i valori di regressione logistica non elaborata per un modello pessimo che non è in grado di separare le classi negative dalle classi positive:

Una linea dei numeri con esempi positivi e classi negative completamente mescolate.

La curva ROC per questo modello ha il seguente aspetto:

Una curva ROC, che in realtà è una linea retta da (0,0,0,0) a (1,0,1,0).

Nel mondo reale, la maggior parte dei modelli di classificazione binaria separa in una certa misura le classi positive e negative, ma di solito non perfettamente. Quindi, una tipica curva ROC si trova a metà tra i due estremi:

Una curva ROC. L'asse x è la percentuale di falsi positivi e l'asse y
è la percentuale di veri positivi. La curva ROC approssima un arco instabile che attraversa i punti della bussola da ovest a nord.

Il punto su una curva ROC più vicino a (0,0,1,0) identifica in teoria la soglia di classificazione ideale. Tuttavia, molti altri problemi del mondo reale influenzano la scelta della soglia di classificazione ideale. Ad esempio, forse i falsi negativi causano molto più dolore dei falsi positivi.

Una metrica numerica chiamata AUC riassume la curva ROC in un singolo valore in virgola mobile.

prompt di ruolo

#language

#IAgenerativa

Una parte facoltativa di un prompt che identifica un pubblico di destinazione per la risposta di un modello di IA generativa. Senza un prompt di ruolo, un modello linguistico di grandi dimensioni (LLM) fornisce una risposta che può o meno essere utile per la persona che pone le domande. Con un prompt di ruolo, un modello linguistico di grandi dimensioni può rispondere in modo più appropriato e utile per un pubblico di destinazione specifico. Ad esempio, la parte dei prompt di ruolo seguenti è in grassetto:

Riassumi questo articolo per un dottorato di ricerca in economia.
Descrivi come funzionano le maree per un bambino di dieci anni.
Spiegare la crisi finanziaria del 2008. Parla come a un bambino o a un golden retriever.

root

#df

Il nodo iniziale (la prima condizione) in un albero decisionale. Per convenzione, i diagrammi mettono la radice nella parte superiore dell'albero decisionale. Ad esempio:

Un albero decisionale con due condizioni e tre foglie. La condizione iniziale (x > 2) è la radice.

directory root

#TensorFlow

La directory specificata per ospitare le sottodirectory del checkpoint TensorFlow e i file di eventi di più modelli.

Errore quadratico medio (RMSE)

#fundamentals

La radice quadrata dell'errore quadratico medio.

invarianza rotazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando l'orientamento delle immagini cambia. Ad esempio, l'algoritmo può comunque identificare una racchetta da tennis sia rivolta verso l'alto, lateralmente o verso il basso. Tieni presente che l'invarianza rotazionale non è sempre desiderabile; ad esempio, un 9 capovolto non dovrebbe essere classificato come 9.

Vedi anche invarianza traslazionale e invarianza di dimensione.

R al quadrato

Una metrica di regressione che indica la variazione in un'etichetta dovuta a una singola caratteristica o a un insieme di caratteristiche. R al quadrato è un valore compreso tra 0 e 1, che puoi interpretare come segue:

Un R al quadrato pari a 0 indica che nessuna variazione di un'etichetta è dovuta al set di caratteristiche.
Un R al quadrato pari a 1 indica che tutte le variazioni di un'etichetta sono dovute al set di caratteristiche.
Un R al quadrato compreso tra 0 e 1 indica la misura in cui la variazione dell'etichetta può essere prevista da una particolare caratteristica o dall'insieme di caratteristiche. Ad esempio, un R al quadrato di 0,10 significa che il 10% della varianza nell'etichetta è dovuto all'insieme di caratteristiche, un R al quadrato di 0,20 significa che il 20% è dovuto all'insieme di caratteristiche e così via.

R al quadrato è il quadrato del coefficiente di correlazione di Pearson tra i valori previsti da un modello e i dati empirici reali.

S

bias di campionamento

#fairness

Vedi bias di selezione.

campionamento con sostituzione

#df

Un metodo per selezionare elementi da un insieme di elementi candidati in cui lo stesso elemento può essere selezionato più volte. La frase "con sostituzione" significa che, dopo ogni selezione, l'elemento selezionato viene restituito al pool di elementi candidati. Il metodo inverso, campionamento senza sostituzione, significa che un elemento candidato può essere selezionato una sola volta.

Ad esempio, considera il seguente insieme di frutta:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Supponiamo che il sistema scelga in modo casuale fig come primo elemento. Se utilizzi il campionamento con sostituzione, il sistema sceglie il secondo elemento dalla serie seguente:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Sì, è lo stesso set di prima, quindi il sistema potrebbe potenzialmente selezionare di nuovo fig.

Se utilizzi il campionamento senza sostituzione, una volta scelto, un campione non può essere selezionato di nuovo. Ad esempio, se il sistema sceglie in modo casuale fig come primo campione, fig non potrà essere selezionato di nuovo. Di conseguenza, il sistema sceglie il secondo campione dal seguente insieme (ridotto):

fruit = {kiwi, apple, pear, cherry, lime, mango}

Fai clic sull'icona per visualizzare altre note.

Il termine sostituzione in campionamento con sostituzione confonde molte persone. In inglese, sostituzione significa "sostituzione". Tuttavia, il campionamento con sostituzione utilizza in realtà la definizione francese per la sostituzione, che significa "rimettere qualcosa".

La parola inglese replacement viene tradotta come la parola francese remplacement.

SavedModel

#TensorFlow

Formato consigliato per salvare e recuperare i modelli TensorFlow. SavedModel è un formato di serializzazione recuperabile e indipendente dal linguaggio, che consente a sistemi e strumenti di livello superiore per produrre, utilizzare e trasformare i modelli TensorFlow.

Per i dettagli completi, consulta il capitolo Salvataggio e ripristino nella Guida per i programmatori TensorFlow.

Economico

#TensorFlow

Un oggetto TensorFlow responsabile del salvataggio dei checkpoint del modello.

scalare

Un singolo numero o una singola stringa che può essere rappresentata come un tensore di ranking 0. Ad esempio, le seguenti righe di codice creano ciascuna uno scalare in TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

scalabilità

Qualsiasi trasformazione o tecnica matematica che cambia l'intervallo di un'etichetta e/o del valore di una caratteristica. Alcune forme di scalabilità sono molto utili per trasformazioni come la normalizzazione.

Le forme più comuni di scalabilità utili nel machine learning includono:

Scalabilità lineare, che in genere utilizza una combinazione di sottrazione e divisione per sostituire il valore originale con un numero compreso tra -1 e +1 o tra 0 e 1.
la scalabilità logaritmica, che sostituisce il valore originale con il suo logaritmo.
Normalizzazione del punteggio z, che sostituisce il valore originale con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media della caratteristica.

scikit-learn

Una popolare piattaforma di machine learning open source. Vedi scikit-learn.org.

calcolo punteggio

#recsystems

La parte di un sistema di suggerimenti che fornisce un valore o un ranking per ogni articolo prodotto dalla fase di generazione dei candidati.

bias di selezione

#fairness

Errori nelle conclusioni tratte dai dati campionati a causa di un processo di selezione che genera differenze sistematiche tra i campioni osservati nei dati e quelli non osservati. Esistono le seguenti forme di bias di selezione:

Bias di copertura: la popolazione rappresentata nel set di dati non corrisponde a quella su cui il modello di machine learning sta facendo previsioni.
Bias di campionamento: i dati non vengono raccolti in modo casuale dal gruppo target.
bias di mancata risposta (chiamato anche bias di partecipazione): gli utenti di determinati gruppi disattivano i sondaggi con frequenze diverse rispetto agli utenti di altri gruppi.

Ad esempio, supponiamo che tu stia creando un modello di machine learning che prevede il gradimento di un film da parte degli utenti. Per raccogliere dati sull'addestramento, distribuisci un sondaggio a tutte le persone in prima fila di un cinema che proietta il film. Può sembrare un modo ragionevole per raccogliere un set di dati, tuttavia, questa forma di raccolta dei dati può introdurre le seguenti forme di bias di selezione:

bias di copertura: campionando una popolazione che ha scelto di vedere il film, le previsioni del modello potrebbero non essere generalizzate per gli utenti che non hanno già espresso quel livello di interesse per il film.
bias di campionamento: anziché eseguire un campionamento casuale dalla popolazione prevista (tutte le persone del film), hai campionato solo le persone in prima fila. È possibile che le persone sedute in prima fila fossero più interessate al film rispetto a quelle nelle altre file.
bias non risposta: in generale, le persone con opinioni decise tendono a rispondere a sondaggi facoltativi più spesso delle persone con opinione lieve. Poiché il sondaggio sul cinema è facoltativo, è più probabile che le risposte formino una distribuzione bimodale rispetto a una normale distribuzione a forma di campana.

auto-attenzione (detto anche livello di auto-attenzione)

#language

Un livello della rete neurale che trasforma una sequenza di incorporamenti (ad esempio, incorporamenti token) in un'altra sequenza di incorporamenti. Ogni incorporamento nella sequenza di output è costruito integrando le informazioni dagli elementi della sequenza di input tramite un meccanismo di attenzione.

La parte relativa al sé dell'auto-attenzione si riferisce alla sequenza che si concentra su se stessi piuttosto che a un altro contesto. L'auto-attenzione è uno dei principali componenti di base per i trasformatori e utilizza la terminologia di ricerca nei dizionari, ad esempio "query", "chiave" e "valore".

Un strato di auto-attenzione inizia con una sequenza di rappresentazioni di input, una per ogni parola. La rappresentazione di input per una parola può essere un semplice incorporamento. Per ogni parola in una sequenza di input, la rete assegna un punteggio alla pertinenza della parola a ogni elemento nell'intera sequenza di parole. I punteggi di pertinenza determinano quanto la rappresentazione finale della parola incorpori le rappresentazioni di altre parole.

Ad esempio, considera la seguente frase:

L'animale non ha attraversato la strada perché era troppo stanco.

L'illustrazione seguente (da Transformer: A Novel Neural Network Architecture for Language Understanding) mostra lo schema di attenzione di un livello di auto-attenzione per il pronome it, con l'oscurità di ogni riga che indica il contributo di ogni parola alla rappresentazione:

La seguente frase appare due volte: L'animale non ha attraversato la strada perché era troppo stanco. Le righe collegano il pronome in una frase a cinque token (L'animale, la via, it e il punto) nell'altra frase. Il confine tra il pronome e la parola animale è il più forte.

Il livello di auto-attenzione evidenzia le parole pertinenti. In questo caso, lo strato di attenzione ha imparato a evidenziare le parole a cui potrebbe fare riferimento, assegnando il peso più elevato ad animale.

Per una sequenza di n token, l'auto-attenzione trasforma una sequenza di incorporamenti n volte separate, una in ogni posizione della sequenza.

Fai riferimento anche a Attenzione e Auto-attenzione multi-testa.

apprendimento autonomo

Una famiglia di tecniche per convertire un problema di machine learning non supervisionato in un problema di machine learning supervisionato creando etichette surrogate da esempi non etichettati.

Alcuni modelli basati su Transformer, ad esempio BERT, utilizzano l'apprendimento autonomo.

La formazione autonoma è un approccio di apprendimento semi-supervisionato.

autoaddestramento

Una variante dell'apprendimento autonomo particolarmente utile quando si verificano tutte le seguenti condizioni:

Il rapporto tra esempi non etichettati e esempi etichettati nel set di dati è elevato.
Si tratta di un problema di classificazione.

L'addestramento autonomo funziona ripetendo i due passaggi seguenti fino a quando il modello non smette di migliorare:

Utilizza il machine learning supervisionato per addestrare un modello sulla base di esempi etichettati.
Utilizza il modello creato al passaggio 1 per generare previsioni (etichette) sugli esempi non etichettati, spostando quelli con un'elevata confidenza negli esempi etichettati con l'etichetta prevista.

Nota che ogni iterazione del passaggio 2 aggiunge altri esempi etichettati per l'addestramento del passaggio 1.

apprendimento semi-supervisionato

Addestrare un modello su dati in cui alcuni esempi di addestramento hanno etichette ma altri no. Una tecnica per l'apprendimento semi-supervisionato prevede l'inferenza delle etichette per gli esempi non etichettati e l'addestramento sulle etichette dedotte per creare un nuovo modello. L'apprendimento semi-supervisionato può essere utile se le etichette sono costose da ottenere, ma gli esempi non etichettati sono abbondanti.

L'autoaddestramento è una tecnica per l'apprendimento semi-supervisionato.

attributo sensibile

#fairness

Un attributo umano che può essere oggetto di particolare considerazione per motivi legali, etici, sociali o personali.

analisi del sentiment

#language

Utilizzo di algoritmi statistici o di machine learning per determinare l'atteggiamento complessivo di un gruppo, positivo o negativo, nei confronti di un servizio, un prodotto, un'organizzazione o un argomento. Ad esempio, utilizzando la comprensione del linguaggio naturale, un algoritmo potrebbe eseguire un'analisi del sentiment sul feedback testuale di un corso universitario per determinare il grado di interesse generale che il corso è piaciuto o meno agli studenti.

modello di sequenza

#seq

Un modello i cui input hanno una dipendenza sequenziale. Ad esempio, per prevedere il video successivo a partire da una sequenza di video guardati in precedenza.

attività da sequenza a sequenza

#language

Un'attività che converte una sequenza di input di token in una sequenza di token di output. Ad esempio, due tipi di attività da sequenza a sequenza sono:

Traduttori:
- Sequenza di input di esempio: "Ti amo".
- Esempio di sequenza di output: "Je t'aime".
Risposta alle domande:
- Sequenza di input di esempio: "Devo avere la mia auto a New York?"
- Esempio di sequenza di output: "No, porta l'auto a casa".

del modello.

Il processo per rendere disponibile un modello addestrato al fine di fornire previsioni tramite l'inferenza online o l'inferenza offline.

forma (Tensor)

Il numero di elementi in ogni dimensione di un tensore. La forma è rappresentata da un elenco di numeri interi. Ad esempio, il seguente tensore bidimensionale ha la forma di [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow utilizza il formato riga maggiore (stile C) per rappresentare l'ordine delle dimensioni, motivo per cui la forma in TensorFlow è [3,4] anziché [4,3]. In altre parole, in un TensorFlow Tensor bidimensionale, la forma è [numero di righe, numero di colonne].

shard

#TensorFlow

#GoogleCloud

Una divisione logica del set di addestramento o del modello. In genere, alcuni processi creano shard dividendo gli esempi o i parametri in blocchi (di solito) di pari dimensioni. Ogni shard viene quindi assegnato a una macchina diversa.

Lo sharding di un modello è chiamato parallelismo dei modelli; il partizionamento dei dati è chiamato parallelismo dei dati.

restringimento

#df

Un iperparametro in incremento del gradiente che controlla l'overfitting. La riduzione nell'incremento del gradiente è analoga al tasso di apprendimento nella discesa del gradiente. Lo shrinkage è un valore decimale tra 0,0 e 1,0. Un valore di shrinkage più basso riduce l'overfitting di più di un valore più grande.

funzione sigmoidea

#fundamentals

Una funzione matematica che "schiaccia" un valore di input in un intervallo vincolato, in genere da 0 a 1 o da -1 a +1. In altre parole, puoi passare qualsiasi numero (due, un milione, un miliardo negativo o altro) a una funzione sigmoidea e l'output sarà comunque nell'intervallo vincolato. Un grafico della funzione di attivazione sigmoidea ha il seguente aspetto:

La funzione sigmoidea ha diversi utilizzi nel machine learning, tra cui:

Conversione dell'output non elaborato di un modello di regressione logistica o di regressione multinomiale in una probabilità.
Funge da funzione di attivazione in alcune reti neurali.

Fai clic sull'icona per visualizzare il calcolo.

La funzione sigmoidea su un numero di input x ha la seguente formula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Nel machine learning, x è generalmente una somma ponderata.

misura di somiglianza

#clustering

Negli algoritmi di clustering, la metrica utilizzata per determinare se due esempi sono simili o simili.

programma singolo / più dati (SPMD)

Una tecnica di parallelismo in cui lo stesso calcolo viene eseguito su diversi dati di input in parallelo su dispositivi diversi. L'obiettivo dell'SPMD è ottenere risultati più rapidamente. È lo stile più comune di programmazione parallela.

invarianza delle dimensioni

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando le dimensioni delle immagini cambiano. Ad esempio, l'algoritmo può comunque identificare un gatto, sia che utilizzi 2 milioni di pixel o 200.000 pixel. Anche i migliori algoritmi di classificazione delle immagini presentano comunque limiti pratici sull'invarianza delle dimensioni. Ad esempio, è improbabile che un algoritmo (o una persona) classifichi correttamente un'immagine gatto che utilizza solo 20 pixel.

Vedi anche invarianza traslazionale e invarianza rotazionale.

disegno

#clustering

Nel machine learning non supervisionato, una categoria di algoritmi che eseguono un'analisi preliminare delle somiglianze sugli esempi. Gli algoritmi di schizzo utilizzano una funzione di hash sensibile alla località per identificare i punti che potrebbero essere simili e quindi li raggruppano in bucket.

Gli schizzi riducono i calcoli necessari per i calcoli di somiglianza su set di dati di grandi dimensioni. Invece di calcolare la somiglianza per ogni singola coppia di esempi nel set di dati, calcoliamo la somiglianza solo per ogni coppia di punti all'interno di ogni bucket.

skip-gram

#language

Un elemento n-gram che può omettere (o "saltare") parole dal contesto originale, il che significa che le N parole potrebbero non essere state originariamente adiacenti. Più precisamente, "k-skip-n-gram" è un n-gram per il quale potrebbero essere state saltate fino a k parole.

Ad esempio, "la volpe marrone" ha i seguenti 2 grammi possibili:

"l'accelerato"
"marrone rapido"
"volpe marrone"

"1-salto-2-grammi" è una coppia di parole che hanno al massimo 1 parola tra loro. Pertanto, "the quick marrone fox" ha i seguenti 1 o 2 grammi di salto:

"marrone"
"Fast Volpe"

Inoltre, tutti i 2 grammi sono anche 1 o 2 grammi, dato che è possibile saltare meno di una parola.

I grammi ignorabili sono utili per comprendere meglio il contesto circostante di una parola. Nell'esempio, "volpe" era direttamente associato a "rapido" nell'insieme 1-salta-2-grammi, ma non nell'insieme di 2 grammi.

I grammi ignorabili aiutano ad addestrare i modelli di incorporamento delle parole.

softmax

#fundamentals

Una funzione che determina le probabilità per ogni possibile classe in un modello di classificazione multiclasse. La somma delle probabilità corrisponde esattamente a 1,0. Ad esempio, la tabella seguente mostra in che modo la funzione softmax distribuisce le varie probabilità:

L'immagine è...	Probabilità
cane	0,85
gatto	0,13
cavallo	0,02

Softmax è anche noto come full softmax.

Contrasta il campionamento dei candidati.

Fai clic sull'icona per visualizzare il calcolo.

L'equazione della funzione softmax è la seguente:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

dove:

$\sigma_i$ è il vettore di output. Ogni elemento del vettore di output specifica la probabilità di questo elemento. La somma di tutti gli elementi del vettore di output è 1,0. Il vettore di output contiene lo stesso numero di elementi del vettore di input, $z$.
$z$ è il vettore di input. Ogni elemento del vettore di input contiene un valore in virgola mobile.
$K$ è il numero di elementi nel vettore di input (e nel vettore di output).

Ad esempio, supponiamo che il vettore di input sia:

[1.2, 2.5, 1.8]

Pertanto, la funzione softmax calcola il denominatore come segue:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

La probabilità softmax di ogni elemento è quindi:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Pertanto, il vettore di output è:

$$\sigma = [0.154, 0.565, 0.281]$$

La somma dei tre elementi in $\sigma$ è 1,0. Finalmente.

ottimizzazione dei prompt flessibili

#language

#IAgenerativa

Una tecnica per ottimizzare un modello linguistico di grandi dimensioni per una determinata attività, senza ottimizzazioni che richiedono un uso intensivo delle risorse. Anziché riaddestrare tutti i ponderazioni nel modello, l'ottimizzazione dei prompt flessibili regola automaticamente un prompt per raggiungere lo stesso obiettivo.

A causa di un prompt testuale, l'ottimizzazione dei prompt soft in genere aggiunge al prompt ulteriori incorporamenti di token e utilizza la retropropagazione dell'input per ottimizzare l'input.

Un prompt "hard" contiene token effettivi anziché incorporamenti di token.

caratteristica sparsa

#language

#fundamentals

Una caratteristica i cui valori sono prevalentemente zero o vuoti. Ad esempio, una caratteristica contenente un singolo valore 1 e un milione di valori 0 è sparsa. Al contrario, una caratteristica densa ha valori che sono prevalentemente non zero o vuoti.

Nel machine learning, un numero sorprendente di caratteristiche sono caratteristiche sparse. Le caratteristiche categoriche sono di solito caratteristiche sparse. Ad esempio, delle 300 possibili specie di alberi in una foresta, un singolo esempio potrebbe identificare solo un acero. Oppure, tra i milioni di possibili video contenuti in una raccolta video, un singolo esempio potrebbe identificare solo "Casablanca".

In un modello, in genere rappresenti le caratteristiche sparse con la codifica one-hot. Se la codifica one-hot è elevata, puoi inserire uno strato di incorporamento sopra la codifica one-hot per una maggiore efficienza.

rappresentazione sparsa

#language

#fundamentals

Memorizzare solo le posizioni di elementi diversi da zero in una caratteristica sparsa.

Ad esempio, supponiamo che una caratteristica categorica denominata species identifichi le 36 specie di alberi in una determinata foresta. Supponiamo inoltre che ogni esempio identifichi solo una singola specie.

Potresti utilizzare un vettore one-hot per rappresentare le specie di alberi in ogni esempio. Un vettore one-hot conterrebbe un singolo 1 (per rappresentare la particolare specie di alberi in questo esempio) e 35 0 (per rappresentare le 35 specie di alberi non in questo esempio). Pertanto, la rappresentazione one-hot di maple potrebbe essere simile alla seguente:

Un vettore in cui le posizioni da 0 a 23 mantengono il valore 0, la posizione 24 contiene il valore 1 e le posizioni da 25 a 35 mantengono il valore 0.

In alternativa, la rappresentazione sparsa dovrebbe semplicemente identificare la posizione della specie particolare. Se maple è in posizione 24, la rappresentazione sparsa di maple sarebbe semplicemente:

Puoi notare che la rappresentazione sparsa è molto più compatta di quella one-hot.

Fai clic sull'icona per visualizzare un esempio leggermente più complesso.

Supponiamo che ogni esempio nel modello debba rappresentare le parole, ma non l'ordine di queste parole, in una frase inglese. L'inglese è composto da circa 170.000 parole, quindi l'inglese è una caratteristica categorica con circa 170.000 elementi. La maggior parte delle frasi inglesi utilizza una frazione molto ridotta delle 170.000 parole, quindi l'insieme di parole di un singolo esempio sarà quasi certamente costituito da dati sparsi.

Considera la seguente frase:

My dog is a great dog

Puoi utilizzare una variante del vettore one-hot per rappresentare le parole in questa frase. In questa variante, più celle nel vettore possono contenere un valore diverso da zero. Inoltre, in questa variante, una cella può contenere un numero intero diverso da uno. Anche se le parole "mio", "è", "a" e "grandioso" appaiono solo una volta, la parola "cane" compare due volte. Utilizzando questa variante di vettori one-hot per rappresentare le parole in questa frase,si ottiene il seguente vettore di 170.000 elementi:

Una rappresentazione sparsa della stessa frase sarebbe semplicemente:

Fai clic sull'icona in caso di confusione.

Il termine "rappresentazione sparsa" confonde molte persone perché la rappresentazione sparsa non è un vettore sparso. Piuttosto, la rappresentazione sparsa è in realtà una rappresentazione densa di un vettore sparso. Il sinonimo di rappresentazione dell'indice è un po' più chiaro di "rappresentazione sparsa".

vettore sparso

#fundamentals

Un vettore i cui valori sono prevalentemente zeri. Vedi anche caratteristica sparsa e sparsità.

sparsità

Il numero di elementi impostati su zero (o nullo) in un vettore o in una matrice diviso per il numero totale di voci in quel vettore o matrice. Ad esempio, consideriamo una matrice di 100 elementi in cui 98 celle contengono zero. Il calcolo della disparsità è il seguente:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Sparrsità delle caratteristiche si riferisce alla sparsità di un vettore di caratteristiche; sparsità del modello si riferisce alla sparsità dei pesi del modello.

pooling spaziale

#image

Consulta la sezione pooling.

split

#df

In un albero decisionale, un altro nome di una condizione.

divisore

#df

Durante l'addestramento di un albero decisionale, la routine (e l'algoritmo) è responsabile di trovare la condizione migliore in ogni nodo.

SPMD

Abbreviazione di programma singolo / più dati.

perdita cerniera al quadrato

Il quadrato della perdita della cerniera. La perdita quadrata della cerniera penalizza gli outlier più duramente della normale perdita di cerniera.

perdita quadratica

#fundamentals

Sinonimo di L₂ loss.

addestramento graduale

#language

Una tattica per addestrare un modello in una sequenza di fasi discrete. L'obiettivo può essere accelerare il processo di addestramento o migliorare la qualità del modello.

Di seguito è riportata un'illustrazione dell'approccio di impilamento progressivo:

La fase 1 contiene 3 strati nascosti, la fase 2 ne contiene 6 e la fase 3 con 12 strati nascosti.
La Fase 2 inizia l'addestramento con i pesi appresi nei 3 strati nascosti della Fase 1. La Fase 3 inizia l'addestramento con i pesi appresi nei 6 strati nascosti della Fase 2.

Tre fasi, che sono etichettate Fase 1, Fase 2 e Fase 3.
Ogni fase contiene un numero diverso di livelli: la Fase 1 contiene 3 livelli, la Fase 2 ne contiene 6 e la Fase 3 ne 12.
I 3 livelli dello Stage 1 diventano i primi 3 livelli dello Stage 2.
Allo stesso modo, i 6 livelli della Fase 2 diventano i primi 6 della Fase 3.

Vedi anche pipelining.

state

#fundamentals

Un algoritmo di discesa del gradiente in cui la dimensione del batch è pari a uno. In altre parole, SGD si addestra su un singolo esempio scelto in modo uniforme in modo casuale da un set di addestramento.

stride

#image

In un'operazione convoluzionale o in un pool, il delta in ogni dimensione della successiva serie di sezioni di input. Ad esempio, la seguente animazione mostra un passo (1,1) durante un'operazione convoluzionale. Di conseguenza, la sezione di input successiva inizia una posizione a destra della sezione di input precedente. Quando l'operazione raggiunge il bordo destro, la sezione successiva è completamente a sinistra, ma una posizione verso il basso.

L'esempio precedente mostra un passo bidimensionale. Se la matrice di input è tridimensionale, anche il passo sarà tridimensionale.

minimizzazione del rischio strutturale (SRM)

Un algoritmo che bilancia due obiettivi:

La necessità di creare il modello più predittivo (ad esempio, la perdita più bassa).
La necessità di mantenere il modello il più semplice possibile (ad esempio, una forte regolarizzazione).

Ad esempio, una funzione che minimizza la perdita e la regolarizzazione sul set di addestramento è un algoritmo di minimizzazione del rischio strutturale.

Mettersi a confronto con la minimizzazione empirica del rischio.

sottocampionamento

#image

Consulta la sezione pooling.

token della sottoparola

#language

Nei modelli linguistici, un token è una sottostringa di una parola, che può essere l'intera parola.

Ad esempio, una parola come "itemize" potrebbe essere suddivisa in parti "item" (una parola radice) e "ize" (un suffisso), ciascuna delle quali è rappresentata dal proprio token. La suddivisione di parole non comuni in parti di questo tipo, chiamate sottoparole, consente ai modelli linguistici di operare sulle parti costitutive più comuni della parola, come prefissi e suffissi.

Al contrario, parole comuni come "Vai" potrebbero non essere suddivise e potrebbero essere rappresentate da un singolo token.

riepilogo

#TensorFlow

In TensorFlow, un valore o un insieme di valori calcolati in un determinato passaggio, solitamente utilizzato per monitorare le metriche del modello durante l'addestramento.

machine learning supervisionato

#fundamentals

Addestramento di un model da model e model corrispondenti. Il machine learning supervisionato è simile all'apprendimento di un argomento studiando una serie di domande e le risposte corrispondenti. Dopo aver imparato a padroneggiare la mappatura tra domande e risposte, lo studente può fornire risposte a domande nuove (mai viste prima) sullo stesso argomento.

Confronta con il machine learning non supervisionato.

caratteristica sintetica

#fundamentals

Una caratteristica non presente tra le caratteristiche di input, ma assemblata da una o più di queste. I metodi per creare caratteristiche sintetiche includono quanto segue:

Bucketing di una funzionalità continua in fasce di intervallo.
Creare un incrocio di caratteristiche.
Moltiplicare (o dividere) un valore della caratteristica per altri valori della caratteristica o per se stesso. Ad esempio, se a e b sono caratteristiche di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- ab
- A²
Applicazione di una funzione trascendentale a un valore di caratteristica. Ad esempio, se c è una funzionalità di input, di seguito sono riportati alcuni esempi di caratteristiche sintetiche:
- sin(c)
- ln(c)

Le caratteristiche create da sole tramite la normalizzazione o la scalabilità non sono considerate caratteristiche sintetiche.

T

T5

#language

Un modello transfer learning da testo a testo introdotto dall' IA di Google nel 2020. T5 è un modello encoder-decoder basato sull'architettura Transformer, addestrato su un set di dati estremamente grande. È efficace per una varietà di attività di elaborazione del linguaggio naturale, come la generazione di testi, la traduzione di lingue e la risposta alle domande in modo colloquiale.

T5 prende il nome dalle cinque "T" in "Text-to-Text Transfer Transformer".

T5X

#language

Un framework di machine learning open source progettato per creare e addestrare modelli di elaborazione del linguaggio naturale (NLP) su larga scala. T5 è implementato sul codebase T5X (che è basato su JAX e Flax).

Q-learning tabulare

#rl

Nel apprendimento per rinforzo, implementa Q-learning utilizzando una tabella in cui archiviare le funzioni Q per ogni combinazione di stato e azione.

target

Sinonimo di label.

rete di destinazione

#rl

In Deep Q-learning, si tratta di una rete neurale che rappresenta un'approssimazione stabile della rete neurale principale, in cui quest'ultima implementa una funzione Q o un criterio. Quindi, puoi addestrare la rete principale sui valori Q previsti dalla rete di destinazione. Di conseguenza, eviterai il ciclo di feedback che si verifica quando la rete principale addestra i valori Q previsti da sola. Evitando questo feedback, aumenta la stabilità dell'addestramento.

attività

Un problema che può essere risolto utilizzando tecniche di machine learning come:

temperatura

#language

#image

#IAgenerativa

Un iperparametro che controlla il grado di casualità dell'output di un modello. Temperature più alte generano un output più casuale, mentre temperature più basse generano un output meno casuale.

La scelta della temperatura migliore dipende dall'applicazione specifica e dalle proprietà preferite dell'output del modello. Ad esempio, probabilmente aumenteresti la temperatura quando crei un'applicazione che genera un output creativo. Al contrario, probabilmente abbasseresti la temperatura quando crei un modello che classifica immagini o testo per migliorarne l'accuratezza e la coerenza del modello.

#TensorFlow

Il numero totale di scalari contenuti in un Tensor. Ad esempio, un Tensor [5, 10] ha una dimensione di 50.

TensorStore

Una libreria per leggere e scrivere in modo efficiente grandi array multidimensionali.

condizione di risoluzione

#rl

Nel rinforzamento, le condizioni che determinano il termine di un'episodio, ad esempio quando l'agente raggiunge un determinato stato o supera una soglia numero di transizioni di stato. Ad esempio, nel caso del tris (noto anche come nullità), un episodio termina quando un giocatore contrassegna tre spazi consecutivi o quando sono contrassegnati tutti gli spazi.

test

#df

In un albero decisionale, un altro nome di una condizione.

perdita di test

#fundamentals

Una metrica che rappresenta la perdita di un modello rispetto al set di test. Quando crei un model, in genere cerchi di ridurre al minimo la perdita di test. Questo perché una perdita di test bassa è un indicatore di qualità più forte di una bassa perdita di addestramento o una bassa perdita di convalida.

Un grande divario tra perdita di test e perdita di addestramento o perdita di convalida a volte suggerisce che sia necessario aumentare la tasso di regolarizzazione.

set di test

Un sottoinsieme del set di dati riservato per il test di un modello addestrato.

Tradizionalmente, gli esempi di un set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

Ogni esempio in un set di dati deve appartenere solo a uno dei sottoinsiemi precedenti. Ad esempio, un singolo esempio non dovrebbe appartenere sia al set di addestramento sia al set di test.

Il set di addestramento e il set di convalida sono entrambi strettamente legati all'addestramento di un modello. Poiché il set di test è associato solo indirettamente all'addestramento, la perdita nei test è una metrica meno differenziata e di qualità superiore rispetto alla perdita di addestramento o alla perdita di convalida.

intervallo di testo

#language

L'intervallo di indice dell'array associato a una sottosezione specifica di una stringa di testo. Ad esempio, la parola good nella stringa Python s="Be good now" occupa l'intervallo di testo da 3 a 6.

tf.Example

#TensorFlow

Un buffer di protocollo standard per descrivere i dati di input per l'addestramento o l'inferenza del modello di machine learning.

tf.keras

#TensorFlow

Un'implementazione di Keras integrata in TensorFlow.

soglia (per gli alberi decisionali)

#df

In una condizione allineata all'asse, il valore con cui viene confrontata una caratteristica. Ad esempio, 75 è il valore di soglia nella seguente condizione:

grade >= 75

analisi delle serie temporali

#clustering

È un campo secondario del machine learning e della statistica che analizza i dati temporali. Molti tipi di problemi di machine learning richiedono l'analisi di serie temporali, tra cui classificazione, clustering, previsione e rilevamento di anomalie. Ad esempio, puoi utilizzare l'analisi delle serie temporali per prevedere le vendite future di cappotti invernali in base ai dati di vendita storici.

passo temporale

#seq

Una cella "non arrotolata" all'interno di una rete neurale ricorrente. Ad esempio, la figura seguente mostra tre fasi temporali (etichettate con i pedici t-1, t e t+1):

Tre passi temporali in una rete neurale ricorrente. L'output del primo passo temporale diventa l'input del secondo passo temporale. L'output del secondo passo temporale diventa l'input del terzo passo temporale.

token

#language

In un modello linguistico, l'unità atomica su cui il modello viene addestrato e in base a cui esegue previsioni. Un token è in genere uno dei seguenti:

parola, ad esempio "i cani come i gatti" sono costituiti da tre token: "cani", "mi piace" e "gatti".
o un carattere, ad esempio la frase "pesce bici" è composta da nove token. Tieni presente che lo spazio vuoto viene conteggiato come uno dei token.
sottoparole in cui una singola parola può essere un singolo token o più token. Una sottoparola è composta da una parola radice, un prefisso o un suffisso. Ad esempio, un modello linguistico che utilizza le sottoparole come token potrebbe visualizzare la parola "cani" come due token (la parola radice "cane" e il suffisso plurale "s"). Lo stesso modello linguistico potrebbe considerare la singola parola "più alta" come due sottoparole (la parola principale "tall" e il suffisso "er").

#fundamentals

Il processo di determinazione dei parametri ideali (ponderazioni e bias) che comprende un modello. Durante l'addestramento, un sistema legge gli esempi e regola gradualmente i parametri. L'addestramento utilizza ogni esempio ovunque, da alcune a miliardi di volte.

perdita di addestramento

#fundamentals

Una metrica che rappresenta la perdita di un modello durante una particolare iterazione di addestramento. Ad esempio, supponiamo che la funzione di perdita sia Squadrato medio. Forse la perdita di addestramento (errore quadratico medio) per la decima iterazione è 2,2 e la perdita di addestramento per la centesima iterazione è 1,9.

Una curva di perdita traccia la perdita di addestramento rispetto al numero di iterazioni. Una curva di perdita fornisce i seguenti suggerimenti sull'addestramento:

Una pendenza verso il basso implica che il modello sta migliorando.
Una pendenza verso l'alto implica che il modello sta peggiorando.
Una pendenza piatta implica che il modello ha raggiunto la convergenza.

Ad esempio, viene mostrata la seguente curva di perdita alquanto idealizzata:

Una ripida pendenza verso il basso durante le iterazioni iniziali, che implica un rapido miglioramento del modello.
Un'inclinazione graduale (ma sempre verso il basso) fino al termine dell'addestramento, il che implica il miglioramento continuo del modello a un ritmo un po' più lento rispetto alle iterazioni iniziali.
Una pendenza piatta verso la fine dell'addestramento, che suggerisce la convergenza.

Il grafico della perdita di addestramento e delle iterazioni. Questa curva di perdita inizia con una ripida pendenza verso il basso. La pendenza si appiattisce gradualmente finché la pendenza non diventa zero.

Sebbene la perdita dell'addestramento sia importante, vedi anche la generalizzazione.

disallineamento addestramento/produzione

#fundamentals

La differenza tra le prestazioni di un modello durante l'addestramento e le prestazioni dello stesso modello durante la pubblicazione.

set di addestramento

#fundamentals

Il sottoinsieme del set di dati utilizzato per addestrare un modello.

Tradizionalmente, gli esempi nel set di dati sono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
Un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Un singolo esempio non dovrebbe appartenere sia al set di addestramento sia al set di convalida.

traiettoria

#rl

Nel reinforcement learning, una sequenza di tuple che rappresentano una sequenza di transizioni di stato dell'agente, in cui ogni tupla corrisponde allo stato, all'azione, ricompensa e allo stato successivo per una determinata transizione di stato.

Transfer Learning

Trasferimento di informazioni da un'attività di machine learning a un'altra. Ad esempio, nell'apprendimento multitasking, un singolo modello risolve più attività, ad esempio un modello profondo con nodi di output diversi per attività diverse. Il Transfer Learning potrebbe comportare il trasferimento della conoscenza da una soluzione più semplice a una più complessa, oppure il trasferimento di conoscenze da un'attività con più dati a una con meno dati.

La maggior parte dei sistemi di machine learning risolve una singola attività. Il Transfer Learning è un piccolo passo verso l'intelligenza artificiale in cui un singolo programma può risolvere più attività.

Transformer

#language

Architettura di rete neurale sviluppata da Google che si basa su meccanismi di auto-attenzione per trasformare una sequenza di incorporamenti di input in una sequenza di incorporamenti di output senza fare affidamento su convoluzioni o reti neurali ricorrenti. Un Transformer può essere visto come uno stack di strati di auto-attenzione.

Un Transformer può includere uno qualsiasi dei seguenti elementi:

un encoder
un decoder
sia un encoder che un decoder

Un encoder trasforma una sequenza di incorporamenti in una nuova sequenza della stessa lunghezza. Un codificatore include N strati identici, ciascuno dei quali contiene due sottolivelli. Questi due sottolivelli vengono applicati a ciascuna posizione della sequenza di incorporamento di input, trasformando ogni elemento della sequenza in un nuovo incorporamento. Il primo livello secondario dell'encoder aggrega le informazioni da tutta la sequenza di input. Il secondo sottolivello dell'encoder trasforma le informazioni aggregate in un incorporamento di output.

Un decoder trasforma una sequenza di incorporamenti di input in una sequenza di incorporamenti di output, possibilmente con una lunghezza diversa. Un decoder include anche N strati identici con tre sottostrati, due dei quali sono simili ai sottolivelli dell'encoder. Il terzo sottolivello del decoder prende l'output dell'encoder e applica il meccanismo di auto-attenzione per raccogliere informazioni da quest'ultimo.

Il blog post Transformer: A Novel Neural Network Architecture for Language Understanding fornisce un'introduzione utile ai trasformatori.

invarianza traslazionale

#image

In un problema di classificazione delle immagini, la capacità di un algoritmo di classificare correttamente le immagini anche quando la posizione degli oggetti all'interno dell'immagine cambia. Ad esempio, l'algoritmo può comunque identificare un cane, sia che si trovi al centro o all'estremità sinistra del frame.

Vedi anche invarianza di dimensione e invarianza di rotazione.

trigramma

#seq

#fundamentals

Produzione di un model con scarsa capacità predittiva perché il modello non ha acquisito completamente la complessità dei dati di addestramento. Molti problemi possono causare l'underfitting, tra cui:

Addestramento con l'insieme errato di funzionalità.
Addestramento per un numero troppo basso di epoche o un tasso di apprendimento troppo basso.
Addestramento con una tasso di regolarizzazione troppo elevata.
Fornire un numero insufficiente di strati nascosti in una rete neurale profonda.

sottocampionamento

Rimuovere gli esempi dalla classe di maggioranza in un set di dati class-imbalanced per creare un set di addestramento più bilanciato.

Ad esempio, considera un set di dati in cui il rapporto tra la classe di maggioranza e la classe di minoranza è 20:1. Per ovviare a questo squilibrio di classe, potresti creare un set di addestramento composto da tutti gli esempi delle classi di minoranze, ma solo da un decimo di quelli delle classi maggiori, in modo da creare un rapporto delle classi del set di addestramento pari a 2:1. Grazie al sottocampionamento, questo set di addestramento più equilibrato potrebbe produrre un modello migliore. In alternativa, questo set di addestramento più equilibrato potrebbe contenere esempi insufficienti per addestrare un modello efficace.

Confrontare con il sovracampionamento.

unidirezionale

#language

Un sistema che valuta solo il testo che precede una sezione di testo target. Al contrario, un sistema bidirezionale valuta sia il testo che precede e segue una sezione di testo di destinazione. Per ulteriori dettagli, consulta la sezione bidirezionale.

modello linguistico unidirezionale

#language

Un modello linguistico che basa le sue probabilità solo sui token visualizzati prima, non dopo dei token di destinazione. Confrontare con il modello linguistico bidirezionale.

esempio senza etichetta

#fundamentals

Un esempio contenente le caratteristiche, ma senza un'etichetta. Ad esempio, la tabella seguente mostra tre esempi non etichettati di un modello di valutazione delle case, ciascuno con tre caratteristiche, ma senza alcun valore della casa:

Numero di camere	Numero di bagni	Età della casa
3	2	15
2	1	72
4	2	34

Nel machine learning supervisionato, i modelli vengono addestrati sulla base di esempi etichettati e fanno previsioni su esempi non etichettati.

Nell'apprendimento semi-supervisionato e non supervisionato, durante l'addestramento vengono utilizzati esempi non etichettati.

Confronta l'esempio senza etichetta con l'esempio con etichetta.

machine learning non supervisionato

#clustering

#fundamentals

Addestramento di un model per trovare pattern in un set di dati, in genere un set di dati senza etichetta.

Il machine learning non supervisionato viene utilizzato più comunemente per raggruppare i dati in gruppi di esempi simili. Ad esempio, un algoritmo di machine learning non supervisionato può raggruppare i brani in base a varie proprietà della musica. I cluster risultanti possono diventare un input per altri algoritmi di machine learning (ad esempio per un servizio di suggerimenti musicali). Il clustering può essere utile quando le etichette utili sono scarse o assenti. Ad esempio, in ambiti come anti-abuso e attività fraudolente, i cluster possono aiutare gli esseri umani a comprendere meglio i dati.

Effettuare il confronto con il machine learning supervisionato.

Fai clic sull'icona per visualizzare altre note.

Un altro esempio di machine learning non supervisionato è l'analisi delle componenti principali (PCA). Ad esempio, l'applicazione della PCA su un set di dati contenente i contenuti di milioni di carrelli degli acquisti potrebbe rivelare che i carrelli degli acquisti contenenti limoni spesso contengono anche antiacidi.

modellazione dell'incremento

Tecnica di modellazione, comunemente utilizzata nel marketing, che modella l'"effetto causale" (noto anche come "impatto incrementale") di un "trattamento" su un "individuo". Ecco due esempi:

I medici potrebbero utilizzare il modello di incremento per prevedere la diminuzione della mortalità (effetto causale) di una procedura medica (trattamento) in base all'età e alla storia medica di un paziente (individuo).
I professionisti del marketing potrebbero utilizzare la definizione del modello di incremento per prevedere l'aumento della probabilità di un acquisto (effetto causale) dovuto a una pubblicità (trattamento) su una persona (individuo).

La modellazione dell'incremento è diversa dalla classificazione o dalla regressione per il fatto che alcune etichette (ad esempio, la metà delle etichette nei trattamenti binari) mancano sempre nella modellazione dell'incremento. Ad esempio, un paziente può ricevere o meno un trattamento; pertanto, possiamo solo osservare se guarirà o se guarirà solo in una di queste due situazioni (ma mai in entrambe). Il vantaggio principale di un modello di incremento è che può generare previsioni per la situazione non osservata (controfattuale) e utilizzarla per calcolare l'effetto causale.

ponderazione

Applicazione di una ponderazione alla classe downsampled uguale al fattore in base al quale è stato eseguito il sottocampionamento.

matrice utente

#recsystems

Nei sistemi di suggerimenti, si tratta di un vettore di incorporamento generato dalla fattorizzazione matriciale che contiene indicatori latenti sulle preferenze dell'utente. Ogni riga della matrice utente contiene informazioni sulla forza relativa dei vari indicatori latenti per un singolo utente. Ad esempio, considera un sistema di consigli sui film. In questo sistema, gli indicatori latenti nella matrice utente potrebbero rappresentare l'interesse di ciascun utente per generi specifici o potrebbero essere indicatori più difficili da interpretare che comportano interazioni complesse su più fattori.

La matrice utente ha una colonna per ogni caratteristica latente e una riga per ogni utente. In altre parole, la matrice utente ha lo stesso numero di righe della matrice target che viene fattorizzata. Ad esempio, dato un sistema di suggerimenti sui film per 1.000.000 di utenti, la matrice utente avrà 1.000.000 di righe.

V

validation

#fundamentals

La valutazione iniziale della qualità di un modello. La convalida controlla la qualità delle previsioni di un modello rispetto al set di convalida.

Poiché il set di convalida è diverso dal set di addestramento, la convalida aiuta a prevenire l'overfitting.

La valutazione del modello rispetto al set di convalida è il primo ciclo di test e la valutazione del modello rispetto al set di test come seconda fase di test.

perdita di convalida

#fundamentals

Una metrica che rappresenta la perdita di un modello nel set di convalida durante una determinata iterazione dell'addestramento.

Vedi anche la curva di generalizzazione.

set di convalida

#fundamentals

Il sottoinsieme del set di dati che esegue la valutazione iniziale rispetto a un modello addestrato. In genere, il modello addestrato viene valutato diverse volte rispetto al set di convalida prima di valutarlo rispetto al set di test.

Tradizionalmente, gli esempi nel set di dati vengono suddivisi nei seguenti tre sottoinsiemi distinti:

un set di addestramento
un set di convalida
Un set di test

Idealmente, ogni esempio nel set di dati dovrebbe appartenere solo a uno dei sottoinsiemi precedenti. Un singolo esempio non dovrebbe appartenere sia al set di addestramento sia al set di convalida.

imputazione del valore

Procedura di sostituzione di un valore mancante con un valore sostitutivo accettabile. Quando manca un valore, puoi ignorare l'intero esempio oppure utilizzare l'imputazione del valore per salvare l'esempio.

Ad esempio, considera un set di dati contenente una caratteristica temperature che si prevede venga registrata ogni ora. Tuttavia, la lettura della temperatura non era disponibile per un'ora specifica. Ecco una sezione del set di dati:

Timestamp	Temperatura
1680561000	10
1680564600	12
1680568200	mancante
1680571800	20
1680575400	21
1680579000	21

Un sistema potrebbe eliminare l'esempio mancante o attribuire la temperatura mancante a 12, 16, 18 o 20, a seconda dell'algoritmo di imputazione.

problema della scomparsa del gradiente

#seq

La tendenza dei gradienti dei primi strati nascosti di alcune reti neurali profonde a diventare stranamente piatti (bassa). Gradienti sempre più bassi si traducono in modifiche sempre più piccole delle ponderazioni sui nodi in una rete neurale profonda, con un conseguente apprendimento scarso o nullo. I modelli che presentano il problema del gradiente di scomparsa diventano difficili o impossibili da addestrare. Le celle di memoria a breve termine a lungo termine risolvono questo problema.

Confronta con il problema del gradiente con esplosione.

importanza delle variabili

#df

Un insieme di punteggi che indica l'importanza relativa di ogni caratteristica per il modello.

Ad esempio, considera un albero decisionale che stima i prezzi delle abitazioni. Supponiamo che questo albero decisionale utilizzi tre caratteristiche: dimensione, età e stile. Se viene calcolato un insieme di livelli di importanza variabile per le tre caratteristiche: {size=5.8, age=2.5, style=4.7}, la dimensione è più importante per l'albero decisionale rispetto all'età o allo stile.

Esistono diverse metriche di importanza delle variabili, che possono informare gli esperti di ML sui diversi aspetti

autoencoder variazionale (VAE)

#language

Un tipo di autoencoder che sfrutta le discrepanze tra input e output per generare versioni modificate degli input. Gli autoencoder variazionali sono utili per l'IA generativa.

Le VAE si basano sull'inferenza variazionale, una tecnica per stimare i parametri di un modello di probabilità.

vettoriale

Termine molto sovraccarico il cui significato varia a seconda dei campi matematici e scientifici. Nel machine learning, un vettore ha due proprietà:

Tipo di dati: i vettori nel machine learning di solito contengono numeri in virgola mobile.
Numero di elementi: la lunghezza o la dimensione del vettore.

Ad esempio, consideriamo un vettore di caratteristiche che contiene otto numeri in virgola mobile. Questo vettore di caratteristiche ha una lunghezza o una dimensione di otto. Tieni presente che i vettori di machine learning hanno spesso un numero enorme di dimensioni.

È possibile rappresentare come vettori molti tipi diversi di informazioni. Ad esempio:

Qualsiasi posizione sulla superficie terrestre può essere rappresentata come un vettore bidimensionale, in cui una dimensione è la latitudine e l'altra la longitudine.
I prezzi attuali di ognuna delle 500 azioni possono essere rappresentati come un vettore a 500 dimensioni.
Una distribuzione di probabilità per un numero finito di classi può essere rappresentata come un vettore. Ad esempio, un sistema di classificazione multiclasse che prevede uno dei tre colori di output (rosso, verde o giallo) potrebbe restituire il vettore (0.3, 0.2, 0.5) per indicare P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

I vettori possono essere concatenati; di conseguenza, una varietà di elementi multimediali diversi può essere rappresentata come un singolo vettore. Alcuni modelli operano direttamente sulla concatenazione di molte codifiche one-hot.

I processori specializzati come le TPU sono ottimizzati per eseguire operazioni matematiche sui vettori.

Un vettore è un tensore di ranking 1.

M

Perdita di Wasserstein

Una delle funzioni di perdita comunemente utilizzate nelle reti generative avversarie, in base alla distanza del trasloco tra la distribuzione dei dati generati e dei dati reali.

weight

#fundamentals

Un valore moltiplicato da un modello per un altro valore. L'addestramento è il processo di determinazione dei pesi ideali di un modello. L'inferenza è il processo che utilizza i pesi appresi per fare previsioni.

Fai clic sull'icona per visualizzare un esempio di ponderazioni in un modello lineare.

Immagina un modello lineare con due caratteristiche. Supponiamo che l'addestramento determini i seguenti pesi (e pregiudizi):

Il bias, b, ha un valore di 2,2
Il peso, w₁ associato a una caratteristica è 1,5.
Il peso, w₂ associato all'altra caratteristica è 0,4.

Ora immagina un esempio con i seguenti valori delle caratteristiche:

Il valore di una caratteristica, x₁, è 6.
Il valore dell'altra caratteristica, x₂, è 10.

Questo modello lineare utilizza la seguente formula per generare una previsione, y':

$$y' = b + w_1x_1 + w_2x_2$$

Di conseguenza, la previsione:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se una ponderazione è pari a 0, la caratteristica corrispondente non contribuisce al modello. Ad esempio, se w₁ è 0, il valore di x₁ è irrilevante.

Alternativa ponderata (WALS)

#recsystems

Un algoritmo per ridurre al minimo la funzione obiettivo durante la fattorizzazione matriciale nei sistemi di suggerimenti, che consente un downgrade degli esempi mancanti. WALS minimizza l'errore quadratico ponderato tra la matrice originale e la ricostruzione, alternando tra la correzione della fattorizzazione riga e la fattorizzazione delle colonne. Ognuna di queste ottimizzazioni può essere risolta tramite l'ottimizzazione convessa utilizzando i minimi quadrati. Per maggiori dettagli, consulta il corso su Recommendations Systems.

somma ponderata

#fundamentals

La somma di tutti i valori di input pertinenti moltiplicati per le ponderazioni corrispondenti. Ad esempio, supponiamo che gli input pertinenti siano costituiti da quanto segue:

valore di input	peso inserito
2	-1,3
-1	0,6
3	0,4

La somma ponderata è quindi:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Una somma ponderata è l'argomento di input di una funzione di attivazione.

modello Wide

Un modello lineare che in genere ha molte caratteristiche di input sparse. Questo modello è un tipo speciale di rete neurale con un gran numero di input che si connettono direttamente al nodo di output. I modelli Wide sono spesso più facili da eseguire il debug e l'ispezione rispetto ai modelli Deep. Sebbene i modelli Wide non possano esprimere la non linearità tramite gli strati nascosti, i modelli Wide possono utilizzare trasformazioni come incrocio di caratteristiche e bucketing per modellare le non linearità in modi diversi.

Contrasta con il modello profondo.

larghezza

Il numero di neuroni in un determinato strato di una rete neurale.

saggezza della folla

#df

L'idea che la media delle opinioni o delle stime di un ampio gruppo di persone ("la folla") spesso produce risultati sorprendenti. Prendiamo come esempio un gioco in cui le persone indovinano il numero di caramelle gommose imballate in un barattolo grande. Anche se la maggior parte delle convinzioni individuali sarà imprecisa, è stato dimostrato empiricamente che la media di tutte le ipotesi è sorprendentemente vicina al numero effettivo di caramelle gommose nel barattolo.

Gli insiemi sono un analogo del software alla saggezza della folla. Anche se i singoli modelli fanno previsioni molto imprecise, la media delle previsioni di molti modelli spesso genera previsioni sorprendentemente positive. Ad esempio, anche se un singolo albero decisionale potrebbe fare previsioni scadenti, una foresta decisionale spesso fa previsioni molto buone.

incorporamento di parole

#language

Rappresentazione di ogni parola di un insieme di parole all'interno di un vettore di incorporamento, ovvero la rappresentazione di ogni parola come vettore di valori in virgola mobile compresi tra 0,0 e 1,0. Le parole con significati simili hanno rappresentazioni più simili di quelle con significati diversi. Ad esempio, carote, sedano e cetrioli avrebbero tutti rappresentazioni relativamente simili, che sarebbero molto diverse da quelle di aereo, occhiali da sole e dentifricio.

X

XLA (Accelerated Linear Algebra)

Un compilatore open source di machine learning per GPU, CPU e acceleratori ML.

Il compilatore XLA prende i modelli dai framework ML più diffusi, come PyTorch, TensorFlow e JAX, e li ottimizza per l'esecuzione ad alte prestazioni su diverse piattaforme hardware, tra cui GPU, CPU e acceleratori ML.

Z

apprendimento zero-shot

Un tipo di addestramento di machine learning in cui il modello deduce una previsione per un'attività su cui non è stato già addestrato in modo specifico. In altre parole, al modello non vengono forniti esempi di addestramento specifici per le attività, ma viene chiesto di eseguire l'inferenza per quell'attività.

Prompt zero-shot

#language

#IAgenerativa

Un prompt che non fornisce un esempio di come vuoi che il modello linguistico di grandi dimensioni risponda. Ad esempio:

Parti di un prompt	Note
`Qual è la valuta ufficiale del paese specificato?`	La domanda a cui vuoi che l'LLM risponda.
`India:`	La query effettiva.

Il modello linguistico di grandi dimensioni (LLM) potrebbe rispondere con uno dei seguenti elementi:

Rupia
INR
₹
Rupia indiana
La rupia
Rupia indiana

Tutte le risposte sono corrette, anche se potresti preferire un formato particolare.

Confronta e contrapponi i prompt zero-shot con i seguenti termini:

Normalizzazione del punteggio z

#fundamentals

Una tecnica di scalabilità che sostituisce un valore feature non elaborato con un valore in virgola mobile che rappresenta il numero di deviazioni standard dalla media di quella caratteristica. Ad esempio, considera una caratteristica la cui media è 800 e la cui deviazione standard è 100. La tabella seguente mostra in che modo la normalizzazione dello Z-score mappa il valore non elaborato al relativo Z-score:

Valore non elaborato	Punteggio z
800	0
950	+1,5
575	-2,25

Il modello di machine learning viene quindi addestrato in base ai punteggi Z per la caratteristica anziché ai valori non elaborati.