Ta strona została przetłumaczona przez Cloud Translation API.

Słowniczek systemów uczących się

Ten glosariusz zawiera ogólne terminy związane z systemami uczącymi się oraz terminy związane z TensorFlow.

A

ablacja

Technika oceny znaczenia funkcji lub komponentu przez tymczasowe usunięcie jej z modelu. Następnie trenujesz model ponownie bez tej funkcji lub komponentu. Jeśli po wytrenowaniu model osiąga znacznie gorsze wyniki, oznacza to, że usunięta funkcja lub komponent były prawdopodobnie ważne.

Załóżmy np., że wytrenujesz model klasyfikacji na 10 funkcjach i uzyskasz precyzję 88% w zbiorze testowym. Aby sprawdzić ważność pierwszej cechy, możesz ponownie wytrenować model, używając tylko 9 innych funkcji. Jeśli model ponownie wytrenowany osiąga znacznie gorsze wyniki (np. precyzję na poziomie 55%), oznacza to, że usunięta funkcja była prawdopodobnie ważna. Jeśli natomiast po wytrenowaniu model ma taką samą skuteczność, ta funkcja prawdopodobnie nie była aż tak ważna.

Ablacja może również pomóc określić znaczenie:

większe komponenty, np. cały podsystem większego systemu ML.
procesy lub techniki, np. etap wstępnego przetwarzania danych

W obu przypadkach można obserwować, jak zmienia się (lub nie zmienia) wydajność systemu po usunięciu komponentu.

Testy A/B

Statystyczny sposób porównywania dwóch (lub więcej) technik – A i B. Zazwyczaj A oznacza istniejącą metodę, a B to nowa. Testy A/B pozwalają nie tylko określić, która metoda jest skuteczniejsza, ale też czy różnica jest istotna statystycznie.

Testy A/B zwykle porównują jeden rodzaj danych z 2 metod, np. jak wypada porównanie dokładności modelu w przypadku 2 metod? Testy A/B mogą też jednak porównywać dowolną skończoną liczbę danych.

układ akceleratora

#GoogleCloud

Kategoria wyspecjalizowanych komponentów sprzętowych, które służą do wykonywania kluczowych obliczeń potrzebnych algorytmom deep learning.

Układy akceleratora (w skrócie tylko akceleratory) mogą znacznie zwiększyć szybkość i wydajność zadań trenowania i wnioskowania w porównaniu z procesorami ogólnego przeznaczenia. Są idealne do trenowania sieci neuronowych i podobnych zadań wymagających dużej mocy obliczeniowej.

Przykłady układów akceleratora:

Jednostki Tensor Processing Unit (TPU) od Google ze specjalnym sprzętem do deep learningu.
Procesory graficzne NVIDIA, które chociaż początkowo były zaprojektowane do przetwarzania grafiki, mają umożliwiać przetwarzanie równoległe, co może znacznie zwiększyć szybkość przetwarzania.

dokładność

#fundamentals

Liczba prognoz poprawnych klasyfikacji podzielona przez łączną liczbę prognoz. Czyli:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Na przykład model, który dokonał 40 poprawnych prognoz i 10 nieprawidłowych prognoz, miał dokładność:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Klasyfikacja plików binarnych nadaje konkretne nazwy różnym kategoriom poprawnych prognoz i niepoprawnych prognoz. Wzór dokładności klasyfikacji binarnej wygląda więc tak:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

gdzie:

TP to liczba prawdziwie pozytywnych prognoz (prawidłowych prognoz).
TN to liczba wartości prawdziwie negatywnych (prawidłowych prognoz).
FP to liczba fałszywie pozytywnych wyników (niepoprawnych prognoz).
FN to liczba wyników fałszywie negatywnych (niepoprawnych prognoz).

Wskaż podobieństwa i różnice między dokładnością i precyzją oraz czułością.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Chociaż w niektórych sytuacjach dane te są istotne, w innych przypadkach może wprowadzać w błąd. Warto zauważyć, że dokładność jest zwykle mało słabym wskaźnikiem do oceny modeli klasyfikacji, które przetwarzają zbiory danych o niezbalansowanej klasie.

Załóżmy na przykład, że w danym subtropikalnym mieście śnieżnie pada tylko przez 25 dni na stulecia. Ponieważ liczba dni bez śniegu (klasa ujemna) znacznie przewyższa liczbę dni ze śniegiem (klasa pozytywna), zbiór danych o śnie dla tego miasta jest nierównoważony. Wyobraź sobie model klasyfikacji binarnej, który powinien przewidywać codziennie śnieg lub jego brak, ale prognozuje po prostu „brak śniegu”. Ten model jest bardzo dokładny, ale nie ma mocy prognozowania. Poniższa tabela zawiera podsumowanie wyników dla stulecia prognoz:

Kategoria	Liczby
PP	0
PN	36500
FP	25
FN	0

Dokładność tego modelu jest w związku z tym:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Chociaż dokładność na poziomie 99,93% wydaje się imponująca wartość procentowa, model w rzeczywistości nie ma mocy przewidywania.

Precyzja i czułość są zwykle bardziej przydatnymi wskaźnikami niż dokładność do oceny modeli wytrenowanych na zbiorach danych z niezbilansowaną klasą.

działaniu

#rl

We uczeniu przez wzmacnianie jest to mechanizm, w którym agent przechodzi między stanami środowiska. Agent wybiera działanie za pomocą zasady.

funkcja aktywacji

#fundamentals

Funkcja, która umożliwia sieciom neuronowych poznawanie nieliniowych (złożonych) relacji między cechami a etykietą.

Do popularnych funkcji aktywacyjnych należą:

Wykresy funkcji aktywacyjnych nigdy nie są pojedynczymi liniami prostymi. Na przykład wykres funkcji aktywacji ReLU składa się z 2 linii prostych:

Wykres kartezjański składający się z dwóch wierszy. Pierwsza linia ma stałą wartość y równą 0 i biegnie wzdłuż osi X od -nieskończoność, 0 do 0,-0.
Druga linia zaczyna się od 0,0. Nachylenie tej linii wynosi +1, więc biegnie od 0,0 do +nieskończoności i nieskończoności.

Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Dwuwymiarowy, zakrzywiony wykres z wartościami x obejmującymi pole domeny -nieskończoność do +dodatniej, a wartości y – prawie od 0 do prawie 1. Gdy x to 0, y to 0,5. Nachylenie krzywej jest zawsze dodatnie, największe nachylenie wynosi 0,0,5 i stopniowo maleje wraz ze wzrostem wartości bezwzględnej x.

Kliknij ikonę, aby zobaczyć przykład.

W sieci neuronowej funkcje aktywacji manipulowają ważoną sumą wszystkich danych wejściowych względem neuronu. Aby obliczyć sumę ważoną, neuron sumuje iloczyn odpowiednich wartości i wag. Załóżmy np., że odpowiednie dane wejściowe dla neuronu składają się z tych elementów:

wartość wejściowa	waga wejściowa
2	–1,3
-1	0,6
3	0,4

Suma ważona jest w związku z tym:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Załóżmy, że projektant tej sieci neuronowej wybiera funkcję sigmoidalną jako funkcję aktywacji. W tym przypadku neuron oblicza sigmoidę z wartości -2,0, co daje około 0,12. W efekcie neuron przekazuje 0,12 (a nie -2,0) do następnej warstwy w sieci neuronowej. Poniższy rysunek przedstawia istotną część procesu:

aktywna nauka

Metoda trenowania, w której algorytm wybiera część danych, z których się uczy. Aktywne uczenie się jest szczególnie wartościowe, gdy przykłady oznaczone etykietami są rzadkie lub kosztowne. Zamiast ślepo szukać zróżnicowanych przykładów oznaczonych etykietami, aktywny algorytm selektywnie wyszukuje konkretny zakres przykładów potrzebnych mu do nauki.

AdaGrad

zaawansowany algorytm przesuwania gradientu, który przeskaluje gradienty każdego parametru, dzięki czemu każdy parametr ma osobną szybkość uczenia się. Pełne wyjaśnienie znajdziesz w tym dokumencie AdaGrad.

agent

#rl

W ramach uczenia przez wzmacnianie jednostka, która wykorzystuje zasadę do maksymalizacji przewidywanego zwrotu uzyskiwanego z przejścia między stanami środowiska.

Ogólnie agent to oprogramowanie, które samodzielnie planuje i wykonuje serię działań w ramach dążenia do realizacji celu oraz zdolność przystosowania się do zmian w środowisku. Na przykład agenci bazujący na LLM mogą używać tego LLM do generowania planu zamiast stosować zasady uczenia przez wzmacnianie.

grupowanie aglomeracyjne

#clustering

Zapoznaj się z informacjami na temat grupowania hierarchicznego.

wykrywanie anomalii

Proces identyfikowania wyjątków odstających. Jeśli na przykład średnia dla danej cechy to 100, a odchylenie standardowe 10, wykrywanie anomalii powinno oznaczyć wartość 200 jako podejrzaną.

AR

Skrót od terminu rzeczywistość rozszerzona.

powierzchnia pod krzywą PR

Zapoznaj się z sekcją PR AUC (obszar pod krzywą PR).

powierzchnia pod krzywą ROC

Patrz AUC (obszar pod krzywą ROC).

sztuczna inteligencja

To nieludzki mechanizm, który demonstruje szeroki zakres rozwiązywania problemów, kreatywności i elastyczności. Na przykład program prezentujący sztuczną inteligencję mógłby tłumaczyć tekst, komponować symfonie i doskonalić gry, które nie zostały jeszcze wymyślone.

sztuczna inteligencja

#fundamentals

Program lub model nieprzeznaczony dla ludzi, który potrafi rozwiązać złożone zadania. Na przykład program lub model do tłumaczenia tekstu, program lub model identyfikujący choroby na podstawie zdjęć radiowych mogą wykazywać sztuczną inteligencję.

Ogólnie rzecz biorąc, uczenie maszynowe jest jedną z gałęzi sztucznej inteligencji. Jednak w ostatnich latach niektóre organizacje zaczęły zamiennie używać terminów sztuczna inteligencja i systemy uczące się.

uwaga

#language

Mechanizm używany w sieci neuronowej, który wskazuje znaczenie określonego słowa lub jego części. Uwaga kompresuje ilość informacji, których model potrzebuje, aby przewidzieć następny token/słowo. Typowy mechanizm uwagi może składać się z sumy ważonej na zbiorze danych wejściowych, gdzie waga poszczególnych danych wejściowych jest obliczana przez inną część sieci neuronowej.

Zapoznaj się też z artykułami o autouważności i wielogłowej autouwaga, które stanowią elementy składowe Transformerów.

atrybut

#fairness

Synonim słowa funkcja.

W obiektywności systemów uczących się atrybuty często odnoszą się do cech dotyczących poszczególnych osób.

próbkowanie atrybutów

#df

Taktyka trenowania lasu decyzyjnego, w której każde drzewo decyzyjne podczas uczenia się warunku uwzględnia tylko losowy podzbiór możliwych cech. Ogólnie dla każdego węzła próbkowany jest inny podzbiór cech. Podczas trenowania drzewa decyzyjnego bez próbkowania atrybutów brane są pod uwagę wszystkie możliwe cechy w każdym węźle.

AUC (obszar pod krzywą ROC)

#fundamentals

Liczba z zakresu od 0,0 do 1,0 reprezentująca możliwość rozdzielenia klas pozytywnych od klas negatywnych przez model klasyfikacji binarnej. Im wartość AUC jest bliższa wartości 1,0, tym większa jest zdolność modelu do oddzielania klas od siebie.

Na przykład na ilustracji poniżej widać model klasyfikatora, który idealnie oddziela klasy pozytywne (zielone owale) od klas negatywnych (fioletowe prostokąty). Ten nierealistycznie idealny model ma wartość AUC wynoszącą 1,0:

Linia liczbowa z 8 przykładami dodatnimi po jednej stronie i 9 ujemnymi przykładami po drugiej.

I na odwrót – ilustracja poniżej pokazuje wyniki modelu klasyfikatora, który wygenerował wyniki losowe. Ten model ma wartość AUC wynoszącą 0,5:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
Sekwencja przykładów jest dodatnia, ujemna, dodatnia, ujemna, dodatnia, ujemna, dodatnia, ujemna, dodatnia, dodatnia, ujemna.

Tak, poprzedni model ma wartość AUC wynoszącą 0,5, a nie 0,0.

Większość modeli znajduje się gdzieś pomiędzy tymi dwoma skrajnościami. Na przykład ten model nieco oddziela wartości dodatnie od negatywnych i dlatego AUC mieści się w przedziale od 0, 5 do 1, 0:

Linia liczbowa z 6 przykładami dodatnimi i 6 ujemnymi.
Sekwencja przykładów jest ujemna, ujemna, ujemna, ujemna, dodatnia, ujemna, dodatnia, dodatnia, ujemna, dodatnia, dodatnia.

AUC ignoruje każdą wartość ustawioną jako próg klasyfikacji. Zamiast tego AUC uwzględnia wszystkie możliwe progi klasyfikacji.

Kliknij ikonę, aby dowiedzieć się więcej o zależności między krzywymi AUC i ROC.

AUC reprezentuje obszar pod krzywą wskaźnika RC. Na przykład krzywa ROC dla modelu, który idealnie oddziela wartości dodatnie od ujemnych, wygląda tak:

AUC to obszar szarego obszaru na poprzedniej ilustracji. W tym nietypowym przypadku obszar to długość szarego obszaru (1,0) pomnożona przez szerokość szarego obszaru (1,0). Iloczyn 1,0 i 1,0 daje więc wartość AUC wynoszącą dokładnie 1,0, co jest najwyższym możliwym wynikiem AUC.

I odwrotnie, krzywa ROC dla klasyfikatora, który w ogóle nie może rozdzielać klas, wygląda tak: Obszar tego szarego obszaru wynosi 0,5.

Bardziej typowa krzywa charakterystyki ROC wygląda mniej więcej tak:

Ręczne obliczanie pola pod tą krzywą byłoby trudne, dlatego program zwykle oblicza większość wartości AUC.

Kliknij ikonę, aby poznać bardziej formalną definicję AUC.

AUC to prawdopodobieństwo, że klasyfikator będzie miał większą pewność, że losowo wybrany przykład pozytywny jest w rzeczywistości pozytywny, niż że losowo wybrany przykład negatywny jest pozytywny.

rzeczywistość rozszerzona

#image

Technologia nakładająca komputer wygenerowany komputerowo na widok rzeczywistego świata w ten sposób zapewniająca widok złożony.

autokoder

#language

#image

System, który uczy się wyodrębniać najważniejsze informacje z danych wejściowych. Autokodery to połączenie kodera i dekodera. Autokodery opierają się na tym dwuetapowym procesie:

Koder mapuje dane wejściowe na (zwykle) stratny format mniejwymiarowy (przejściowy).
Dekoder tworzy stratną wersję pierwotnych danych wejściowych, mapując format o niższym rozmiarze na pierwotny, bardziej wymiarowy format wejściowy.

Autokodery są trenowane w pełni, tak by jak najwierniej zrekonstruować oryginalne dane wejściowe z formatu pośredniego kodera. Format pośredni jest mniejszy (mniej wymiarów) niż format oryginalny, więc autokoder musi nauczyć się, jakie informacje wejściowe są niezbędne, więc dane wyjściowe nie będą całkowicie identyczne.

Na przykład:

Jeśli dane wejściowe mają postać graficzną, ich kopia niedokładna byłaby podobna do oryginalnej grafiki, ale została nieco zmodyfikowana. Być może niedokładna kopia usuwa szum z oryginalnej grafiki lub wypełnia brakujące piksele.
Jeśli dane wejściowe to tekst, autokoder wygeneruje nowy tekst, który imituje oryginalny tekst (ale nie jest identyczny).

Zobacz też automatyczne kodery zmiennoprzecinkowe.

efekt automatyzacji

#fairness

Gdy człowiek preferuje rekomendacje generowane przez automatyczny system podejmowania decyzji zamiast informacji uzyskanych bez automatyzacji, nawet wtedy, gdy automatyczny system podejmujący decyzje popełnia błędy.

AutoML

Każdy zautomatyzowany proces tworzenia systemów uczących się modeli. AutoML może automatycznie wykonywać takie zadania jak:

Wyszukaj najbardziej odpowiedni model.
Dostosuj hiperparametry.
Przygotuj dane (w tym przeprowadzanie inżynierii funkcji).
wdrożyć utworzony model,

AutoML jest przydatna dla badaczy danych, ponieważ pozwala zaoszczędzić czas i wysiłek związany z tworzeniem potoków systemów uczących się oraz poprawić dokładność prognoz. Mogą z niej korzystać również osoby, które nie są ekspertami, ponieważ ułatwia im dostęp do skomplikowanych zadań systemów uczących się.

model autoregresywny

#language

#image

#generatywna AI

model, który szacuje prognozę na podstawie wcześniejszych prognoz. Na przykład automatycznie regresywne modele językowe prognozują kolejny token na podstawie wcześniej przewidywanych tokenów. Wszystkie duże modele językowe oparte na Transformerze są automatycznie regresywne.

W przeciwieństwie do tego modele obrazów oparte na GAN zwykle nie są autoregresywne, ponieważ generują obraz w jednym przebiegu do przodu, a nie iteracyjnie w krokach. Niektóre modele generowania obrazów są jednak automatycznie regresywne, ponieważ generują obraz stopniowo.

strata usługi pomocniczej

Funkcja straty wykorzystywana w połączeniu z funkcją głównej sieci neuronowej modelu ds. straty, która pomaga przyspieszyć trenowanie we wczesnych iteracjach, gdy wagi są inicjowane losowo.

Funkcje utraty pomocniczej przekazują efektywne gradienty do wcześniejszych warstw. Ułatwia to zgodność podczas trenowania, eliminując problem z znikaniem gradientu.

średnia precyzja

Dane służące do podsumowania skuteczności sekwencji wyników uporządkowanych według rankingu. Średnia precyzja jest obliczana na podstawie średniej wartości dokładności dla każdego odpowiedniego wyniku (każdy wynik na liście rankingowej, w której czułość zwiększa się w stosunku do poprzedniego wyniku).

Zobacz też Obszar pod krzywą PR.

warunek wyrównany do osi

#df

W drzewie decyzji warunek, który obejmuje tylko 1 funkcję. Jeśli na przykład obszar jest obiektem, to warunek wyrównany do osi:

area > 200

Różnica z warunkem skośnym.

B

wsteczne propagacja

#fundamentals

Algorytm, który stosuje zjawisko gradientu w sieciach neuronowych.

Trenowanie sieci neuronowej obejmuje wiele iteracji w następujących dwuprzebiegowych cyklach:

W trakcie przebiegu do przodu system przetwarza grupę przykładów w celu wygenerowania prognoz. System porównuje każdą prognozę z wartością etykiety. Różnica między prognozą a wartością etykiety to w tym przykładzie strata. System agreguje straty dla wszystkich przykładów, aby obliczyć łączną stratę dla bieżącego wsadu.
Podczas przebiegu wstecznego (propagacji wstecznej) system zmniejsza straty, dostosowując wagi wszystkich neuronów we wszystkich warstwach ukrytych.

Sieci neuronowe często zawierają wiele neuronów w wielu ukrytych warstwach. Każdy z tych neuronów przyczynia się do całkowitej utraty danych na różne sposoby. Propagacja wsteczna określa, czy należy zwiększyć, czy zmniejszyć waga poszczególnych neuronów.

Szybkość uczenia się jest mnożnikiem określającym stopień, w jakim każde przejście wstecz zwiększa lub zmniejsza każdą wagę. Duże tempo uczenia się zwiększa lub zmniejsza każdą wagę częściej niż małe tempo uczenia się.

W ramach rachunku rachunkowego to propagacja wsteczna implementuje regułę łańcucha z rachunku różniczkowego. Oznacza to, że przez propagację wsteczną oblicza częściową pochodną błędu z uwzględnieniem każdego parametru.

Wiele lat temu osoby zajmujące się systemami uczącymi się musiały pisać kod, aby wdrożyć propagację wsteczną. Nowoczesne interfejsy API systemów uczących się, takie jak TensorFlow, wdrażają propagację wsteczną. Uff...

bagaż

#df

Metoda trenowania zespołu, w którym każdy składnikowy model trenuje na losowym podzbiorze przykładów treningowych próbkowanych z zastąpieniem. Na przykład las losowy to zbiór drzew decyzyjnych wytrenowanych w zakresie bagażu.

Termin bagaż to skrót od bootstrap agging.

torba słów

#language

Reprezentacja słów w wyrażeniu lub pasażu, niezależnie od kolejności. Na przykład „worek słów” przedstawia identyczne 3 wyrażenia:

pies podskakuje
skaczący pies
pies skaczący

Każde słowo jest mapowane na indeks w wektorze rozproszonym, który ma swój indeks dla każdego słowa w słowniku. Na przykład wyrażenie pies skacze jest mapowane na wektor cech z wartościami niezerowymi w przypadku 3 indeksów odpowiadających słowom „pies”, pies i skoki. Wartość inna niż 0 może być dowolną z tych wartości:

1 oznacza obecność słowa.
Liczba wystąpień słowa w torbie. Jeśli np. wyrażenie brzmiało kasztanowy pies to pies z kasztanowym futrem, wartości kasztanowy i pies będą przedstawiane jako 2, a pozostałe – 1.
Inna wartość, np. logarytm liczby wystąpień słowa w torbie.

bazowa

model używany jako punkt odniesienia przy porównywaniu skuteczności innego modelu (zazwyczaj bardziej złożonego). Dobrym punktem odniesienia dla modelu szczegółowego może być na przykład model regresji logistycznej.

W przypadku konkretnego problemu wartość bazowa pomaga programistom modeli w pomiarze minimalnej oczekiwanej wydajności, jaką musi osiągnąć nowy model, aby był przydatny.

wsad

#fundamentals

Zbiór przykładów używanych w 1 iteracji. Rozmiar wsadu określa liczbę przykładów w grupie.

Wyjaśnienie związku grupy z epoką znajdziesz w sekcji epoka.

wnioskowanie wsadowe

#TensorFlow

#GoogleCloud

Proces wnioskowania na wielu przykładach bez etykiet podzielonych na mniejsze podzbiory („wsadowe”).

Wnioskowanie wsadowe może korzystać z funkcji równoległości dostępnych w akceleratorach. Oznacza to, że wiele akceleratorów może jednocześnie wnioskować prognozy dla różnych wsadów przykładów bez etykiet, co znacząco zwiększa liczbę wnioskowania na sekundę.

normalizacja wsadowa

Normalizowanie danych wejściowych lub wyjściowych funkcji aktywacyjnych w ukrytej warstwie. Normalizacja wsadowa może przynieść te korzyści:

Zwiększ stabilność sieci neuronowych, chroniąc je przed wartościami odstającymi.
Włącz wyższe szybkość uczenia się, co może przyspieszyć trenowanie.
Ogranicz nadmierne dopasowanie.

wielkość wsadu

#fundamentals

Liczba przykładów w grupie. Jeśli na przykład rozmiar wsadu to 100, model przetwarza 100 przykładów na powtarzanie.

Oto popularne strategie dotyczące wielkości wsadu:

Stochastic Gradient Descent (SGD), gdzie rozmiar wsadu wynosi 1.
Pełny wsad, w którym rozmiar wsadu to liczba przykładów w całym zbiorze do trenowania. Jeśli na przykład zbiór treningowy zawiera milion przykładów, rozmiar wsadu będzie równy milionom. Strategia polegająca na przesyłaniu całego pliku jest zwykle mało efektywna.
minizbiorczy, w którym rozmiar wsadu wynosi zwykle od 10 do 1000. Najskuteczniejszą strategią jest zwykle przesyłanie małej ilości danych jednocześnie.

Bayesowskie sieci neuronowe

Prawdopodobna sieć neuronowa, która uwzględnia niepewność wag i wyników. Standardowy model regresji sieci neuronowej zazwyczaj przewiduje wartość skalarną. Na przykład model standardowy przewiduje cenę domu na poziomie 853 000. W przeciwieństwie do tego Bayesowskiej sieci neuronowej prognozuje rozkład wartości. Na przykład model Bayesa przewiduje cenę domu na poziomie 853 000 z odchyleniem standardowym o wartości 67 200.

W sieci neuronowej Bayesa stosuje się twierdzenie Bayesa do obliczania niepewności wag i prognoz. Bayesowskie sieci neuronowe mogą być przydatne, gdy ważne jest zmierzenie niepewności, np. w modelach związanych z farmaceutykami. Bayesowskie sieci neuronowe mogą też pomóc w zapobieganiu przepasowaniu.

Optymalizacja bayesowska

Metoda modelu regresji prawdopodobnej, która służy do optymalizacji kosztownych obliczeniowo funkcji obiektywnych przez optymalizację zastępczego modelu regresji, który określa ilość niepewności przy użyciu techniki uczenia Bayesowskiego. Optymalizacja Baidu jest bardzo kosztowna, dlatego zwykle jest używana do optymalizacji kosztownych zadań o niewielkiej liczbie parametrów, takich jak wybór hiperparametrów.

Równanie Bellmana

#rl

Podczas uczenia się przez wzmacnianie ta tożsamość jest spełniona przez optymalną funkcję Q:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

Algorytmy uczenia się przez wzmacnianie stosują tę tożsamość do tworzenia nauki Q-learning za pomocą tej reguły aktualizacji:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

Równanie Bellmana ma nie tylko zastosowanie w przypadku uczenia przez wzmacnianie. Przeczytaj równanie Bellmana w Wikipedii.

BERT (dwukierunkowe reprezentacje kodera z transformatorów)

#language

Architektura modelu do reprezentacji tekstu. Wytrenowany model BERT może działać jako część większego modelu do klasyfikacji tekstu lub do innych zadań ML.

BERT ma następujące cechy:

Wykorzystuje architekturę Transformer, dlatego opiera się na własnej uwagi.
Wykorzystuje element encoder Transformatora. Zadaniem kodera jest generowanie odpowiednich reprezentacji tekstu, a nie wykonywanie konkretnej czynności, takiej jak klasyfikacja.
Jest dwukierunkowe.
Używa maskowania do trenowania nienadzorowanego.

Warianty modelu BERT obejmują:

ALBERT – skrót od A Light BERT.
LaBSE:

Omówienie modelu BERT znajdziesz w artykule Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing (Otwarte szkolenie wstępne dotyczące przetwarzania języka naturalnego).

uprzedzenia (etyka/sprawiedliwość)

#fairness

#fundamentals

1. Tworzenie stereotypów, uprzedzenia lub faworyzowanie pewnych rzeczy, ludzi lub grup względem innych. Uprzedzenia mogą wpływać na gromadzenie i interpretację danych, projekt systemu oraz sposób jego interakcji z nim. Do form tego rodzaju uprzedzeń należą:

2. Błąd systematyczny wywołany w wyniku procedury próbkowania lub raportowania. Do form tego rodzaju uprzedzeń należą:

Nie należy ich mylić z terminem uprzedzeń występującym w modelach systemów uczących się ani z odchyleniem prognozy.

uprzedzenia (matematyka) lub termin „uprzedzenia”

#fundamentals

Przechwycenie lub przesunięcie od punktu początkowego. Odchylenie to parametr w modelach systemów uczących się, który ma następujące symbole:

b
ty₀

Na przykład odchylenie to symbol b w tym wzorze:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W prostej, dwuwymiarowej linii odchylenie oznacza po prostu „punkt przecięcia z osią y”. Na przykład odchylenie linii na ilustracji poniżej wynosi 2.

Wykres prostej z nachyleniem 0,5 i punktu przecięcia osi y 2.

Istnieje tendencyjność, ponieważ nie wszystkie modele zaczynają się od punktu początkowego (0,0). Załóżmy na przykład, że wstęp do parku rozrywki kosztuje 2 euro za każdą godzinę pobytu klienta, a dodatkowo 0,5 euro za każdą godzinę pobytu. Dlatego model mapujący całkowity koszt ma odchylenie do 2, ponieważ najniższy koszt to 2 euro.

Uprzedzenia nie należy mylić z uprzedzeniami w kwestiach etyki i sprawiedliwości ani z błędami przewidywania.

dwukierunkowa

#language

Termin oznaczający system oceniający tekst, który następuje i następuje po docelowej sekcji tekstu. W przeciwieństwie do tego system jednokierunkowy ocenia tylko tekst, który postępuje przed docelową sekcją tekstu.

Weźmy na przykład maskowany model językowy, który musi określić prawdopodobieństwo dla słów lub słów podkreślających podkreślenie w tym pytaniu:

Jaka jest _____ z Tobą?

Jednokierunkowy model językowy musiałby oprzeć swoje prawdopodobieństwa tylko na kontekście określonym przez słowa „co”, „to jest” i „co”. Dwukierunkowy model językowy może też uzyskać kontekst od „z” i „ty”, co może pomóc mu generować lepsze prognozy.

dwukierunkowy model językowy

#language

Model językowy określający prawdopodobieństwo, że podany token znajduje się w danym miejscu we fragmencie tekstu na podstawie poprzedniego i następnego tekstu.

bigram

#seq

#language

N-gram, w którym N=2.

klasyfikacja binarna

#fundamentals

Typ zadania klasyfikacji, który przewiduje jedną z 2 wykluczających się klas:

Na przykład te 2 modele systemów uczących się wykonują klasyfikację binarną:

Model, który określa, czy e-maile są spamem (klasa pozytywna) czy nie spamem (klasą negatywną).
Model, który ocenia objawy medyczne, aby określić, czy dana osoba cierpi na konkretną chorobę (klasa pozytywna), czy jej nie ma (klasa negatywna).

Przeciwieństwem jest klasyfikacja wieloklasowa.

Zobacz też informacje o regresji logistycznej i progu klasyfikacji.

warunek binarny

#df

W drzewie decyzji warunek, który ma tylko 2 możliwe wyniki, zwykle tak lub nie. Oto taki warunek binarny:

temperature >= 100

Ustaw kontrast z warunkem niebinarnym.

Binning

Synonim słowa grupowanie.

BLEU (Bilingual Evaluation Understudy)

#language

Wynik pomiędzy 0, 0 a 1, 0 włącznie, który wskazuje jakość tłumaczenia między dwoma językami ludzkimi (np. między angielskim i rosyjskim). Wynik BLEU wynoszący 1,0 oznacza tłumaczenie perfekcyjne, a wynik 0,0 oznacza tłumaczenie kiepskie.

wzmocnienie

Technika systemów uczących się, która iteracyjnie łączy zestaw prostych i niezbyt dokładnych klasyfikatorów (nazywanych „słabymi” klasyfikatorami) w klasyfikator o wysokiej dokładności (klasyfikator o dużej dokładności), przez zwiększanie wagi przykładów, których model obecnie błędnie klasyfikuje.

ramka ograniczająca

#image

Współrzędne (x, y) prostokąta wokół interesującego Cię obszaru, np. pies na ilustracji poniżej.

Zdjęcie psa siedzącego na sofie. Zielona ramka ograniczająca ze współrzędnymi współrzędnych (275, 1271) w lewym górnym rogu i współrzędnych w prawym dolnym rogu (2954, 2761) opisująca ciało psa

transmisja

Rozwijanie kształtu operandu w operacji matematycznej do postaci wymiarów zgodnych z tą operację. Na przykład algebra liniowa wymaga, aby 2 operandy w operacji dodawania macierzy muszą mieć te same wymiary. Nie można dodać macierzy kształtu (m, n) do wektora o długości n. Przesyłanie umożliwia tę operację przez wirtualne rozwinięcie wektora długości n do macierzy kształtu (m, n) przez powtórzenie tych samych wartości w każdej kolumnie.

Na przykład podane niżej definicje są zabronione w algebry liniowej, ponieważ A+B mają różne wymiary:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

Jednak transmisja umożliwia wykonanie operacji A+B przez wirtualne rozwinięcie obszaru B do:

 [[2, 2, 2],
  [2, 2, 2]]

A+B jest teraz prawidłową operacją:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

Więcej informacji znajdziesz w opisie transmisji w NumPy.

skategoryzowanie w przedziałach

#fundamentals

Przekonwertowanie pojedynczej cech na wiele funkcji binarnych nazywanych zasobnikami lub przedziałami, zwykle na podstawie zakresu wartości. Przecięta cecha to zwykle funkcja ciągła.

Na przykład zamiast przedstawiać temperaturę jako jedną, ciągłą zmiennoprzecinkową cechę, możesz podzielić zakresy temperatur na osobne przedziały, takie jak:

<= 10 stopni Celsjusza to zasobnik „zimny”.
Wartość od 11 do 24 stopni Celsjusza to zasobnik „umiarkowany”.
Wartość >= 25 stopni Celsjusza to zasobnik „ciepły”.

Model będzie traktować każdą wartość w tym samym zasobniku jednakowo. Na przykład wartości 13 i 22 znajdują się w zasobniku tymczasowym, więc model traktuje je jednakowo.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Jeśli przedstawiasz temperaturę jako cechę ciągłą, model traktuje temperaturę jako jedną cechę. Jeśli wskażesz temperaturę w postaci 3 zasobników, model będzie traktować każdy z nich jako osobną cechę. Oznacza to, że model może poznawać oddzielne relacje każdego zasobnika z etykietą. Na przykład model regresji liniowej może nauczyć się osobnych wag dla każdego zasobnika.

Zwiększenie liczby zasobników sprawia, że model staje się bardziej skomplikowany, ponieważ rośnie liczba relacji, których musi się nauczyć. Na przykład zasobniki zimne, umiarkowane i ciepłe to zasadniczo 3 osobne cechy, na których model ma trenować. Jeśli zdecydujesz się dodać jeszcze 2 zasobniki – na przykład „mrożenie” i „ gorące”, model będzie musiałby się teraz trenować na 5 osobnych cechach.

Skąd wiesz, ile zasobników chcesz utworzyć lub jakie powinny być zakresy dla każdego z nich? Odpowiedzi zwykle wymagają pewnego eksperymentu.

C

warstwa kalibracyjna

Korekty po prognozowaniu, zwykle w celu uwzględnienia odchylenia prognozy. Skorygowane prognozy i prawdopodobieństwa powinny być zgodne z rozkładem zaobserwowanego zbioru etykiet.

generacja kandydatów

#recsystems

Początkowy zestaw rekomendacji wybierany przez system rekomendacji. Weźmy jako przykład księgarnię, która oferuje 100 tys. książek. W fazie generowania kandydatów lista książek odpowiednich dla konkretnego użytkownika jest znacznie mniejsza, np. 500. Ale nawet 500 książek to o wiele zbyt dużo, by polecić je użytkownikowi. Kolejne, droższe etapy systemu rekomendacji (takie jak punktacja i ponowna pozycja w rankingu) zmniejszają liczbę tych 500 do znacznie mniejszego, bardziej przydatnego zestawu rekomendacji.

próbkowanie kandydujące

Optymalizacja w czasie trenowania, która oblicza prawdopodobieństwo dla wszystkich etykiet dodatnich przy użyciu np. softmax, ale tylko dla losowej próbki etykiet negatywnych. Na przykład w przykładzie oznaczonym etykietą beagle i pies, próbkowanie kandydujące oblicza przewidywane prawdopodobieństwa i odpowiadające im hasła straty dla:

beagle,
pies
losowy podzbiór pozostałych klas negatywnych (np. kot, lizak czy płot).

Chodzi o to, że klasy negatywne mogą uczyć się na rzadszym wzmacnianiu negatywnym, jeśli klasy pozytywne zawsze otrzymują odpowiednie wzmocnienie pozytywne i w rzeczywistości jest to obserwowane empirycznie.

Próbkowanie kandydatów jest bardziej wydajne obliczeniowo niż algorytmy treningowe, które obliczają prognozy dla wszystkich klas negatywnych, zwłaszcza gdy liczba klas negatywnych jest bardzo duża.

dane kategorialne

#fundamentals

Funkcje mające określony zestaw możliwych wartości. Weźmy na przykład cechę kategorialną o nazwie traffic-light-state, która może mieć tylko jedną z tych 3 możliwych wartości:

red
yellow
green

Dzięki reprezentowaniu elementu traffic-light-state jako cechy kategorialnej model może poznawać różne wpływy red, green i yellow na zachowanie kierowcy.

Cechy kategorialne są czasami nazywane funkcjami dyskretnymi.

Przeciwieństwem są dane liczbowe.

przyczynowy model językowy

#language

Synonim jednokierunkowego modelu językowego.

Zobacz dwukierunkowy model językowy, aby skontrastować różne podejścia kierunkowe w modelowaniu językowym.

centroid

#clustering

Środek klastra określony za pomocą algorytmu k-średnich lub k-mediana. Jeśli np. k = 3, algorytm k-średni lub k-mediany znajdzie 3 centroidy.

grupowanie oparte na centroidach

#clustering

Kategoria algorytmów grupowania, które porządkują dane w klastry niehierarchiczne. średnie k to najpopularniejszy algorytm grupowania oparty na centroidach.

Różnią się algorytmami grupowania hierarchicznego.

wykorzystanie w prompcie łańcucha myśli

#language

#generatywna AI

Technika inżynierii promptów, dzięki której duży model językowy (LLM) wyjaśnia krok po kroku swoje rozumowanie. Weźmy na przykład ten prompt, zwracając szczególną uwagę na drugie zdanie:

Ile ciężarów mocnych mocnych odczuwa kierowca podczas jazdy samochodem, który w 7 sekund osiąga prędkość od zera do 90 kilometrów na godzinę? W odpowiedzi pokaż wszystkie odpowiednie obliczenia.

Odpowiedź LLM prawdopodobnie:

Pokaż sekwencję wzorów fizycznych, wpisując wartości 0, 60 i 7 w odpowiednich miejscach.
Wyjaśnij, dlaczego wybrał te formuły i co oznaczają poszczególne zmienne.

Podpowiedzi łańcucha myśli wymuszają na LLM wykonywanie wszystkich obliczeń, co może prowadzić do bardziej poprawnej odpowiedzi. Dodatkowo prompty typu łańcuch myśli pozwalają użytkownikowi przeanalizować kroki LLM i ustalić, czy odpowiedź ma sens.

czat

#language

#generatywna AI

Treść toczącego się dialogu z systemem ML (zwykle jest to duży model językowy). Poprzednia interakcja na czacie (czyli to, co piszesz i jak odpowiada duży model językowy) staje się kontekstem dla kolejnych części czatu.

Czatbot to aplikacja dużego modelu językowego.

punkt kontroli

Dane, które przechwytują stan parametrów modelu podczas konkretnej iteracji trenowania. Punkty kontrolne pozwalają eksportować wagi modelu lub przeprowadzać trenowanie w wielu sesjach. Punkty kontrolne umożliwiają też trenowanie w celu kontynuowania wcześniejszych błędów (np. tymczasowego przerwania zadań).

Podczas dostrajania punktem początkowym trenowania nowego modelu będzie konkretny punkt kontrolny już wytrenowanego modelu.

klasa

#fundamentals

Kategoria, do której może należeć etykieta. Na przykład:

W modelu klasyfikacji binarnej, który wykrywa spam, te 2 klasy mogą być spamem, a nie spamem.
W modelu klasyfikacji wieloklasowej, który identyfikuje rasy psów, klasami mogą być pudel, beagle, mops itd.

Model klasyfikacji służy do prognozowania klasy. Model regresji natomiast prognozuje liczbę, a nie klasę.

model klasyfikacji

#fundamentals

model, którego prognoza to model. Poniżej znajdują się na przykład wszystkie modele klasyfikacji:

Model, który prognozuje język zdania wejściowego (francuski? Hiszpański? włoskim?).
Model, który prognozuje gatunki drzew (klon? Oak? Baobab?).
Model, który prognozuje klasę dodatnią lub negatywną w przypadku konkretnego schorzenia.

W przeciwieństwie do tego modele regresji prognozują liczby, a nie klasy.

Dwa najczęstsze typy modeli klasyfikacji to:

próg klasyfikacji

#fundamentals

W klasyfikacji binarnej jest to liczba z zakresu od 0 do 1, która konwertuje nieprzetworzone dane wyjściowe modelu regresji logistycznej w prognozę klasy pozytywnej lub negatywnej. Pamiętaj, że próg klasyfikacji to wartość wybierana przez człowieka, a nie wartość wybierana przez trenowanie modelu.

Model regresji logistycznej zwraca nieprzetworzoną wartość z zakresu od 0 do 1. Następnie:

Jeśli ta nieprzetworzona wartość przekracza próg klasyfikacji, prognozowana jest klasa dodatnia.
Jeśli ta nieprzetworzona wartość jest mniejsza niż próg klasyfikacji, prognozowana jest klasa ujemna.

Załóżmy na przykład, że próg klasyfikacji wynosi 0,8. Jeśli wartość nieprzetworzona wynosi 0,9, model prognozuje klasę pozytywną. Jeśli nieprzetworzona wartość to 0,7, model prognozuje klasę ujemną.

Wybór progu klasyfikacji w dużym stopniu wpływa na liczbę wyników fałszywie pozytywnych i wyników fałszywie negatywnych.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

W miarę ewoluowania modeli lub zbiorów danych inżynierowie zmieniają czasem próg klasyfikacji. Gdy próg klasyfikacji ulegnie zmianie, prognozy klas pozytywne mogą nagle stać się klasami negatywnymi i odwrotnie.

Rozważmy na przykład model prognostyczny dla chorób o klasyfikacji binarnej. Załóżmy, że gdy system działa w pierwszym roku:

Surowa wartość dla danego pacjenta to 0,95.
Próg klasyfikacji to 0,94.

Dlatego system diagnozuje klasę pozytywną. Pacjenci wdycha: „O nie! jestem chory!”).

Rok później wartości mogą wyglądać tak:

Nieprzetworzona wartość dla tego samego pacjenta pozostaje na poziomie 0,95.
Próg klasyfikacji zmieni się na 0,97.

Dlatego system zmienia klasyfikację pacjenta na klasę negatywnej. Nie jestem chory”). Ten sam pacjent. Inna diagnoza.

zbiór danych o niezrównoważonym klasie

#fundamentals

Zbiór danych do rozwiązania problemu z klasyfikacją, w którym łączna liczba etykiet poszczególnych klas znacznie się różni. Rozważmy na przykład zbiór danych klasyfikacji binarnej, w którym dwie etykiety są podzielone w ten sposób:

1 000 000 etykiet negatywnych
10 etykiet pozytywnych

Stosunek etykiet ujemnych do pozytywnych wynosi 100 000 do 1, więc jest to zbiór danych niezbalansowany w klasie.

W przeciwieństwie do tego w przypadku poniższego zbioru danych nie jest równoważone w stosunku do klasy, ponieważ stosunek etykiet negatywnych do pozytywnych jest względnie bliski 1:

517 etykiet negatywnych
483 etykiety pozytywne

Wieloklasowe zbiory danych też mogą być nierównoważone w stosunku do klas. Na przykład ten zbiór danych klasyfikacji wieloklasowej również jest niezgodny z klasą, ponieważ jedna etykieta zawiera znacznie więcej przykładów niż pozostałe:

1 000 000 etykiet z klasą „zielona”
200 etykiet z klasą „fioletowy”
350 etykiet z klasą „pomarańczowy”

Zobacz też entropię, klasę większości i klasę mniejszości.

przycinanie

#fundamentals

Technika traktowania wyników odstających przez wykonanie jednej z tych czynności lub obu z nich:

Zmniejszenie wartości cech przekraczających maksymalny próg do tego maksymalnego progu.
Rosnące wartości cech, które nie przekraczają progu minimalnego, aż do osiągnięcia tego minimalnego progu.

Załóżmy np., że <0,5% wartości danej cechy wykracza poza zakres 40–60. W takim przypadku możesz wykonać te czynności:

Przytnij wszystkie wartości powyżej 60 (próg maksymalny), aby dokładnie ustawić 60.
Przytnij wszystkie wartości poniżej 40 (minimalny próg), aby dokładnie ustawić 40.

Wartości odstające mogą uszkodzić modele, powodując czasami przepełnienie wag podczas trenowania. Niektóre wyjątki mogą znacznie wpłynąć na dane takie jak dokładność. Przycinanie to często spotykana technika ograniczania szkód.

Przycinanie gradientu wymusza podczas trenowania wartości gradientu w wyznaczonym zakresie.

Cloud TPU

#TensorFlow

#GoogleCloud

Specjalny akcelerator sprzętowy, który przyspiesza zadania systemów uczących się w Google Cloud.

grupowanie

#clustering

Grupowanie powiązanych przykładów, zwłaszcza podczas uczenia nienadzorowanego. Po zgrupowaniu wszystkich przykładów człowiek może opcjonalnie dodać znaczenie do każdego klastra.

Istnieje wiele algorytmów grupowania. Na przykład algorytm k-średnich przedstawia przykłady w oparciu o ich odległość od centroidu, jak na tym diagramie:

Dwuwymiarowy wykres, na którym oś X jest oznaczona etykietą jako szerokość drzewa, a oś Y – wysokość drzewa. Wykres zawiera 2 centroidy i kilkadziesiąt punktów danych. Punkty danych są klasyfikowane na podstawie ich odległości. Oznacza to, że punkty danych najbliższe jednemu centroidowi są klasyfikowane jako klaster 1, a te najbliższe drugiego centroidu – jako klaster 2.

Człowiek może następnie ocenić gromady i na przykład oznaczyć klaster 1 jako „drzewa karłowate”, a grupę 2 jako „pełnowymiarowe drzewa”.

Kolejny przykład to algorytm grupowania oparty na odległości z przykładu od punktu środkowego, która wygląda tak:

Dziesiątki punktów danych są rozmieszczonych koncentrycznie okręgami, prawie jak otwory na środku tarczy. Najbardziej wewnętrzny pierścień punktów danych jest klasyfikowany jako klaster 1, środkowy pierścień jest klasyfikowany jako klaster 2, a najbardziej zewnętrzny pierścień jako klaster 3.

współadaptacja

Gdy neurony przewidują wzorce w danych treningowych, bazując prawie wyłącznie na danych wyjściowych określonych innych neuronów, zamiast polegać na zachowaniu sieci jako całości. Jeśli w danych walidacyjnych nie występują wzorce, które powodują współadaptację, wspólna adaptacja powoduje nadmierne dopasowanie. Regulacja porzuceń ogranicza współadaptację, ponieważ dzięki niej neurony nie mogą polegać wyłącznie na konkretnych innych neuronach.

filtrowanie podczas współpracy

#recsystems

Przewidywanie zainteresowań jednego użytkownika na podstawie zainteresowań wielu innych. Wspólne filtrowanie jest często stosowane w systemach rekomendacji.

dryf koncepcji

Przesunięcie w relacji między cechami a etykietą. Dryf koncepcji z czasem obniża jakość modelu.

Podczas trenowania model uczy się relacji między cechami a ich etykietami w zbiorze treningowym. Jeśli etykiety w zbiorze treningowym są dobrymi serwerami proxy w świecie rzeczywistym, model powinien generować dobre prognozy w świecie rzeczywistym. Jednak ze względu na dryf koncepcji prognozy modelu z czasem maleją.

Rozważmy na przykład model klasyfikacji binarnej, który przewiduje, czy dany model samochodu jest „oszczędny na zużycie paliwa”. Funkcje mogą obejmować:

masa samochodu
kompresja silnika
typ transmisji

gdy etykieta jest:

oszczędne spalanie
spalanie

Jednak koncepcja „samochodu z najniższym spalaniem” ciągle się zmienia. Model samochodu oznaczony etykietą oszczędne paliwo w 1994 roku prawie na pewno zostałby oznaczony w 2024 roku jako niezużywany. Model cierpiący na dryf koncepcji z czasem generuje mniej i mniej przydatne prognozy.

Wskaż podobieństwa i różnice między niestacjonarnością.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Aby kompensować dryf koncepcji, trenuj ponownie modele szybciej, niż wynosi częstotliwość dryfu koncepcji. Jeśli na przykład dryf koncepcji zmniejsza precyzję modelu znacznie co 2 miesiące, trenuj model częściej niż co 2 miesiące.

stan

#df

W drzewie decyzji każdy węzeł oceniający wyrażenie. Na przykład ten fragment drzewa decyzyjnego zawiera 2 warunki:

Drzewo decyzyjne złożone z 2 warunków: (x > 0) i (y > 0).

Warunek jest też nazywany podziałem lub testem.

Stan kontrastu: liść.

Zobacz także:

konfabulacja

#language

Synonim słowa halucynacje.

Konfabulacja jest prawdopodobnie lepszym terminem pod względem technicznym niż halucynacje. Jednak najpierw zyskały na popularności.

konfiguracja

Proces przypisywania początkowych wartości właściwości używanych do trenowania modelu, w tym:

W projektach systemów uczących się konfigurację można skonfigurować za pomocą specjalnego pliku konfiguracji lub za pomocą bibliotek konfiguracji, takich jak:

efekt potwierdzenia

#fairness

To tendencja do wyszukiwania, interpretowania, zapamiętywania i zapamiętywania informacji w sposób, który potwierdza wcześniejsze przekonania lub hipotezy. Programiści systemów uczących się mogą nieumyślnie zbierać lub oznaczać dane w sposób, który wpływa na wynik potwierdzający ich dotychczasowe przekonania. Tendencyjność potwierdzenia to forma uprzedzenia.

Błąd eksperymentowania to forma odchylenia potwierdzenia, w której eksperymentator kontynuuje trenowanie modeli aż do potwierdzenia dotychczasowej hipotezy.

tablica pomyłek

#fundamentals

Tabela NxN podsumowująca liczbę poprawnych i nieprawidłowych prognoz utworzonych przez model klasyfikacji. Rozważ na przykład tę tablicę pomyłek dla modelu klasyfikacji binarnej:

	Guz (prognozowany)	Inny niż tumor (prognozowany)
Guz (ground truth)	18 (TP)	1 (FN)
Inne niż tumor (ground truth)	6 (FP)	452 (TN)

Poprzednia tablica pomyłek wygląda tak:

Spośród 19 prognoz, w przypadku których dane podstawowe dotyczyły nowotworów, model poprawnie sklasyfikował 18, a nieprawidłowo 1.
Spośród 458 prognoz, w przypadku których dane podstawowe (ground truth) były danymi innymi niż gusta, model poprawnie sklasyfikował 452, a nieprawidłowo sklasyfikował 6.

Tablica pomyłek w przypadku problemu z klasyfikacją wieloklasową może pomóc w rozpoznaniu wzorców błędów. Rozważmy na przykład poniższą tablicę pomyłek dla 3-klasowego wieloklasowego modelu klasyfikacji, który kategoryzuje 3 różne typy irysów (Virginica, Versicolor i Setosa). Jeśli danymi podstawowymi była stan Virginica, tablica pomyłek wskazuje, że model z większym prawdopodobieństwem pomyłkowo przewidywał Versicolor niż Setosa:

	Setosa (przewidywane)	Versicolor (prognozana)	Virginica (prognoza)
Setosa (ground truth)	88	12	0
Versicolor (ground truth)	6	141	7
Virginica (ground truth),	2	27	109

Kolejny przykład pokazuje, że tablica pomyłek może wykazać, że model wytrenowany do rozpoznawania odręcznych cyfr błędnie przewiduje liczby 9 zamiast 4 lub błędnie prognozuje 1 zamiast 7.

Tablice pomyłek zawierają informacje wystarczające do obliczenia różnych danych dotyczących skuteczności, takich jak precyzja i czułość.

analiza składniowa

#language

Dzielenie zdania na mniejsze struktury gramatyczne („składniki”). Późniejsza część systemu ML, na przykład model rozumienia języka naturalnego, może łatwiej przeanalizować składowe składowe niż oryginalne zdanie. Rozważ na przykład to zdanie:

Moja znajoma adoptowała dwa koty.

Parser grup wyborczych może podzielić to zdanie na 2 składniki:

Mój przyjaciel to rzeczownik.
adoptowane dwa koty to czasownik.

Składniki te można następnie podzielić na mniejsze składniki. Na przykład wyrażenie z czasownikiem

adoptowała dwa koty

można podzielić na te kategorie:

adopted to czasownik.
dwa koty to kolejne wyrażenie rzeczownikowe.

osadzanie kontekstowe

#language

#generatywna AI

Umieszczanie na stronach, które są bliskie rozumienia słów i wyrażeń w sposób zrozumiały dla rodzimych użytkowników języka. Umieszczone w kontekście treści osadzone mogą zrozumieć złożoną składnię, semantykę i kontekst.

Weź pod uwagę na przykład reprezentacje właściwościowe z angielskiego słowa cow. Starsze wektory dystrybucyjne takie jak word2vec mogą reprezentować słowa w języku angielskim tak, że odległość w obszarze umieszczania od krowy do byka jest podobna do odległości od ewe (kobieta) do barana (sama owca) lub od kobiety do mężczyzny. Umieszczone w kontekście treści osadzone w kontekście mogą pójść o krok dalej, ponieważ anglojęzyczni użytkownicy czasami przypadkowo używają słowa cow, oznaczając krowy lub byka.

okno kontekstu

#language

#generatywna AI

Liczba tokenów, które model może przetworzyć w ramach danego promptu. Im większe okno kontekstu, tym więcej informacji model może wykorzystać do zapewnienia spójnych i spójnych odpowiedzi na prompt.

cecha ciągła

#fundamentals

Zmiennoprzecinkowa funkcja z nieskończonym zakresem możliwych wartości, takich jak temperatura czy waga.

Skontrastuj się z funkcjami dyskretnymi.

dobór wygodny

Wykorzystanie zbioru danych, które nie zostały zebrane naukowo, do przeprowadzenia szybkich eksperymentów. Później konieczne będzie przejście na zbiór danych zebranych naukowo.

zbieżność

#fundamentals

Stan, w którym wartości strat zmieniają się bardzo mało lub nie zmieniają się wcale przy każdej iteracji. Na przykład ta krzywa strat sugeruje zbieżność przy około 700 iteracjach:

Wykres kartezjański. Oś X to strata. Oś Y to liczba iteracji trenowania. Utrata jest bardzo duża w trakcie pierwszych iteracji, ale gwałtownie spada. Po około 100 iteracjach strata nadal maleje, ale znacznie stopniowo. Po około 700 iteracjach strata pozostaje stała.

Model dochodzi do konwersacji, gdy dodatkowe trenowanie nie poprawi go.

W przypadku detekcji deep learning wartości utraty czasami pozostają stałe lub prawie na stałym poziomie w przypadku wielu iteracji, zanim ostatecznie maleją. W długim okresie stałych wartości strat możesz tymczasowo mieć fałszywe poczucie zbieżności.

Zobacz też Wcześniejsze zatrzymywanie.

funkcja wypukła

Funkcja, w której region nad wykresem funkcji jest zbiorem wypukłym. Prototypowa funkcja wypukła ma kształt podobny do litery U. Oto na przykład wszystkie funkcje wypukłe:

Krzywe w kształcie litery U, każda z jednym minimalnym punktem.

W przeciwieństwie do tego ta funkcja nie jest wypukła. Zwróć uwagę, że region nad wykresem nie jest zestawem wypukłym:

Krzywa w kształcie litery W z 2 różnymi lokalnymi punktami minimalnymi.

Funkcja ściśle wypukła ma dokładnie jeden lokalny punkt minimalny, który jest też globalnym punktem minimalnym. Klasyczne funkcje w kształcie litery U są ściśle wypukłe. Jednak niektóre funkcje wypukłe (np. linie proste) nie mają kształtu U.

Kliknij ikonę, aby dokładniej przyjrzeć się danym matematycznym.

Wiele popularnych funkcji straty, w tym te poniżej, to funkcje wypukłe:

W przypadku wielu odmian zjawiska gradientu znajdzie się punkt zbliżony do minimum dla funkcji ściśle wypukłej. Analogicznie w wielu odmianach gradientu stochastycznego występuje wysokie (choć nie gwarantowane) znalezienie punktu zbliżonego do wartości minimalnej funkcji ściśle wypukłej.

Suma 2 funkcji wypukłych (np. strata L₂ + regularyzacja L₁) jest funkcją wypukłą.

Modele głębokie nigdy nie są funkcjami wypukłymi. Co ciekawe, algorytmy zaprojektowane pod kątem optymalizacji konwekcyjnej i tak znajdują zwykle dobre rozwiązania w rozszerzonych sieciach, chociaż nie są one gwarantowane na całym świecie.

optymalizacja wypukła

Proces użycia technik matematycznych, takich jak gradient gradientowy, do znalezienia minimum funkcji wypukłej. Wiele badań nad systemami uczącymi się skupia się na formułowaniu różnych problemów w formie wypukłych problemów z optymalizacją i na skutecznym rozwiązywaniu tych problemów.

Szczegółowe informacje można znaleźć w artykule Convex Optimization (Optymalizacja konwencjonalnej) Boyda i Vandenberghe'a.

zestaw wypukły

Podzbiór przestrzeni euklidesowej, w którym linia narysowana między dowolnymi dwoma punktami w podzbiorze pozostaje całkowicie wewnątrz podzbioru. Na przykład te 2 kształty to zestawy wypukłe:

Jedna ilustracja prostokąta. Kolejna ilustracja owalu.

W przeciwieństwie do tego następujące 2 kształty nie są zestawami wypukłymi:

Jedna ilustracja przedstawiająca wykres kołowy z brakującym wycinkiem.
Inna ilustracja przedstawiająca nieregularny wielokąt.

splot

#image

W matematyce w codziennym zabieganiu jest to połączenie dwóch funkcji. W uczeniu maszynowym splot łączy filtr konwolucyjny i tablicę danych wejściowych w celu trenowania wag.

Pojęcie „splot” używane w uczeniu maszynowym jest często skrótem oznaczającym operację splotową lub warstwę splotową.

Bez splotów algorytm uczenia maszynowego musiałby nauczyć się oddzielnej wagi dla każdej komórki w dużym tensorze. Na przykład algorytm uczenia maszynowego trenowany na obrazach o rozdzielczości 2 tys. x 2K musiałby znaleźć 4 mln osobnych wag. Dzięki splotom algorytm systemów uczących się musi znaleźć tylko wagę każdej komórki w filtrze splotowym, co znacząco zmniejsza ilość pamięci potrzebnej do wytrenowania modelu. Po zastosowaniu filtra splotowego jest on po prostu powielany w komórkach, a każda z nich jest mnożona przez filtr.

filtr splotowy

#image

Jeden z 2 aktorów w operacji splotowej. (Drugi aktor to wycinek macierzy wejściowej). Filtr splotowy to macierz o tym samym rankingu co matryca wejściowa, ale o mniejszym kształcie. Na przykład przy macierzy wejściowej 28 x 28 filtrem może być dowolna macierz 2D o wymiarach mniejszych niż 28 x 28.

Podczas manipulacji fotograficznej wszystkie komórki w filtrze splotowym mają zwykle stały wzorzec zer i jedynek. W systemach uczących się filtry splotowe są zwykle zapełniane losowymi liczbami, a następnie pociągami sieci idealne wartości.

warstwa splotowa

#image

Warstwa głębokiej sieci neuronowej, w której filtr splotowy przechodzi przez macierz wejściową. Rozważ na przykład taki filtr splotowy 3 x 3:

Macierz 3 x 3 z tymi wartościami: [[0,1,0], [1,0;1], [0,1,0]]

Ta animacja przedstawia splotową warstwę składającą się z 9 operacji splotowych z wykorzystaniem macierzy wejściowej 5 x 5. Zwróć uwagę, że każda operacja splotkowa działa na innym wycinku macierzy wejściowej 3 x 3. Powstała macierz 3 x 3 (po prawej) składa się z wyników 9 operacji splotowych:

Animacja pokazująca 2 macierze. Pierwsza macierz to macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195], [37,24,28,197,182], [33,28,92,195,179], [33,28,92,195,179]
Druga macierz to macierz 3 × 3: [[181 303 618], [115 338 605], [169,351 560]].
Drugą macierz oblicza się, stosując filtr splotowy [[0, 1, 0], [1, 0, 1], [0, 1, 0]] do różnych podzbiorów 3 × 3 macierzy 5 × 5.

splotowa sieć neuronowa

#image

Sieć neuronowa, w której co najmniej 1 warstwa jest warstwą splotową. Typowa splotowa sieć neuronowa składa się z kilku kombinacji tych warstw:

Konwolucyjne sieci neuronowe świetnie sobie radzą z niektórymi problemami, takimi jak rozpoznawanie obrazów.

operacja splotowa

#image

Następujący dwuetapowe działanie matematyczne:

Mnożenie przez element filtra splotowego i wycinka macierzy wejściowej. (Wycinek macierzy wejściowej ma tę samą pozycję i rozmiar co filtr splotowy).
Suma wszystkich wartości w wynikowej macierzy iloczynów.

Na przykład użyj tej macierzy wejściowej 5 x 5:

Macierz 5 x 5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,179], [10,4]

Wyobraźmy sobie teraz następujący filtr splotowy 2 x 2:

macierz 2 x 2: [[1, 0], [0, 1]].

Każda operacja splotowa obejmuje pojedynczy wycinek 2 x 2 macierzy wejściowej. Załóżmy np., że używamy wycinka 2 x 2 w lewym górnym rogu macierzy wejściowej. Operacja splotu na tym wycinku wygląda tak:

Stosuję filtr splotowy [[1, 0], [0, 1]] do lewej górnej części macierzy wejściowej, czyli [[128,97], [35,22]].
W filtrze splotowym wartości 128 i 22 pozostają nienaruszone, a 97 i 35 są wyzerowane. W efekcie operacja splotu zwraca wartość 150 (128 + 22).

Warstwa splotowa składa się z serii operacji splotowych, z których każda działa na innym wycinku macierzy wejściowej.

koszt

Synonim słowa strata.

wspólne szkolenie

Podejście do uczenia częściowo nadzorowanego jest szczególnie przydatne, gdy spełnione są wszystkie te warunki:

Stosunek przykładów bez etykiet do przykładów oznaczonych etykietami w zbiorze danych jest wysoki.
Jest to problem klasyfikacji (binarny lub wieloklasowy).
Zbiór danych zawiera 2 różne zbiory funkcji prognozowanych, które są od siebie niezależne i uzupełniają się.

Zasadniczo wspólne trenowanie wzmacnia sygnały niezależne w celu uzyskania silniejszego sygnału. Weźmy na przykład model klasyfikacji, który klasyfikuje poszczególne używane samochody jako Dobre lub Złe. Jeden zestaw funkcji prognozowanych może skupiać się na zbiorczych danych, takich jak rok, marka i model samochodu, a inny – na historii jazdy poprzedniego właściciela i historii konserwacji samochodu.

Artykuł na temat wspólnego szkolenia to Łączenie danych oznaczonych etykietami i bez etykiet ze wspólnym trenowaniem (Blum i Mitchell).

kontrfaktyczna uczciwość

#fairness

Wskaźnik obiektywności, który sprawdza, czy klasyfikator generuje ten sam wynik w przypadku jednej osoby co w przypadku innej osoby identycznej z pierwszą osobą, z wyjątkiem co najmniej jednego atrybutu o charakterze kontrowersyjnym. Ocena klasyfikatora pod kątem obiektywności kontrfaktycznej to jedna z metod znajdowania potencjalnych źródeł uprzedzeń w modelu.

Bardziej szczegółowe informacje na temat kontrfaktycznej obiektywności znajdziesz w artykule „Kiedy Worlds Collide: integrowanie różnych kontrfaktycznych założeń w celu zapewnienia obiektywności”.

efekt pokrycia

#fairness

Zobacz Błąd doboru.

rozkwit

#language

Zdanie lub wyrażenie o niejednoznacznym znaczeniu. Kwitnące drzewa stanowią poważny problem w rozumieniu języka naturalnego. Przykładem może być nagłówek Czerwona taśma Utrzymująca się w Wieżowcu, ponieważ model NLU może zinterpretować nagłówek dosłownie lub obrazowo.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Żeby wyjaśnić ten tajemniczy nagłówek:

Termin czerwony oznacza, że:
- Klej
- Nadmierna biurokracja
Wstrzymanie może oznaczać:
- Podpora konstrukcyjna
- opóźnieniach,

krytyk

#rl

Synonim wyrażenia Deep Q-Network.

entropia krzyżowa

Uogólnienie metody Log Loss w odniesieniu do problemów z klasyfikacją wieloklasową. Entropia krzyżowa to ilościowa różnica między dwoma rozkładami prawdopodobieństwa. Zobacz też Złożoność.

weryfikacja krzyżowa

Mechanizm szacowania, z jaką skutecznością model mógłby się uogólnić do nowych danych. W tym celu testuje go z co najmniej 1 niepokrywającym się podzbiorem danych pobranym ze model.

funkcja rozkładu skumulowanego (CDF)

Funkcja, która określa częstotliwość próbek poniżej wartości docelowej lub jej równej. Weźmy na przykład normalny rozkład wartości ciągłych. CDF informuje, że około 50% próbek powinno być mniejsze lub równe średniej, a około 84% próbek powinno być mniejsze lub równe 1 odchyleniu standardowym od średniej.

D

analiza danych

Interpretowanie danych poprzez analizę próbek, pomiarów i wizualizacji. Analiza danych może być szczególnie przydatna, gdy zbiór danych zostaje odebrany po raz pierwszy, przed utworzeniem pierwszego model. Niezwykle ważne jest też zrozumienie eksperymentów i debugowania problemów w systemie.

rozszerzanie danych

#image

Sztuczne zwiększenie zakresu i liczby przykładów trenowania przez przekształcenie istniejących przykładów w dodatkowe przykłady. Załóżmy na przykład, że obrazy są jedną z cech Twojej firmy, ale zbiór danych nie zawiera wystarczającej liczby przykładów obrazów, aby model mógł nauczyć się przydatnych powiązań. Optymalnym rozwiązaniem jest dodanie do zbioru danych wystarczającej liczby obrazów z etykietami, aby umożliwić prawidłowe trenowanie modelu. Jeśli to nie jest możliwe, rozszerzanie danych może obracać, rozciągać i odbijać każdy obraz w celu utworzenia wielu wariantów oryginalnego zdjęcia, uzyskując najprawdopodobniej wystarczającą ilość oznaczonych etykietami danych, aby uzyskać doskonałe trenowanie.

DataFrame

#fundamentals

Popularny typ danych pandas do reprezentowania zbiorów danych w pamięci.

DataFrame przypomina tabelę lub arkusz kalkulacyjny. Każda kolumna DataFrame ma nazwę (nagłówek), a każdy wiersz jest identyfikowany przez niepowtarzalny numer.

Każda kolumna w DataFrame ma strukturę podobną do tablicy 2D, z tym że każda kolumna może mieć przypisany własny typ danych.

Zobacz też oficjalną stronę z informacjami o pandas.DataFrame.

równoległość danych

Sposób skalowania trenowania lub wnioskowania, który replikuje cały model na wielu urządzeniach, a potem przekazuje podzbiór danych wejściowych na każde z nich. Równoległość danych może umożliwiać trenowanie i wnioskowanie na bardzo dużych wsadach. Równoległość danych wymaga jednak, aby model był na tyle mały, aby zmieścił się na wszystkich urządzeniach.

Równoległość danych zwykle przyspiesza trenowanie i wnioskowanie.

Zobacz też artykuł Równoległość modelu.

zbiór danych lub zbiór danych

#fundamentals

Zbiór nieprzetworzonych danych, zwykle (ale nie wyłącznie) uporządkowany w jednym z tych formatów:

arkusz kalkulacyjny
plik w formacie CSV (wartości rozdzielone przecinkami);

Interfejs Dataset API (tf.data)

#TensorFlow

Ogólny interfejs TensorFlow API do odczytu danych i przekształcania ich w formę wymaganą przez algorytm systemów uczących się. Obiekt tf.data.Dataset reprezentuje sekwencję elementów, z których każdy zawiera co najmniej 1 Tensor. Obiekt tf.data.Iterator zapewnia dostęp do elementów Dataset.

Szczegółowe informacje o interfejsie Dataset API znajdziesz w artykule tf.data: Tworzenie potoków wejściowych TensorFlow w przewodniku dla programistów TensorFlow dla programistów (w języku angielskim).

granica decyzji

Separator między klasami nauczonymi przez model w klasie binarnej lub problemach z klasyfikacją wieloklasową. Na przykład na obrazie poniżej obrazującym problem z klasyfikacją binarną granicą decyzji jest granica między klasą pomarańczową a klasą niebieską:

Dobrze zdefiniowana granica między klasą a drugą.

las decyzji

#df

Model utworzony na podstawie wielu drzew decyzyjnych. Las decyzyjny tworzy prognozy, agregując prognozy drzew decyzyjnych. Popularne rodzaje lasów decyzyjnych to m.in. lasy losowe i drzewa o wzbogaconej gradientem.

próg decyzji

Synonim progu klasyfikacji.

schemat decyzyjny

#df

Nadzorowany model uczenia się składający się ze zbioru conditions i conditions uporządkowanych hierarchicznie. Oto przykładowe schematy decyzyjne:

Drzewo decyzyjne złożone z 4 ułożonych hierarchicznie warunków, które prowadzą do 5 liści.

dekoder

#language

Ogólnie rzecz biorąc, każdy system ML, który konwertuje z przetworzonej, gęstej lub wewnętrznej reprezentacji na bardziej surową, rozproszoną lub zewnętrzną reprezentację.

Dekodery są często składnikami większych modeli, które są często parowane z koderem.

W zadaniach sekwencyjnych dekoder zaczyna od stanu wewnętrznego wygenerowanego przez koder w celu przewidzenia następnej sekwencji.

Definicję dekodera w architekturze Transformatora znajdziesz w artykule Transformer.

model głęboki

#fundamentals

Sieć neuronowa zawierająca więcej niż 1 ukrytą warstwę.

Model głęboki nazywany jest też głęboką siecią neuronowa.

Porównaj z modelem szerokim.

głęboka sieć neuronowa

Synonim modelu głębokiego.

Sieć Deep Q (DQN)

#rl

W Q-learning głęboka sieć neuronowa, która prognozuje funkcje Q.

Critic to synonim sieci Deep Q-Network.

parytet demograficzny

#fairness

Wskaźnik obiektywności, który jest sprawdzany, gdy wyniki klasyfikacji modelu nie są zależne od podanego atrybutu poufnego.

Jeśli na przykład do Uniwersytetu Glubbdubdrib przypadnie zarówno liliputiowie, jak i brobdingnagi, spójność demograficzna zostaje zachowana, gdy odsetek przyjętych liliputów jest taki sam jak odsetek zaakceptowanych mieszkańców Brobdingnagiów niezależnie od tego, czy któraś z grup ma średnio większe kwalifikacje niż druga.

Przeciwieństwem są równe szanse i równości możliwości, które umożliwiają grupową klasyfikację wyników w zależności od atrybutów poufnych, ale nie zezwalają na klasyfikację niektórych określonych etykiet ground truth do atrybutów o charakterze wrażliwym. W sekcji „Walka z dyskryminacją za pomocą inteligentnych systemów uczących się” znajdziesz wizualizację, która pokazuje kompromisy przy optymalizacji pod kątem parytetu demograficznego.

odszumianie

#language

Popularne podejście do samonadzorowanego uczenia się, w którym:

Szum jest sztucznie dodawany do zbioru danych.
model próbuje usunąć te szumy.

Wyciszanie szumów umożliwia uczenie się na podstawie przykładów bez etykiet. Pierwotny zbiór danych służy jako cel lub etykieta, a dane wejściowe zaszumione przez szum mogą służyć jako dane wejściowe.

Niektóre maskowane modele językowe używają funkcji wyciszania szumów w ten sposób:

Szum jest sztucznie dodawany do zdania bez etykiety przez maskowanie niektórych tokenów.
Model próbuje przewidzieć oryginalne tokeny.

cecha zwarta

#fundamentals

Funkcja, w której większość lub wszystkie wartości mają wartość różną od zera. Zwykle jest to Tensor z wartości zmiennoprzecinkowych. Na przykład ten 10-elementowy Tensor jest gęsty, ponieważ 9 z jego wartości jest różna od zera:

Różnica w stosunku do funkcji rozproszonej.

gęsta warstwa

Synonim w pełni połączonej warstwy.

głębokość

#fundamentals

Suma tych elementów w sieci neuronowej:

liczbę ukrytych warstw,
liczbę warstw wyjściowych, która zwykle wynosi 1
liczbę dowolnych warstw osadzonych,

Na przykład sieć neuronowa z 5 ukrytymi warstwami i 1 warstwą wyjściową ma głębokość 6.

Zwróć uwagę, że warstwa wejściowa nie wpływa na głębię.

splotowa sieć neuronowa głęboko separacyjna (sepCNN)

#image

Architektura splotowej sieci neuronowej opartej na Incepcji, w której moduły incepcji są zastępowane głęboko oddzielonymi splotami. Inna nazwa to Xception.

Splot głęboko rozproszony (nazywany też splotem możliwym do rozdzielenia) powoduje przekształcenie standardowego splotu 3D na 2 oddzielne operacje splotu, które są bardziej wydajne obliczeniowo: po pierwsze splot głęboki, z głębokością 1 (n razy n × 1), a potem 1 splot punktowy 1 x 1 razy szerokości i długości.

Więcej informacji znajdziesz w artykule Xception: Deep Learning with Depthwise Separable Convolutions.

etykieta derywowana

Synonim etykiety serwera proxy.

urządzenie

#TensorFlow

#GoogleCloud

Przeciążone hasło z tymi 2 możliwymi definicjami:

Kategoria sprzętu, który może uruchamiać sesję TensorFlow, obejmujący CPU, GPU i TPU.
Podczas trenowania modelu ML na układach akceleratora (GPU lub TPU) ta część systemu, która faktycznie manipuluje procesorami i umieszczonymi elementami. Urządzenie korzysta z układów akceleratora. Z kolei host zwykle działa na CPU.

prywatność różnicowa

W przypadku systemów uczących się podejście do anonimizacji do ochrony danych wrażliwych (na przykład danych osobowych) zawartych w zbiorze treningowym przed ujawnieniem. Dzięki temu model nie uczy się zbyt wiele na temat konkretnej osoby ani ich nie pamięta. Jest to możliwe dzięki próbkowaniu i dodaniu szumu podczas trenowania modelu. Pozwala to ukryć poszczególne punkty danych, co zmniejsza ryzyko ujawnienia poufnych danych treningowych.

Prywatność różnicowa jest też wykorzystywana poza systemami uczącymi się. Na przykład podczas obliczania statystyk użytkowania usług w przypadku różnych grup demograficznych badacze danych czasami używają prywatności różnicowej, aby chronić prywatność poszczególnych osób.

redukcja wymiarów

Zmniejszenie liczby wymiarów używanych do reprezentowania konkretnej cechy w wektorze cech, zwykle przez skonwertowanie go do wektora osadzającego.

wymiary

Przeciążone hasło mające dowolną z tych definicji:

Liczba poziomów współrzędnych w Tensor. Przykład:
- Skalar ma zerowy rozmiar, np. ["Hello"].
- Wektor ma 1 wymiar, np. [3, 5, 7, 11].
- Macierz ma 2 wymiary, np. [[2, 4, 18], [5, 7, 14]].
W jednowymiarowym wektorze można jednoznacznie wskazać konkretną komórkę. Do jednoznacznego wskazania konkretnej komórki w dwuwymiarowej macierze potrzebne są 2 współrzędne.
Liczba wpisów w wektorze cech.
Liczba elementów w warstwie osadzonej.

prompty bezpośrednie

#language

#generatywna AI

Synonim promptów typu „zero-shot”.

cecha dyskretna

#fundamentals

Cechę ze skończonym zestawem możliwych wartości. Na przykład cecha, której wartości mogą mieć tylko wartości animal, vegetable lub mineral, jest cechą dyskretną (lub kategoryczną).

kontrastuje z funkcją ciągłą;

model dyskryminacyjny

model, który prognozuje model na podstawie zestawu model. Bardziej oficjalnie modele dyskryminacyjne definiują warunkowe prawdopodobieństwo danych wyjściowych, biorąc pod uwagę cechy i wagi, czyli:

p(output | features, weights)

Na przykład model dyskryminacyjny, który prognozuje, czy e-mail jest spamem z powodu cech i wag,

Zdecydowana większość modeli uczenia nadzorowanego, w tym modele klasyfikacji i regresji, to modele dyskryminacyjne.

Różnica z modelem generatywnym.

dyskryminator

System określający, czy przykłady są prawdziwe czy fałszywe.

Z kolei podsystem w ramach generatywnej sieci kontradyktoryjnej, który określa, czy przykłady utworzone przez generator są prawdziwe czy fałszywe.

zróżnicowany wpływ

#fairness

Podejmowanie decyzji o ludziach, które w nieproporcjonalny sposób oddziałują na różne podgrupy populacji. Zwykle odnosi się to do sytuacji, w których algorytmiczny proces decyzyjny jest szkodliwy dla niektórych podgrup lub przydaje się bardziej niż innym.

Załóżmy na przykład, że algorytm, który określa, czy liliputian może uzyskać kredyt hipoteczny, z większym prawdopodobieństwem sklasyfikuje go jako „niekwalifikujący się”, jeśli adres pocztowy zawiera określony kod pocztowy. Jeśli liliputi z Wielkiej Brytanii mają adresy pocztowe z tym kodem pocztowym niż Lilliputians, ten algorytm może mieć różny wpływ na odbiorców.

Inaczej jest w przypadku zróżnicowania traktowania, które koncentruje się na rozbieżnościach wynikających z sytuacji, gdy cechy podgrup stanowią konkretne dane wejściowe do algorytmicznego procesu decyzyjnego.

leczenie zróżnicowane

#fairness

Uwzględnianie wrażliwych cech osób w algorytmicznym procesie decyzyjnym, w którym różne podgrupy są traktowane inaczej.

Weźmy na przykład algorytm, który określa, czy liliputowie mogą ubiegać się o pożyczkę na kredyt miniaturowy, na podstawie danych, które podają we wniosku o kredyt. Jeśli algorytm wykorzystuje przynależność do Lilliputiana jako danych wejściowych Wielkich lub Małych, stosuje zróżnicowane traktowanie w tym wymiarze.

Inaczej jest w przypadku różnicowego wpływu, który koncentruje się na różnicach w społecznym wpływie decyzji opartych na algorytmie na podgrupy niezależnie od tego, czy te podgrupy stanowią dane wejściowe modelu.

oczyszczanie

#generatywna AI

Proces zmniejszania rozmiaru 1 model (zwanego model) do mniejszego modelu (nazywanego model), który najwierniej symuluje prognozy oryginalnego modelu. Oczyszczanie jest przydatne, ponieważ mniejszy model ma 2 główne zalety w porównaniu z większym modelem (nauczycielem):

Szybszy czas wnioskowania
Mniejsze zużycie pamięci i energii

Jednak prognozy ucznia zazwyczaj nie są tak dokładne jak prognozy nauczyciela.

Proces oczyszczania trenuje model ucznia w celu minimalizacji funkcji straty na podstawie różnicy między wynikami prognoz modeli ucznia i nauczyciela.

Porównaj oczyszczanie z następującymi hasłami:

distribution

Częstotliwość i zakres różnych wartości dla danej cechy lub etykiety. Rozkład określa prawdopodobieństwo, że określona wartość jest prawdopodobna.

Na ilustracji poniżej przedstawiono histogramy z 2 różnych rozkładów:

Po lewej: rozkład dochodu według prawa w porównaniu z liczbą osób posiadających ten bogactwo.
Po prawej: normalny rozkład wysokości w porównaniu z liczbą osób mających tę wysokość.

Dwa histogramy. Jeden histogram przedstawia rozkład prawa władzy z bogactwem na osi X, a na osi Y przedstawia liczbę osób mających ten dobrobyt. Większość ludzi ma bardzo niewiele majątku, a nieliczne – duże. Drugi histogram pokazuje rozkład normalny z wysokością na osi X i liczbą osób o tej wysokości na osi Y. Większość ludzi znajduje się w pobliżu środka.

Znajomość każdej cechy i rozkładu etykiet pomoże Ci określić sposób normalizowania wartości i wykrywania wartości odstających.

Wyrażenie out of Distribution (brak dystrybucji) odnosi się do wartości, która nie pojawia się w zbiorze danych lub występuje bardzo rzadko. Na przykład obraz planety Saturn zostałby uznany za niewłaściwy w zbiorze danych składających się z obrazów kotów.

grupowanie niezgodne

#clustering

Zapoznaj się z informacjami na temat grupowania hierarchicznego.

Downsampling

#image

Przeciążone hasło, które może mieć jedno z tych znaczenia:

Zmniejszenie ilości informacji w funkcji w celu bardziej efektywnego wytrenowania modelu. Na przykład przed wytrenowaniem modelu rozpoznawania obrazów przez zmniejszenie próbkowania obrazów o wysokiej rozdzielczości do formatu o niższej rozdzielczości.
Trenowanie na nieproporcjonalnie niskim odsetku nadreprezentowanych przykładów klas w celu ulepszenia trenowania modelu w klasach niedostatecznie reprezentowanych. Na przykład w zbiorze danych o nierównowadze klas modele zazwyczaj uczą się dużo o klasie większości i niewystarczająco dużo o klasie mniejszości. Próbkowanie typu Downsampling pomaga zachować równowagę pomiędzy intensywnością trenowania w przypadku klas większości i mniejszości.

nazwa DQN

#rl

Skrót od Deep Q-Network.

regularyzacja porzuceń

Forma regularizacji przydatna w trenowaniu sieci neuronowych. Regularizowanie porzucenia powoduje usunięcie losowego wyboru stałej liczby jednostek w warstwie sieci na potrzeby pojedynczego kroku gradientu. Im więcej jednostek zostało utraconych, tym silniejsze regularność. Przypomina to trenowanie sieci do emulacji niezwykle dużego zespołu z mniejszych sieci. Więcej informacji znajdziesz w artykule Porzucenie: prosty sposób na zapobieganie nadmiernemu dopasowaniu sieci neuronowych.

dynamiczny

#fundamentals

Coś robionego często lub na bieżąco. W systemach uczących się terminy dynamiczny i online to synonimy. Oto najczęstsze zastosowania atrybutów dynamic i online w systemach uczących się:

Model dynamiczny (lub model online) to model, który jest ponownie trenowany często lub w sposób ciągły.
Trenowanie dynamiczne (lub trenowanie online) to proces częstego lub ciągłego trenowania.
Wnioskowanie dynamiczne (lub wnioskowanie online) to proces generowania prognoz na żądanie.

model dynamiczny

#fundamentals

model, który jest często (nawet w czasie ciągłym) trenowania. Model dynamiczny to „uczenie się przez całe życie”, które na bieżąco dostosowuje się do zmieniających się danych. Model dynamiczny jest też nazywany modelem online.

Różnica z modelem statycznym.

E

szybkie wykonanie

#TensorFlow

Środowisko programistyczne TensorFlow, w którym operations są uruchamiane natychmiast. W przeciwieństwie do tego operacje wywoływane w wykonaniu wykresu nie są uruchamiane, dopóki nie zostaną wyraźnie ocenione. Szybkie wykonywanie to interfejs imperatywny, podobnie jak kod w większości języków programowania. Łatwiejsze debugowanie programów wykonawczych jest znacznie łatwiejsze niż w przypadku programów do wykonywania grafów.

wcześniejsze zatrzymanie

#fundamentals

Metoda regularizacji, która obejmuje zakończenie trenowania przed zakończeniem trenowania, maleje. We wczesnej fazie zatrzymywania celowo zatrzymujesz model, gdy utrata dostępu do zbioru danych do weryfikacji zaczyna rosnąć, czyli gdy pogorszy się skuteczność uogólnienia.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Wcześniejsze zatrzymanie może wydawać się sprzeczne z intuicją. W końcu mówienie modelowi, aby przerwał trenowanie, gdy straty maleją, może wydawać się mówienie szefowi kuchni, aby przestał gotować, zanim deser będzie gotowy. Jednak zbyt długie trenowanie modelu może doprowadzić do nadmiernego dopasowania. Oznacza to, że jeśli trenujesz model zbyt długo, może dopasować się do danych treningowych tak ściśle, że nie przewinie dobrych prognoz na nowych przykładach.

odległość od Ziemi (EMD)

Miara względnego podobieństwa 2 dystrybucji. Im mniejsza odległość, tym bardziej zbliżone są rozkłady.

edytuj odległość

#language

Pomiar podobieństwa dwóch ciągów tekstowych. W przypadku uczenia maszynowego edytowanie odległości jest przydatne, ponieważ jest łatwe do obliczenia i efektywnym sposobem porównywania 2 ciągów, o których wiemy, że są podobne, lub znajdowania ciągów podobnych do danego ciągu.

Istnieje kilka definicji odległości do edycji, z których każda używa innych operacji na ciągu znaków. Na przykład odległość Levenshteina uwzględnia najmniejszą liczbę operacji usuwania, wstawiania i zastępowania.

Na przykład odległość Levenshteina między słowami „serce” i „rzutki” wynosi 3, ponieważ te 3 to najmniejsze zmiany, które zamieniają jedno słowo w drugie:

serce → deart (zastąp literę „h” przez „d”)
deart → dart (usuń „e”)
dart → rzutki (wstaw „s”)

Zapis Einsum

Skuteczny zapis służący do opisania sposobu łączenia 2 tensorów. Tensory są łączone przez mnożenie elementów jednego tensora przez elementy drugiego tensora, a następnie sumowanie iloczynów. W notacji Einsum osie każdego tensora są wskazywane za pomocą symboli i zmieniane są ich kolejność, aby określić kształt tensora wynikowego.

NumPy to typowa implementacja Einsum.

warstwa wektorowa

#language

#fundamentals

Specjalna ukryta warstwa, która trenuje na wysokiej, kategoriach funkcji, aby stopniowo uczyć się wektora wektora dystrybucyjnego dla niższego wymiaru. Warstwa osadzania umożliwia sieci neuronowej trenowanie znacznie efektywniej niż trenowanie wyłącznie na podstawie wyłącznie wysokowymiarowej cechy kategorialnej.

Na przykład na Ziemi obecnie obsługiwanych jest około 73 000 gatunków drzew. Załóżmy, że cecha modelu jest cechą,więc warstwa wejściowa modelu zawiera jedny gorący wektor mający 73 tys. elementów. Wartość baobab zostałaby przedstawiona w ten sposób:

Tablica 73 000 elementów. Pierwsze 6232 elementy mają wartość 0. Następny element zawiera wartość 1. Ostatnie 66 767 elementów ma wartość 0.

Tablica z 73 000 elementów jest bardzo długa. Jeśli nie dodasz do modelu warstwy osadzania, trenowanie będzie bardzo czasochłonne ze względu na pomnożenie przez 72 999 zer. Wyobraź sobie, że warstwa osadzająca się składa się z 12 wymiarów. W efekcie warstwa osadzająca będzie stopniowo uczyć się nowego wektora dystrybucyjnego dla każdego gatunku drzew.

W niektórych sytuacjach rozsądna alternatywa dla warstwy osadzonej jest uzasadnioną alternatywą szyfrowania.

przestrzeń wektorowa

#language

Mapowana jest przestrzeń wektorowa w wymiarze D obejmująca więcej wymiarowej przestrzeni wektorowej. W idealnej sytuacji przestrzeń reprezentacji właściwościowych powinna zawierać strukturę, która daje wymierne wyniki matematyczne. Na przykład w idealnej przestrzeni reprezentacji właściwościowych dodawanie i odejmowanie reprezentacji właściwościowych może rozwiązać zadania związane z analogią słowną.

Iloczyn punktowy dwóch wektorów dystrybucyjnych pozwala określić ich podobieństwo.

wektor dystrybucyjny

#language

Ogólnie rzecz biorąc, jest to tablica liczb zmiennoprzecinkowych pobranych z dowolnej ukrytej warstwy, która opisuje dane wejściowe tej ukrytej warstwy. Często wektorem dystrybucyjnym jest tablica liczb zmiennoprzecinkowych wytrenowanych w warstwie wektora dystrybucyjnego. Załóżmy na przykład, że warstwa osadzająca musi nauczyć się wektora osadzania dla każdego z 73 000 gatunków drzew na Ziemi. Możliwe, że ta tablica to wektor reprezentacji właściwościowej drzewa baobabu:

Tablica 12 elementów, z których każdy zawiera liczbę zmiennoprzecinkową z zakresu od 0,0 do 1,0.

Wektor dystrybucyjny nie jest grupą liczb losowych. Warstwa wektorowa określa te wartości przez trenowanie, podobnie jak sieć neuronowa uczy się innych wag podczas trenowania. Każdy element tablicy to ocena powiązana z jakąś cechą gatunku drzewa. Który element reprezentuje cechy którego gatunku drzewa? Ludziom to bardzo trudno określić.

Niezwykłą matematyczną częścią wektora dystrybucyjnego jest fakt, że podobne elementy mają podobne zestawy liczb zmiennoprzecinkowych. Na przykład podobne gatunki drzew mają bardziej podobny zestaw liczb zmiennoprzecinkowych niż różne gatunki drzew. Sekwoja i sekwoje to gatunek drzewo kokosowe, dlatego ich liczba zmiennoprzecinkowa jest bardziej podobna do sekwoi niż sekwoje i palm kokosowych. Liczby w wektorze dystrybucyjnym zmieniają się za każdym razem, gdy ponownie trenujesz model, nawet jeśli wytrenujesz model z takimi samymi danymi wejściowymi.

empiryczna funkcja rozkładu skumulowanego (eCDF lub EDF)

Funkcja rozkładu skumulowanego oparta na pomiarach empirycznych z rzeczywistego zbioru danych. Wartość funkcji w dowolnym momencie na osi X to odsetek obserwacji w zbiorze danych, który nie przekracza określonej wartości lub jest jej równa.

empiryczna minimalizacja ryzyka (ERM)

Wybierz funkcję, która minimalizuje straty w zbiorze treningowym. Przeciwieństwem jest minimalizacja ryzyka strukturalnego.

koder

#language

Ogólnie każdy system ML, który konwertuje reprezentację nieprzetworzoną, rozproszoną lub zewnętrzną w bardziej przetworzoną, gęstszą lub bardziej wewnętrzną reprezentację.

Kodery są często składnikami większych modeli, które są często parowane z dekoderem. Niektóre Transformery parują kodery z dekoderami, ale inne korzystają tylko z enkodera lub tylko dekodera.

Niektóre systemy wykorzystują dane wyjściowe kodera jako dane wejściowe do sieci klasyfikacji lub regresji.

W zadaniach sekwencyjnych z sekwencją koder pobiera sekwencję wejściową i zwraca stan wewnętrzny (wektor). Następnie na podstawie tego stanu wewnętrznego dekoder przewiduje następną sekwencję.

Definicję kodera w architekturze Transformer znajdziesz w artykule Transformer.

zespół

Zbiór modeli trenowanych niezależnie, których prognozy są uśredniane lub agregowane. W wielu przypadkach zespół generuje lepsze prognozy niż pojedynczy model. Na przykład las losowy to zbiór złożony z wielu drzew decyzyjnych. Pamiętaj, że nie wszystkie lasy decyzji to zespoły.

entropia

#df

W teorii informacji to opis nieprzewidywalności rozkładu prawdopodobieństwa. Entropia jest też zdefiniowana jako ilość informacji w każdym przykładzie. Rozkład ma najwyższą możliwą entropię, gdy wszystkie wartości zmiennej losowej są jednakowe.

Entropia zbioru z 2 możliwymi wartościami „0” i „1” (na przykład etykiet w zadaniu klasyfikacji binarnej) ma następujący wzór:

H = -p log p - q log q = -p log p - (1-p) * log (1-p)

gdzie:

H oznacza entropię.
p to ułamek z wartości „1”.
Q to ułamek z przykładów „0”. Pamiętaj, że q = (1 – p).
log to zwykle log₂. W tym przypadku jednostka entropii jest nieco mniejsza.

Załóżmy na przykład, że:

100 przykładów zawiera wartość „1”
300 przykładów zawiera wartość „0”

W związku z tym wartość entropii wynosi:

P = 0,25
Q = 0,75
H = (-0,25)log₂(0,25) - (0,75)log₂(0,75) = 0,81 bitu na przykład

Zestaw, który jest idealnie zrównoważony (np.200 „0” i 200 „1”), miałby entropię równą 1,0 bitu na przykład. W miarę jak zbiór staje się bardziej nierównoważny, jego entropia przesuwa się w kierunku 0,0.

W drzewach decyzyjnych entropia pomaga sformułować zysk informacji, aby pomóc rozdzielnikowi wybrać warunki w trakcie rozwoju drzewa decyzyjnego.

Porównaj entropię z:

nieczyszczenie gini
funkcja straty entropii krzyżowej

Entropia jest często nazywana entropią Shannona.

środowisko

#rl

Podczas uczenia się przez wzmacnianie świata, który zawiera agenta i pozwala agentowi obserwować stan danego świata. Światem reprezentowanym może być na przykład szachy albo wirtualny świat jak mauzoleum. Gdy agent zastosuje działanie do środowiska, środowisko przechodzi między stanami.

odcinek

#rl

W ramach uczenia się przez wzmacnianie każda z powtarzanych prób agenta poznawania środowiska.

początek epoki : epoka

#fundamentals

Pełną kartę treningową obejmującą cały zbiór treningowy, tak aby każdy przykład został przetworzony raz.

Epoka reprezentuje N/rozmiar wsadowy iteracji podczas trenowania, gdzie N to łączna liczba przykładów.

Załóżmy na przykład, że:

Zbiór danych zawiera 1000 przykładów.
Wielkość wsadu to 50 przykładów.

Dlatego pojedyncza epoka wymaga 20 iteracji:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

zasady zachłanne epsilon

#rl

W przypadku uczenia przez wzmacnianie zasady, które są zgodne z losowymi zasadami z prawdopodobieństwem ypsilon lub z zasadą zachłanną w innym przypadku. Jeśli na przykład wartość ypsilon wynosi 0,9, zasada jest w 90% przypadków losowa, a zasada zachłanna w 10%.

W kolejnych odcinkach algorytm obniża wartość ypsilon, aby zamiast niej stosować się do zasady zachłannej. Zmieniając zasady, agent najpierw losowo bada środowisko, a potem zachęcnie wykorzystuje wyniki eksploracji losowej.

równość szans

#fairness

Wskaźnik obiektywności pozwalający ocenić, czy model prognozuje jednakowo pożądany wynik w przypadku wszystkich wartości atrybutu o charakterze kontrowersyjnym. Inaczej mówiąc, jeśli pożądanym wynikiem modelu jest klasa dodatnia, celem powinno być, aby wskaźnik prawdziwie pozytywnych był taki sam we wszystkich grupach.

Równość możliwości jest związana z wyrównaniem szans, co wymaga, aby zarówno współczynniki prawdziwie pozytywnych, jak i współczynniki fałszywie pozytywnych były takie same we wszystkich grupach.

Załóżmy, że do rygorystycznego programu matematycznego przyjmują liliputowie i brązowie Szkoły średnie szkoły liliputów oferują obszerny program zajęć z matematyki, a zdecydowana większość uczniów kwalifikuje się do udziału w programie uniwersyteckim. Szkoły średnie w Brobdingnagians w ogóle nie oferują zajęć z matematyki, przez co znacznie mniej uczniów ma do nich kwalifikacje. Równość szans jest zapewniona w przypadku preferowanej etykiety „adkceptowana” w odniesieniu do narodowości (liliput albo brobdingnagia), jeśli kwalifikowani uczniowie z równym prawdopodobieństwem zostaną przyjęte, niezależnie od tego, czy są liliputami czy brobdingnagiem.

Załóżmy na przykład, że do Uniwersytetu w Glubbdubdrib składa się 100 liliputów i 100 brobdingnagiów, a decyzje o przyjęciu do programu są podejmowane w następujący sposób:

Tabela 1. Kandydaci na stanowiska liliputów (90% to kwalifikowani uczestnicy)

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	45	3
Odrzucono	45	7
Łącznie	90	10
Procent przyjętych studentów: 45/90 = 50% Odsetek niezakwalifikowanych uczestników: 7/10 = 70% Łączny odsetek przyjętych studentów z Liliputii: (45 + 3)/100 = 48%

Tabela 2. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	5	9
Odrzucono	5	81
Łącznie	10	90
Procent przyjętych studentów: 5/10 = 50% Odsetek niezakwalifikowanych uczestników: 81/90 = 90% Łączny odsetek przyjętych studentów z Brobdingnagian: (5 + 9)/100 = 14%

Poprzednie przykłady odpowiadają równości szans w przyjęciu do programu, ponieważ kwalifikowani liliputowie i członkowie Brobdingnagis mają 50% szans na przyjęcie do programu.

Chociaż spełnione jest równość szans, nie są spełnione te 2 wskaźniki obiektywności:

Spójność demograficzna: liliputi i brobdingnagiowie są przyjmowani na uniwersytet w różnym stopniu.
Wyrównane szanse: chociaż zakwalifikowani studenci lilipucki i brobdingnagii mają takie same szanse na przyjęcie do programu, to dodatkowe ograniczenie, zgodnie z którym niezakwalifikowani liliputowie i członkowie rasy Brobdingnagis mają taką samą szansę na odrzucenie, nie jest spełnione. Osoby pozbawione kwalifikacji mają 70% odrzuceń, a brak zakwalifikowanych uczestników – 90%.

Bardziej szczegółowe informacje na temat równości szans znajdziesz w artykule „Równość możliwości w ramach uczenia nadzorowanego”. Zapoznaj się też z wizualizacją w sekcji „Walka z dyskryminacją za pomocą inteligentnych systemów uczących się”, która przedstawia kompromisy przy optymalizacji pod kątem równości szans.

wyrównane szanse

#fairness

Wskaźnik obiektywności, który pozwala ocenić, czy model prognozuje wyniki w równym stopniu w przypadku wszystkich wartości atrybutu poufnego z uwzględnieniem zarówno klasy pozytywnej, jak i klasy ujemnej, a nie tylko jednej lub drugiej. Inaczej mówiąc, współczynnik prawdziwie pozytywnych i współczynnik wyników fałszywie negatywnych powinien być taki sam we wszystkich grupach.

Wyrównane szanse są związane z równością możliwości, która skupia się tylko na odsetku błędów danej klasy (pozytywnej lub ujemnej).

Załóżmy np., że Uniwersytet w Glubbdubdrib do rygorystycznego programu matematycznego przyjmuje zarówno liliputów, jak i Brobdingnagiansów. Szkoły średnie oferują szeroki zakres zajęć z matematyki, a znaczna większość uczniów kwalifikuje się do udziału w programie uniwersyteckim. Szkoły średnie w Żłobku w ogóle nie oferują zajęć z matematyki, przez co znacznie mniej uczniów ma do nich kwalifikacje. Zakładamy, że bez względu na to, czy kandydat jest liliputinem, czy małżonkiem brobdingnagiem, w równym stopniu prawdopodobieństwo przyjęcia do programu jest w takiej samej sytuacji, a w przypadku braku kwalifikacji prawdopodobieństwo odrzucenia jest równie duże.

Załóżmy, że do Uniwersytetu w Glubbdubdrib składa się 100 liliputów i 100 brobdingnagiów, a decyzje o przyjęciu do programu są podejmowane w następujący sposób:

Tabela 3. Kandydaci na stanowiska liliputów (90% to kwalifikowani uczestnicy)

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	45	2
Odrzucono	45	8
Łącznie	90	10
Procent przyjętych studentów: 45/90 = 50% Odsetek niezakwalifikowanych uczestników: 8/10 = 80% Łączny odsetek przyjętych uczniów z Wielkiej Brytanii: (45 + 2)/100 = 47%

Tabela 4. Kandydaci do Izby Reprezentantów (10% zakwalifikowanych):

	Zakwalifikowany	Niezakwalifikowany
Zaakceptowano	5	18
Odrzucono	5	72
Łącznie	10	90
Procent przyjętych studentów: 5/10 = 50% Odsetek niezakwalifikowanych uczestników: 72/90 = 80% Łączny odsetek przyjętych studentów z Brobdingnagian: (5 + 18)/100 = 23%

Wyrównane szanse są zaspokajane, ponieważ szanse na przyjęcie do programu mają kwalifikowani uczniowie Liliputi i Broddingnagian – 50%, a niezakwalifikowani lilliputi i brobdingnagian – 80% ryzyko odrzucenia.

Szanse wyrównane są oficjalnie zdefiniowane w sekcji „Równość możliwości w uczeniu nadzorowanym”: „Predyktor spełnia wyrównane szanse w odniesieniu do chronionego atrybutu A i wyniku Y, jeśli à i A są niezależne i warunkowo wiążą się z Y”.

estymator

#TensorFlow

Wycofany interfejs TensorFlow API. Zamiast szacunków używaj pliku tf.keras.

ocena

Proces pomiaru jakości prognoz modelu systemów uczących się. Podczas tworzenia modelu zazwyczaj stosujesz wskaźniki oceny nie tylko do zbioru treningowego, ale też do zbioru do walidacji i zestawu testowego. Możesz też wykorzystać dane oceny, aby porównać ze sobą różne modele.

przykład

#fundamentals

Wartości w jednym wierszu cech i ewentualnie etykiety. Przykłady w uczeniu nadzorowanym można podzielić na 2 ogólne kategorie:

Przykład oznaczony etykietą składa się z co najmniej 1 funkcji i etykiety. Przykłady oznaczone etykietami są używane podczas trenowania.
Przykład bez etykiety składa się z co najmniej 1 funkcji, ale bez etykiety. Podczas wnioskowania używane są przykłady bez etykiet.

Załóżmy, że trenujesz model do określenia wpływu warunków pogodowych na wyniki testów uczniów. Oto 3 przykłady oznaczone etykietami:

Funkcje			Etykieta
Temperatura	Wilgotność	Ciśnienie	Wynik testu
15	47	998	Prawidłowy
19	34	1020	Świetny
18	92	1012	Słaby

Oto 3 przykłady bez etykiet:

Temperatura	Wilgotność	Ciśnienie
12	62	1014a
21	47	1017
19	41	1021

Wiersz zbioru danych jest zwykle nieprzetworzonym źródłem przykładu. Oznacza to, że przykład zwykle obejmuje podzbiór kolumn w zbiorze danych. Cechy w przykładzie mogą też obejmować funkcje syntetyczne, takie jak krzyżówki.

ponowne odtworzenie doświadczenia

#rl

W uczeniu przez wzmacnianie jest to technika DQN wykorzystywana do ograniczania korelacji czasowych w danych treningowych. Agent zapisuje przejścia stanów w buforze ponownego odtwarzania, a następnie próbkuje przejścia z tego bufora do tworzenia danych treningowych.

efekt eksperymentu

#fairness

Zobacz odchylenie potwierdzenia.

problem z wybuchowym gradientem

#seq

Tendencja gradientów w głębokich sieciach neuronowych (zwłaszcza powracających sieci neuronowych) jest zaskakująco stroma (wysoka). Ostre gradienty często powodują bardzo duże zmiany wag każdego węzła w głębokiej sieci neuronowej.

Modele, w których występuje problem z eksplodującą gradientem, stają się trudne lub niemożliwe do wytrenowania. Przycinanie gradientu może rozwiązać ten problem.

Porównaj problem ze znikającym gradientem.

F

K₁

Dane „o pełnym zakresie” dotyczące klasyfikacji plików binarnych, które zależą zarówno od precyzji, jak i czułości. Oto wzór:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

Na przykład na podstawie tych elementów:

precyzja = 0,6
czułość = 0,4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

Gdy precyzja i czułość są dość podobne (jak w poprzednim przykładzie), F₁ jest zbliżony do średniej. Gdy precyzja i czułość znacznie się różnią, F₁ jest bliżej dolnej wartości. Na przykład:

precyzja = 0,9
czułość = 0,1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

ograniczenie obiektywności

#fairness

Stosowanie ograniczenia do algorytmu w celu zapewnienia co najmniej 1 definicji obiektywności. Przykłady ograniczeń związanych z obiektywnością:

Po przetworzeniu danych wyjściowych modelu.
Zmodyfikować funkcję straty, aby uwzględnić karę za naruszenie wskaźnika obiektywności.
Bezpośrednie dodawanie ograniczenia matematycznego do zadania optymalizacyjnego.

wskaźnik obiektywności

#fairness

Mierzalna definicja „sprawiedliwości” matematycznej. Niektóre często używane wskaźniki obiektywności:

Wiele wskaźników obiektywności wzajemnie się wyklucza; zobacz niezgodność wskaźników obiektywności.

fałszywie negatywny (FN)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę ujemną. Model przewiduje na przykład, że konkretny e-mail nie jest spamem (klasa negatywna), ale tak naprawdę jest spamem.

współczynnik wyników fałszywie negatywnych

Odsetek rzeczywistych przykładów pozytywnych, w przypadku których model błędnie przewidział klasę ujemną. Ten wzór oblicza współczynnik fałszywie ujemnych:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

fałszywie dodatni (FP)

#fundamentals

Przykład, w którym model błędnie prognozuje klasę pozytywną. Model przewiduje na przykład, że dany e-mail zawiera spam (klasa pozytywna), ale tak naprawdę nie jest spamem.

współczynnik wyników fałszywie pozytywnych (FPR)

#fundamentals

Odsetek rzeczywistych przykładów negatywnych, w przypadku których model błędnie przewidział klasę pozytywną. Ten wzór oblicza współczynnik wyników fałszywie pozytywnych:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

Współczynnik wyników fałszywie pozytywnych to oś X na krzywej ROC.

cecha [in context of machine learning]

#fundamentals

Zmienna wejściowa dla modelu systemów uczących się. Przykład składa się z co najmniej 1 funkcji. Załóżmy np., że trenujesz model do określania wpływu warunków pogodowych na wyniki sprawdzianów uczniów. W tabeli poniżej znajdziesz 3 przykłady, z których każdy zawiera 3 funkcje i 1 etykietę:

Funkcje			Etykieta
Temperatura	Wilgotność	Ciśnienie	Wynik testu
15	47	998	92
19	34	1020	84
18	92	1012	87

Różnica za pomocą atrybutu etykieta.

krzyżówka

#fundamentals

Funkcje syntetyczne utworzone przez „krzyżowanie” cech kategorialnych lub pogrupowanych.

Weźmy na przykład model „prognozowania nastroju”, który reprezentuje temperaturę w jednym z 4 zasobników:

freezing
chilly
temperate
warm

I przedstawia prędkość wiatru w jednym z 3 rodzajów:

still
light
windy

Bez krzyżów cech model liniowy trenuje niezależnie w każdym z poprzednich 7 różnych zasobników. Model trenuje więc na przykład na freezing niezależnie od trenowania na danych windy.

Możesz też utworzyć wykres krzyżowy temperatury i prędkości wiatru. Ta funkcja syntetyczna miałaby 12 możliwych wartości:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Dzięki krzyżom cech model może poznać różnice nastrojów między freezing-windy a freezing-still dniem.

Jeśli utworzysz cechę syntetyczną z 2 cech, z których każda ma wiele różnych segmentów, wynikowy krzyż cech będzie miał ogromną liczbę możliwych kombinacji. Jeśli na przykład jedna cecha ma 1000 zasobników, a druga 2000 zasobników, wynikowy krzyż cech będzie miał 2 000 000 zasobników.

Formalnie krzyż to iloczyn kartezjański.

Krzyżówki cech są używane głównie w modelach liniowych, a rzadko w sieciach neuronowych.

ekstrakcja wyróżników

#fundamentals

#TensorFlow

Proces, który obejmuje te kroki:

Określeniu, które funkcje mogą być przydatne podczas trenowania modelu.
nieprzetworzone dane ze zbioru danych w wydajne wersje tych funkcji.

Może się np. okazać, że przydatną funkcją jest temperature. Następnie możesz poeksperymentować z grupowaniem, aby zoptymalizować to, czego model może się uczyć na podstawie różnych zakresów temperature.

Inżynieria cech jest czasami nazywana wyodrębnianiem cech lub featuryzacjami.

Kliknij ikonę, aby wyświetlić dodatkowe uwagi na temat TensorFlow.

W TensorFlow inżynieria cech często oznacza konwertowanie wpisów nieprzetworzonych dzienników na bufory protokołu tf.Example. Zobacz też tf.Transform.

wyodrębnianie cech

Przeciążone hasło mające jedną z tych definicji:

Pobieranie reprezentacji cech pośrednich obliczonych przez model nienadzorowany lub wytrenowany (np. wartości ukrytej warstwy w sieci neuronowej) do wykorzystania jako danych wejściowych w innym modelu.
Synonim wyrażenia inżynieria cech.

znaczenie cech

#df

Synonim zmiennej ważności.

zbiór cech

#fundamentals

Grupa funkcji, na których trenuje model systemów uczących się. Na przykład kod pocztowy, rozmiar nieruchomości i stan nieruchomości mogą zawierać prosty zestaw funkcji dla modelu prognozującego ceny nieruchomości.

specyfikacja funkcji

#TensorFlow

Opisuje informacje wymagane do wyodrębnienia danych features z bufora protokołu tf.Example. Bufor protokołu tf.Example jest tylko kontenerem na dane, więc musisz określić te elementy:

dane do wyodrębnienia (czyli klucze do funkcji),
typ danych (np. liczba zmiennoprzecinkowa lub int).
długość (stała lub zmienna),

wektor cech

#fundamentals

Tablica wartości feature stanowiących przykład. Wektor cechy jest wprowadzany podczas trenowania i wnioskowania. Na przykład wektorem cech modelu z 2 odrębnymi cechami może być:

[0.92, 0.56]

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i 1 warstwa wyjściowa.
Warstwa wejściowa zawiera 2 węzły, jeden o wartości 0,92, a drugi 0,56.

W każdym przykładzie mamy inne wartości wektora cechy, więc w następnym wektorze będzie on podobny do tego:

[0.73, 0.49]

Inżynieria cech określa sposób przedstawiania cech w wektorze cech. Na przykład cecha kategoryczna z 5 możliwymi wartościami binarnymi może być reprezentowana za pomocą kodowania 1 gorące. W tym przypadku część wektora cech w danym przykładzie składała się z 4 zer i jednej 1,0 w trzeciej pozycji:

[0.0, 0.0, 1.0, 0.0, 0.0]

W kolejnym przykładzie załóżmy, że Twój model składa się z 3 cech:

cecha binarna kategorii binarnej z 5 możliwymi wartościami reprezentowanymi przez kodowanie jednorazowe, np. [0.0, 1.0, 0.0, 0.0, 0.0]
kolejną cechę kategoryczną typu binarnego z 3 możliwymi wartościami reprezentowanymi przez kodowanie jeden raz, np.: [0.0, 0.0, 1.0]
funkcję zmiennoprzecinkową, np. 8.3.

W tym przypadku wektor cech w każdym przykładzie byłby reprezentowany przez 9 wartości. Na podstawie przykładowych wartości z poprzedniej listy wektor cech będzie wyglądał tak:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

featurizacja

Proces wyodrębniania cech ze źródła danych wejściowych, np. dokumentu lub filmu, i mapowania tych cech na wektor cech.

Niektórzy eksperci ds. systemów uczących się używają featurizacji jako synonimu inżynierii cech lub wyodrębniania cech.

sfederowane uczenie się

Podejście do rozproszonych systemów uczących się, które trenuje modele systemów uczących się przy użyciu zdecentralizowanych przykładów znajdujących się na urządzeniach takich jak smartfony. W ramach sfederowanego uczenia się podzbiór urządzeń pobiera bieżący model z centralnego serwera koordynacyjnego. Urządzenia korzystają z przykładów zapisanych na urządzeniach, aby ulepszać model. Następnie urządzenia przesyłają ulepszenia modelu (ale nie przykłady treningowe) na serwer koordynujący, gdzie są one łączone z innymi aktualizacjami, aby uzyskać ulepszony model globalny. Po zagregowaniu aktualizacje modelu obliczane przez urządzenia nie są już potrzebne i można je odrzucić.

Ponieważ przykłady treningowe nie są nigdy przesyłane, sfederowane uczenie się jest zgodne z zasadami prywatności, które polegają na ukierunkowanym gromadzeniu i minimalizacji danych.

Więcej informacji o sfederowanym uczeniu znajdziesz w tym samouczku.

pętla informacji zwrotnych

#fundamentals

W systemach uczących się jest to sytuacja, w której prognozy modelu wpływają na dane do trenowania tego samego lub innego modelu. Na przykład model polecający filmy wpływa na to, jakie filmy oglądają widzowie, a to wpływa na kolejne modele rekomendacji.

sieć neuronowa (FFN)

Sieć neuronowa bez połączeń cyklicznych ani rekurencyjnych. Na przykład tradycyjne głębokie sieci neuronowe to sieci neuronowe typu „feedforward”. Przeciwieństwem są powracające sieci neuronowe, które są cykliczne.

nauka jednorazowa

Podejście oparte na systemach uczących się, często używane do klasyfikacji obiektów, zaprojektowane do trenowania skutecznych klasyfikatorów na podstawie niewielkiej liczby przykładów trenowania.

Zapoznaj się też z artykułami nauczanie jednorazowe i nauka „zero-shot”.

prompty „few-shot”

#language

#generatywna AI

Prompt zawierający więcej niż 1 „kilka” przykładów demonstrujących, jak powinien reagować duży model językowy. Na przykład ten długi prompt zawiera 2 przykłady, które pokazują, jak duży model językowy odpowiada na zapytanie.

Elementy jednego promptu	Notatki
`Jaka jest oficjalna waluta w danym kraju?`	Pytanie, na które ma odpowiedzieć LLM.
`Francja: EUR`	Przykład:
`Wielka Brytania: GBP`	Kolejny przykład.
`Indie:`	Faktyczne zapytanie.

Prompty typu „few-shot” pozwalają uzyskać lepsze wyniki niż tak zwane prompty „zero-shot” i prompty typu „one-shot”. Pamiętaj jednak, że prompty „few-shot” wymagają dłuższego promptu.

Prompty jednorazowe to forma nauki krótkoterminowej stosowanej w nauce opartej na promptach.

Skrzypce

#language

Biblioteka konfiguracji wykorzystująca język Python, która ustawia wartości funkcji i klas bez inwazyjnego kodu lub infrastruktury. W przypadku Pax i innych baz kodu systemów uczących się te funkcje i klasy reprezentują modele oraz trenowanie hiperparametrów.

Fiddle zakłada, że bazy kodu systemów uczących się są zwykle podzielone na:

Kod biblioteczny, który definiuje warstwy i optymalizatory.
Kod „sklej” zbioru danych, który wywołuje ze sobą biblioteki i przewody.

Fiddle przechwytuje strukturę wywołania kodu glue w postaci nieocenionej i zmiennej.

dostrajanie

#language

#image

#generatywna AI

Drugi karnet treningowy do konkretnego zadania wykonany na wstępnie wytrenowanym modelu w celu doprecyzowania jego parametrów do konkretnego przypadku użycia. Na przykład pełna sekwencja trenowania w przypadku niektórych dużych modeli językowych wygląda tak:

Przed trenowaniem: wytrenuj duży model językowy na ogromnym ogólnym zbiorze danych, takim jak wszystkie strony Wikipedii w języku angielskim.
Dostrajanie: wytrenuj wytrenowany model do wykonywania określonego zadania, na przykład reagowania na zapytania medyczne. Dostrajanie obejmuje zwykle setki lub tysiące przykładów dotyczących konkretnego zadania.

Inny przykład to pełna sekwencja trenowania dużego modelu obrazu:

Wstępne trenowanie: wytrenuj duży model obrazów na rozległym zbiorze danych ogólnych obrazów, takim jak wszystkie obrazy w Wikimedia Commons.
Dostrajanie: wytrenuj już wytrenowany model do wykonania określonego zadania, na przykład generowania obrazów orek.

Dostrajanie może obejmować dowolną kombinację tych strategii:

Zmodyfikowanie wszystkich parametrów wytrenowanego modelu. Czasami nazywa się to pełnym dostrajaniem.
Zmodyfikowanie tylko niektórych istniejących parametrów wytrenowanego modelu (zwykle warstw znajdujących się najbliżej warstwy wyjściowej) bez zmian przy innych parametrach (zwykle warstwy najbliżej warstwy wejściowej). Zapoznaj się z informacjami o dostrajaniu energetycznym.
dodawanie kolejnych warstw, zwykle nad istniejącymi warstwami najbliżej warstwy wyjściowej,

Dostrajanie to forma nauki transferowej. W związku z tym do dostrajania może być używana inna funkcja straty lub inny typ modelu niż ten używany do trenowania już wytrenowanego modelu. Możesz na przykład dostroić wytrenowany duży model obrazów, aby uzyskać model regresji zwracający liczbę ptaków na obrazie wejściowym.

Porównaj dostrajanie z zastosowaniem tych haseł:

Len

#language

Wydajna biblioteka typu open source zbudowana na bazie JAX do deep learningu. Flax udostępnia funkcje do trenowania sieci neuronowych, a także metody oceny ich wydajności.

Len

#language

Biblioteka Transformer typu open source, oparta na technologii Flax, przeznaczona przede wszystkim do przetwarzania języka naturalnego i badań multimodalnych.

bramka zapomniana

#seq

Część komórki pamięci krótkoterminowej, która reguluje przepływ informacji przez komórkę. Bramy zapomnienia zachowują kontekst, decydując, które informacje mają zostać odrzucone ze stanu komórki.

pełny softmax

Synonim wyrażenia softmax.

Przeciwieństwem jest próbkowanie kandydatów.

w pełni połączona warstwa

Warstwa ukryta, w której każdy węzeł jest połączony z każdym węzłem w następnej warstwie ukrytej.

W pełni połączona warstwa nazywana jest też gęstą warstwą.

przekształcenie funkcji

Funkcja, która przyjmuje funkcję jako dane wejściowe i zwraca jako dane wyjściowe przekształconą funkcję. W JAX używane są przekształcenia funkcji.

G

GAN

Skrót od generatywnej sieci kontradyktoralnej.

uogólnianie

#fundamentals

Zdolność modelu do generowania prawidłowych prognoz na nowych, wcześniej niewyświetlonych danych. Model, który może uogólniać, jest przeciwieństwem nadmiernego dopasowania.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Wytrenujesz model na przykładach w zbiorze treningowym. W efekcie model uczy się specyfiki danych w zbiorze treningowym. Zasadniczo uogólnianie polega na pytaniu, czy model może generować dobre prognozy na przykładach, które nie znajdują się w zbiorze treningowym.

Aby zachęcić do uogólnienia, regularizacja pomaga trenować model mniej dokładnie do specyfiki danych w zbiorze treningowym.

krzywa uogólniania

#fundamentals

Wykres przedstawiający zarówno utratę trenowania, jak i utratę do weryfikacji jako funkcję liczby iteracji.

Krzywa uogólniania może pomóc w wykryciu możliwych nadmiernych dopasowania. Na przykład ta krzywa uogólnienia sugeruje nadmierne dopasowanie, ponieważ utrata walidacji staje się znacznie większa niż utrata trenowania.

Wykres kartezjański, w którym oś Y jest oznaczona jako utrata, a oś X – iteracje. Pojawią się 2 działki. Jeden wykres przedstawia utratę trenowania, a drugi utratę walidacji.
Te 2 wykresy zaczynają się podobnie, ale utrata trenowania spada znacznie poniżej wartości straty wynikającej z walidacji.

uogólniony model liniowy

Uogólnienie modeli regresji najmniejszych kwadratów opartych na szumie Gaussa do innych typów szumu na podstawie innych rodzajów szumu, takich jak szum Poissona czy szum kategoryczny. Przykłady uogólnionych modeli liniowych:

regresja logistyczna
regresja wieloklasowa
regresja metodą najmniejszych kwadratów

Parametry uogólnionego modelu liniowego można znaleźć dzięki optymalizacji wypukłej.

Uogólnione modele liniowe mają te właściwości:

Średnia prognoza optymalnego modelu regresji metodą najmniejszych kwadratów jest równa średniej etykiecie na danych treningowych.
Średnie prawdopodobieństwo prognozowane przez optymalny model regresji logistycznej jest równe średniej etykiecie danych treningowych.

Możliwości uogólnionego modelu liniowego są ograniczone przez jego cechy. W przeciwieństwie do modelu głębokiego uogólniony model liniowy nie może „uczyć się nowych funkcji”.

generatywna sieć kontrowersyjna (GAN)

System służący do tworzenia nowych danych, w którym generator tworzy dane, a dyskryminator określa, czy utworzone dane są prawidłowe czy nieprawidłowe.

generatywna AI

#language

#image

#generatywna AI

Rozwijające się pole transformacyjne bez formalnej definicji. Większość ekspertów zgadza się, że modele generatywnej AI mogą tworzyć („generować”) treści, które:

Złożone
spójne
oryginał

Na przykład generatywny model AI może tworzyć wyrafinowane eseje lub obrazy.

Niektóre wcześniejsze technologie, takie jak LSTM i RNN, również mogą generować oryginalne i spójne treści. Niektórzy eksperci traktują te wcześniejsze technologie jako generatywną AI, podczas gdy inni uważają, że prawdziwa generatywna AI wymaga bardziej złożonych wyników niż te wcześniejsze.

Przeciwieństwem są systemy uczące się predykcyjne.

model generatywny

Mówiąc w praktyce, model, który wykonuje jedną z tych czynności:

Tworzy (generuje) nowe przykłady ze zbioru danych treningowych. Na przykład model generatywny może tworzyć poezję po wytrenowaniu na zbiorze danych z wierszami. Do tej kategorii należy generator, który jest częścią sieci kontradyktoryjnych danych generatywnych.
Określa prawdopodobieństwo, że nowy przykład pochodzi ze zbioru treningowego lub że został utworzony za pomocą tego samego mechanizmu, który utworzył zbiór treningowy. Na przykład po trenowaniu na zbiorze danych składającym się z angielskich zdań model generatywny może określić prawdopodobieństwo, że nowe dane wejściowe są prawidłowym zdaniem w języku angielskim.

Model generatywny może teoretycznie rozróżnić rozkład przykładów lub określonych cech w zbiorze danych. Czyli:

p(examples)

Modele uczenia nienadzorowanego są generatywne.

Przedstaw kontrast z modelami dyskryminacyjnymi.

generator

Podsystem w ramach generatywnej sieci kontradyktoryjnej, który tworzy nowe przykłady.

Porównaj z modelem dyskryminacyjnym.

nieczystość ginie

#df

Dane podobne do entropii. Splotory wykorzystują wartości uzyskane na podstawie zanieczyszczenia ginie lub entropii do tworzenia warunków do klasyfikacji drzew decyzyjnych. Zysk informacji pochodzi z entropii. Nie istnieje uniwersalnie akceptowany termin odpowiadający danemu pozyskanemu z nieczystości gini. Ten nienazwany wskaźnik jest jednak równie ważny, co zysk informacji.

Nieczystość giniego jest również nazywana wskaźnikiem ginie lub po prostu gini.

Kliknij ikonę, aby uzyskać szczegółowe informacje matematyczne o nieczystości gini.

Nieczystość Gini to prawdopodobieństwo błędnej klasyfikacji nowego fragmentu danych z tego samego rozkładu. Nieczystość giini w zbiorze z 2 możliwymi wartościami „0” i „1” (np. w przypadku etykiet w zadaniu klasyfikacji binarnej) jest obliczane według tego wzoru:

I = 1 – (p² + q²) = 1 – (p² + (1 –p)²)

gdzie:

I to nieczystość gini.
p to ułamek z wartości „1”.
Q to ułamek z przykładów „0”. Pamiętaj, że q = 1-p.

Zobacz na przykład ten zbiór danych:

100 etykiet (0,25 zbioru danych) zawiera wartość „1”
300 etykiet (0,75 zbioru danych) zawiera wartość „0”

W związku z tym zanieczyszczenie gini to:

P = 0,25
Q = 0,75
I = 1 - (0,25² + 0,75²) = 0,375

W efekcie losowa etykieta z tego samego zbioru danych ma 37,5% szans na błędne sklasyfikowanie, a 62,5% na jej prawidłową sklasyfikowanie.

Idealnie zrównoważona etykieta (np.200 „0” i 200 „1”) będzie miała nieczystość giini o wartości 0, 5. Wysoce niezbalansowana etykieta miałaby zanieczyść giini bliską wartości 0,0.

golden zbiór danych

Zbiór ręcznie wybranych danych, które rejestrują dane podstawowe. Zespoły mogą używać jednego lub większej liczby złotych zbiorów danych do oceny jakości modelu.

Niektóre złote zbiory danych rejestrują różne subdomeny danych podstawowych. Na przykład złoty zbiór danych do klasyfikacji obrazów może rejestrować warunki oświetleniowe i rozdzielczość obrazu.

GPT (wytrenowany generatywny transformer)

#language

Rodzina dużych modeli językowych opartych na Transformerze, które zostały opracowane przez OpenAI.

Warianty GPT można stosować w wielu modalnościach, takich jak:

generowanie obrazów (np. ImageGPT)
generowanie tekstu na obraz (np. DALL-E).

gradient

Wektor pochodnych częściowych w odniesieniu do wszystkich zmiennych niezależnych. W uczeniu maszynowym gradient jest wektorem częściowych pochodnych funkcji modelu. Gradient wskazuje kierunek najbardziej stromego wzniesienia.

akumulacja gradientu

Technika propagacji wstecznej, w której parametry są aktualizowane tylko raz na epokę, a nie raz na iterację. Po przetworzeniu każdej minizbiorczej akumulacja gradientu aktualizuje łączną liczbę gradientów. Następnie, po przetworzeniu ostatniej miniczęści w epoce, system na koniec aktualizuje parametry na podstawie wszystkich zmian gradientu.

Akumulacja gradientów jest przydatna, gdy rozmiar grupy jest bardzo duży w porównaniu do ilości dostępnej pamięci do trenowania. Gdy pamięć jest problemem, naturalną tendencją jest zmniejszanie wielkości wsadu. Jednak zmniejszenie rozmiaru wsadu przy normalnej propagacji wstecznej zwiększa liczbę aktualizacji parametrów. Akumulacja gradientów pozwala modelowi uniknąć problemów z pamięcią, ale nadal trenuje wydajnie.

drzewa decyzyjne z wzmocnieniem gradientu (GBT),

#df

Rodzaj lasu decyzji, w którym:

Trenowanie opiera się na wzmacnianiu gradientu.
Słaby model to drzewo decyzyjne.

wzmocnienie gradientu

#df

Algorytm trenowania, w którym słabe modele są trenowane tak, aby iteracyjnie poprawiały jakość (zmniejszyła utratę) solidnego modelu. Słabym modelem może być na przykład liniowy lub mały model drzewa decyzyjnego. Silny model staje się sumą wszystkich wytrenowanych wcześniej słabych modeli.

W najprostszej formie wzmocnienia gradientem przy każdej iteracji słaby model jest trenowany tak, aby przewidywał gradient straty silnego modelu. Następnie dane wyjściowe mocnego modelu są aktualizowane przez odjęcie przewidywanego gradientu, podobnie jak w przypadku opadania gradientu.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

gdzie:

$F_{0}$ to początkowy solidny model.
Kolejnym solidnym modelem jest $F_{i+1}$.
$F_{i}$ to obecny solidny model.
$\xi$ to wartość z zakresu od 0,0 do 1,0 nazywana kurczeniem, która jest analogiczna do szybkości uczenia się w maleniu gradientowym.
$f_{i}$ to słaby model wytrenowany do przewidywania gradientu straty $F_{i}$.

Współczesne odmiany wzmocnienia gradientu obejmują też drugą pochodną (hesejską) straty podczas obliczeń.

Drzewa decyzyjne są zwykle używane jako słabe modele do wzmocnienia gradientu. Zobacz drzewa decyzyjne ze wzmocnieniem gradientu.

przycinanie gradientu

#seq

Powszechnie stosowany mechanizm łagodzenia problemu z gradientem przez sztuczne ograniczanie (przycinanie) maksymalnej wartości gradientów podczas używania zjawiska gradientu do trenowania modelu.

opadanie gradientowe

#fundamentals

Technika matematyczna do zminimalizowania strat. Spadek gradientowy iteracyjnie koryguje wagi i odchylenia, stopniowo znajdując najlepszą kombinację w celu zminimalizowania strat.

Metoda gradientowa jest starsza – znacznie, znacznie starsza niż systemy uczące się.

wykres

#TensorFlow

Specyfikacja obliczeń w TensorFlow. Węzły na wykresie reprezentują operacje. Krawędzie są kierowane i reprezentują wynik operacji (Tensor) jako argument do innej operacji. Użyj TensorBoard, aby zwizualizować wykres.

wykonanie grafu

#TensorFlow

Środowisko programistyczne TensorFlow, w którym program najpierw tworzy wykres, a potem wykonuje całość lub część grafu. Wykonanie grafu to domyślny tryb wykonywania w TensorFlow 1.x.

Przeciwieństwem jest wykonanie z zaangażowaniem.

niechętne zasady

#rl

W przypadku uczenia przez wzmacnianie zasada, która zawsze wybiera działanie przynoszące największy spodziewany zwrot.

dane podstawowe

#fundamentals

Reality show.

Rzecz, która faktycznie się wydarzyła.

Weźmy np. model klasyfikacji binarnej, który umożliwia prognozowanie, czy uczeń pierwszego roku studiów uzyska dyplom w ciągu 6 lat. Podstawowe informacje w tym modelu dotyczą tego, czy uczeń faktycznie ukończył 6 lat.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Jakość modelu oceniamy na podstawie danych podstawowych. Jednak dane podstawowe nie zawsze są prawdziwe. Rozważmy na przykład te przykłady potencjalnych niedoskonałości danych podstawowych:

Czy w przypadku przykładowego przejścia na standardową wersję masz pewność, że rekordy ukończenia każdego ucznia są zawsze poprawne? Czy uniwersyteckie dokumenty są bezbłędne?
Załóżmy, że etykieta jest wartością zmiennoprzecinkową mierzoną przez przyrządy (np. barometry). Jak możemy mieć pewność, że każdy instrument jest skalibrowany identycznie lub że każdy odczyt został przeprowadzony w tych samych okolicznościach?
Jeśli etykieta jest kwestią ludzkiej opinii, jak możemy mieć pewność, że każdy oceniający człowiek ocenia zdarzenia w ten sam sposób? Aby poprawić spójność, czasami interweniują doświadczeni weryfikatorzy.

efekt udziału grupy

#fairness

Założenie, że jedno jest prawdziwe, dotyczą też wszystkich osób w tej grupie. Efekty odchylenia atrybucji grupowej mogą się pogłębiać, jeśli do zbierania danych używane jest próbkowanie dogodne. W niereprezentatywnej próbie mogą zostać dokonane atrybucje, które nie odzwierciedlają rzeczywistości.

Zobacz też informacje o przesunięciu jednorodności poza grupą i w grupie.

H

halucynacje

#language

Tworzenie wiarygodnie pozornych, ale niepoprawnych pod względem merytorycznym wyników przez model generatywnej AI, który rzekomo tworzy wiarygodność prawdziwego świata. Na przykład generatywny model AI, który twierdzi, że Barack Obama zmarł w 1865 roku, jest zaburzający.

wyliczanie skrótu

W przypadku systemów uczących się mechanizm grupowania danych kategorialnych, zwłaszcza gdy liczba kategorii jest duża, ale liczba kategorii występujących faktycznie w zbiorze danych jest stosunkowo niewielka.

Na przykład na Ziemi rosną około 73 000 gatunków drzew. Możesz przedstawić każdy z 73 tys. gatunków drzew w 73 tys. oddzielnych segmentach. Jeśli natomiast w zbiorze danych znajduje się tylko 200 gatunków drzew, możesz podzielić gatunki drzew na 500 grup, używając haszowania.

Jeden zasobnik może zawierać wiele gatunków drzew. Można na przykład umieścić baobab i klon czerwony – dwa odmienne genetycznie gatunki – w tym samym zasobniku. Niezależnie od tego haszowanie jest nadal dobrym sposobem mapowania dużych zbiorów kategorii na wybraną liczbę zasobników. Haszowanie przekształca cechę kategorialną o dużej liczbie możliwych wartości w znacznie mniejszą liczbę wartości dzięki grupowaniu wartości w deterministyczny sposób.

heurystyka

Proste i szybkie rozwiązanie problemu. Na przykład: „Dzięki metodzie heurystyki osiągnęliśmy dokładność na poziomie 86%. Gdy przeszliśmy na głęboką sieć neuronową, dokładność wzrosła nawet o 98%”.

warstwa ukryta

#fundamentals

Warstwa w sieci neuronowej między warstwą wejściową (funkcje) a warstwą wyjściową (prognozą). Każda ukryta warstwa składa się z co najmniej jednego neuronu. Na przykład ta sieć neuronowa zawiera 2 ukryte warstwy, pierwszą z 3 neuronami, a drugą z 2 neuronami:

Głęboka sieć neuronowa zawiera więcej niż 1 ukrytą warstwę. Na przykład poprzednia ilustracja przedstawia głęboką sieć neuronowa, ponieważ model zawiera 2 ukryte warstwy.

grupowanie hierarchiczne

#clustering

Kategoria algorytmów grupowania, które tworzą drzewo klastrów. Grupowanie hierarchiczne dobrze sprawdza się w przypadku danych hierarchicznych, takich jak taksonomie botaniczne. Istnieją 2 rodzaje algorytmów klastra hierarchicznych:

Grupowanie agregujące najpierw przypisuje każdy przykład do własnego klastra i iteracyjnie scala najbliższe klastry w celu utworzenia hierarchicznego drzewa.
Grupowanie dwuskładnikowe polega najpierw na grupowaniu wszystkich przykładów w 1 klaster, a potem potrójnie dzieli klaster na drzewo hierarchiczne.

Przeciwieństwem są grupowanie oparte na centroidach.

utrata zawiasu

Rodzina funkcji straty na potrzeby klasyfikacji, która została zaprojektowana tak, aby znaleźć granicę decyzji jak najbliżej każdego przykładu treningowego, co pozwoli zmaksymalizować margines między przykładami a granicą. Klucze KSVM używają utraty zawiasów (lub powiązanej funkcji, np. kwadratowego zawiasu). W przypadku klasyfikacji binarnej funkcja utraty zawiasów jest zdefiniowana w ten sposób:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

gdzie y oznacza etykietę prawdziwą, czyli -1 lub +1, a y' to nieprzetworzony wynik modelu klasyfikatora:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W efekcie wykres utraconych zawiasów w porównaniu z postacią (y * y) wygląda tak:

Wykres kartezjański składający się z 2 połączonych ze sobą fragmentów liniowych. Pierwszy segment linii zaczyna się w miejscu (-3, 4) i kończy w (1, 0). Drugi segment linii zaczyna się od (1, 0) i trwa cały czas z nachyleniem równym 0.

uprzedzenia historyczne

#fairness

Rodzaj uprzedzeń, który istnieje już na świecie i został w zbiorze danych. Uprzedzenia często odzwierciedlają istniejące stereotypy kulturowe, nierówności demograficzne i uprzedzenia wobec określonych grup społecznych.

Weźmy na przykład model klasyfikacji, który przewiduje, czy osoba ubiegająca się o kredyt spłaca kredyt, wytrenowany na podstawie historycznych danych o domyślnej wartości kredytu z lat 80. XX wieku pochodzących z lokalnych banków w 2 różnych społecznościach. Jeśli byli kandydaci ze Społeczności A byli 6 razy bardziej skłonni do spłaty pożyczek niż ci ze Społeczności B, model mógł nauczyć się uprzedzeń w przeszłości, co sprawi, że model będzie mniej skłonny do zatwierdzania kredytów w Społeczności A, nawet jeśli warunki historyczne, w wyniku których wyższe odsetki domyślne tej społeczności nie były już istotne.

dane wstrzymane

Przykłady: celowe niewykorzystane („wstrzymane”) podczas szkolenia. Zbiór danych do walidacji i testowy zbiór danych to przykłady danych objętych blokadą. Dane dotyczące wstrzymania pomagają ocenić zdolność modelu do uogólniania na danych innych niż dane, na których został wytrenowany. Utrata na zbiorze wstrzymanym zapewnia lepsze oszacowanie utraty w niewidocznym zbiorze danych niż w zbiorze treningowym.

organizator

#TensorFlow

#GoogleCloud

Podczas trenowania modelu ML na układach akceleratora (procesorach graficznych lub TPU), części systemu, które sterują obiema tymi elementami:

Ogólny przepływ kodu.
Wyodrębnianie i przekształcanie potoku wejściowego.

Host zazwyczaj działa na procesorze, a nie na akceleratorze. Urządzenie manipuluje procesorami w akceleratorze.

hiperparametr

#fundamentals

Zmienne, które Ty lub usługa dostrajania hiperparametrów dostosowują podczas kolejnych uruchomień trenowania modelu. Na przykład szybkość uczenia się jest hiperparametrem. Możesz ustawić tempo uczenia się na 0,01 przed jedną sesją trenowania. Jeśli stwierdzisz, że 0,01 to za wysoka wartość, możesz ustawić tempo uczenia się na 0,003 na potrzeby następnej sesji szkoleniowej.

W przeciwieństwie do tego parametry to różne wagi i odchylenia, których model uczy się podczas trenowania.

hiperlane

Granica, która dzieli pokój na 2 podprzestrzenie. Na przykład linia jest hiperplanetą w 2 wymiarach, a płaszczyzna jest hiperplanem w trzech wymiarach. W przypadku uczenia maszynowego hiperlane to granica, która oddziela wielowymiarową przestrzeń. Maszyny wektorowe obsługujące jądra używają hiperpłaszczyzn do oddzielania klas pozytywnych od ujemnych, często w bardzo dużej przestrzeni.

I

i

Skrót oznaczający dystrybucję niezależną i identycznie.

rozpoznawanie obrazów

#image

Proces, który klasyfikuje obiekty, wzorce lub pojęcia na obrazie. Rozpoznawanie obrazów jest też nazywane klasyfikacją obrazów.

Więcej informacji znajdziesz w artykule o ML Practicum: Image Classification.

niezrównoważony zbiór danych

Synonim zbioru danych o nierównowadze klas.

nieświadome uprzedzenia

#fairness

Automatyczne tworzenie skojarzeń lub założeń na podstawie modeli umysłu i wspomnień. Nieświadome uprzedzenia mogą wpływać na:

Jak dane są zbierane i klasyfikowane.
Jak są projektowane i rozwijane systemy uczące się.

Na przykład, tworząc klasyfikator do rozpoznawania zdjęć ślubnych, inżynier może wykorzystać obecność na zdjęciu białej sukni jako elementu. Białe suknie były jednak w niektórych epokach i kulturach zwyczajowe.

Zobacz też odchylenie potwierdzenia.

przypisywanie udziału w konwersji

Skrót w postaci metody określania wartości.

niezgodność wskaźników obiektywności

#fairness

Założenie, że niektóre pojęcia sprawiedliwości są wzajemnie niezgodne i nie można zrealizować ich jednocześnie. W rezultacie nie ma jednego uniwersalnego wskaźnika do ilościowej oceny obiektywności, który można zastosować do wszystkich problemów z systemami uczącymi się.

Chociaż może to wydawać się zniechęcające, niezgodność wskaźników obiektywności nie oznacza, że wysiłki związane z uczciwością są bezcelowe. Zamiast tego sugeruje, że w przypadku danego problemu ML należy zdefiniować obiektywność w kontekście w celu zapobiegania szkodom związanym z konkretnymi przypadkami użycia.

Bardziej szczegółowe informacje na ten temat znajdziesz w sekcji „Kwestia braku możliwości obiektywności”.

uczenie się w kontekście

#language

#generatywna AI

Synonim promptów typu „few-shot”.

są rozkładane niezależnie i identycznie (np.)

#fundamentals

Dane pobrane z rozkładu, który nie zmienia się i gdzie każda wartość nie zależy od wartości, które zostały wcześniej narysowane. i.i.d. to gaz idealny systemów uczących się – przydatny konstrukt matematyczny, który niemal nigdy nie pojawia się w prawdziwym świecie. Na przykład rozkład użytkowników strony internetowej może być jednostkowy w krótkim przedziale czasu, tzn. rozkład nie zmienia się w tym krótkim okresie, a wizyta jednej osoby jest zasadniczo niezależna od wizyty innej osoby. Jeśli jednak rozszerzysz zakres czasu, mogą pojawić się sezonowe różnice w liczbie użytkowników strony.

Zobacz też artykuł o niestacjonarności.

obiektywność indywidualna

#fairness

Wskaźnik obiektywności, który sprawdza, czy podobne osoby są klasyfikowane podobnie. Akademia Brobdingnagian może na przykład chcieć zapewnić uczciwość poszczególnych uczniów, dając pewność, że 2 uczniów z identycznymi ocenami i ustandaryzowanymi wynikami z testu wyższego poziomu zdobędą równe szanse na przyjęcie do programu.

Pamiętaj, że obiektywność w każdym przypadku zależy całkowicie od tego, jak zdefiniujesz „podobieństwo” (w tym przypadku od ocen i wyników testów), dlatego jeśli w danych o podobieństwie brakuje ważnych informacji (np. ze względu na rygorystyczny program nauczania), istnieje ryzyko pojawienia się nowych problemów związanych z obiektywnością.

Bardziej szczegółowe informacje na temat obiektywności indywidualnej znajdziesz w sekcji „Sprawiedliwość przez świadomość”.

wnioskowanie

#fundamentals

W przypadku systemów uczących się proces prognozowania przez zastosowanie wytrenowanego modelu do przykładów bez etykiet.

Wnioskowanie ma w statystykach nieco inne znaczenie. Szczegółowe informacje znajdziesz w artykule w Wikipedii o wnioskowaniu statystycznym.

ścieżka wnioskowania

#df

W drzewie decyzyjnych, podczas wnioskowania, trasa, którą dany przykład przechodzi od katalogu głównego do innych warunków, kończy się liściem. Na przykład w tym drzewie decyzyjnym grubsze strzałki oznaczają ścieżkę wnioskowania z tymi wartościami cech:

x = 7
y = 12
Z = -3

Ścieżka wnioskowania na ilustracji poniżej przechodzi przez 3 warunki, zanim dotrze do liścia (Zeta).

Drzewo decyzyjne złożone z 4 warunków i 5 liści.
Warunek pierwiastka to (x > 0). Odpowiedź brzmi tak, więc ścieżka wnioskowania biegnie z pierwiastka do następnego warunku (y > 0).
Ponieważ odpowiedź to tak, ścieżka wnioskowania przechodzi do kolejnego warunku (z > 0). Odpowiedź brzmi „Nie”, więc ścieżka wnioskowania dociera do węzła końcowego, którym jest liść (Zeta).

Trzy grube strzałki wskazują ścieżkę wnioskowania.

zdobycie informacji

#df

W lasach decyzji różnica między entropią węzła a ważoną (według liczby przykładów) sumą entropii jego węzłów podrzędnych. Entropia węzła to entropia przykładów w tym węźle.

Weźmy na przykład te wartości entropii:

entropia węzła nadrzędnego = 0,6
entropia jednego węzła podrzędnego z 16 odpowiednimi przykładami = 0,2
entropia innego węzła podrzędnego z 24 odpowiednimi przykładami = 0,1

Dlatego 40% przykładów znajduje się w jednym węźle podrzędnym, a 60% w drugim. Dlatego:

ważona suma entropii węzłów podrzędnych = (0,4 * 0,2) + (0,6 * 0,1) = 0,14

Uzyskanie informacji jest więc takie:

wzrost informacji = entropia węzła nadrzędnego - ważona suma entropii węzłów podrzędnych
wzmocnienie informacji = 0,6 - 0,14 = 0,46

Większość rozdzielaczy ma na celu stworzenie warunków, które pozwalają zmaksymalizować ilość informacji.

efekt w grupie

#fairness

Pokazanie stronniczości własnej grupy lub własnych cech. Jeśli testerzy lub osoby oceniające należą do znajomych, rodziny lub współpracowników dewelopera systemów uczących się, tendencyjność w grupie może unieważnić testowanie usług lub zbiór danych.

Błąd ten to rodzaj uprzedzenia w grupie. Zobacz też dyskretne podejście do jednorodności poza grupą.

generator danych wejściowych

Mechanizm, za pomocą którego dane są wczytywane do sieci neuronowej.

Generator danych wejściowych można sobie wyobrazić jako komponent odpowiedzialny za przetwarzanie nieprzetworzonych danych w tensory, które są powtarzane w celu generowania wsadów do trenowania, oceny i wnioskowania.

warstwa wejściowa

#fundamentals

Warstwa sieci neuronowej zawierającej wektor cech. Oznacza to, że warstwa wejściowa zawiera przykłady do trenowania lub wnioskowania. Na przykład warstwa wejściowa w poniższej sieci neuronowej składa się z 2 cech:

4 warstwy: warstwa wejściowa, dwie warstwy ukryte i warstwa wyjściowa.

stan w zestawie

#df

W drzewie decyzji: warunek, który sprawdza obecność jednego elementu w zestawie. Oto przykładowy warunek w zestawie:

  house-style in [tudor, colonial, cape]

Jeśli podczas wnioskowania wartość cechy w stylu domu to tudor, colonial lub cape, ten warunek przyjmuje wartość Tak. Jeśli wartość obiektu w stylu domu jest inna (np. ranch), ten warunek przyjmuje wartość Nie.

Skonfigurowane warunki zapewniają zwykle bardziej efektywne drzewa decyzyjne niż warunki, które testują funkcje zakodowane jeden gorąco.

instancja

Synonim wyrażenia przykład.

dostrajanie instrukcji

#generatywna AI

Forma dostrajania, która zwiększa zdolność modelu generatywnej AI do przestrzegania instrukcji. Dostrajanie instrukcji obejmuje trenowanie modelu na podstawie serii promptów instruktażowych, które zwykle obejmują szeroką gamę zadań. Powstały w ten sposób model dostrojony do instrukcji generuje zwykle przydatne odpowiedzi na prompty typu „zero-shot” w różnych zadaniach.

Porównaj z:

interpretowalność

#fundamentals

Umiejętność wyjaśnienia lub przedstawienia wnioskowania modelu ML w zrozumiały sposób dla człowieka.

Na przykład większość modeli regresji liniowej można bardzo łatwo interpretować. (Wystarczy wziąć pod uwagę wytrenowane wagi dla każdej funkcji). Lasy decyzyjne są też bardzo czytelne. Niektóre modele wymagają jednak bardziej skomplikowanej wizualizacji, aby mogły być interpretowalne.

Do interpretacji modeli ML możesz używać narzędzia Learning Interpretability Tool (LIT).

umowa międzyocenowa

Pomiar częstotliwości, z jaką weryfikatorzy zgadzają się podczas wykonywania zadania. Jeśli oceniający się nie zgadzają, konieczne może być ulepszenie instrukcji dotyczących zadania. Czasami jest też nazywana umową międzyautorami adnotacji lub wiarygodnością między Oceniami. Zobacz też kappa Cohena, czyli jedną z najpopularniejszych metod pomiaru w ramach umów między operatorami.

przecięcie zbiorów (IoU)

#image

Przecięcie dwóch zbiorów podzielone przez ich sumę. W zadaniach związanych z wykrywaniem obrazów w systemach uczących się współczynnik IoU jest używany do pomiaru dokładności przewidywanej ramki ograniczającej modelu w odniesieniu do ramki ograniczającej ground-truth. W tym przypadku IoU dla 2 ramek to stosunek między nakładającym się obszarem a całkowitym obszarem, a jego wartości mieszczą się w zakresie od 0 (brak nakładania się przewidywanej ramki ograniczającej i ramki ograniczającej dane podstawowe) do 1 (przewidywana ramka ograniczająca i ramka ograniczająca dane podstawowe (ground truth) mają dokładnie takie same współrzędne).

Oto przykład:

Przewidywana ramka ograniczająca (współrzędne wyznaczające miejsce, w którym model przewiduje, gdzie znajduje się tabela nocna na obrazie) jest zaznaczona na fioletowo.
Ramka ograniczająca dane podstawowe (współrzędne określające miejsce, w którym faktycznie znajduje się nocna tabela na obrazie) jest zaznaczona na zielono.

W tym przypadku przecięcie ramek ograniczających dla prognozy i danych podstawowych (ground truth) (poniżej po lewej) wynosi 1, a suma ramek ograniczających prognozy i danych podstawowych (poniżej po prawej) wynosi 7, więc IoU wynosi $\frac{1}{7}$.

Ten sam obraz co powyżej, ale każda ramka ograniczająca jest podzielona na 4 ćwiartki. Prawa dolna kwadrans ramki ograniczającej dane podstawowe (ground truth) i lewa górna ćwiartka przewidywanej ramki ograniczającej nakładają się łącznie na 7 czworokątów. Ten pokrywający się fragment (zaznaczony na zielono) reprezentuje skrzyżowanie i jego obszar o obszarze równym 1.

IoU

Skrót oznaczający przecięcie nad sumą.

macierz elementów

#recsystems

W systemach rekomendacji jest to macierz wektorów osadzonych wygenerowana przez rozłożenie macierzy, która zawiera utajone sygnały dotyczące każdego elementu. Każdy wiersz macierzy elementów zawiera wartość jednej funkcji utajonej dla wszystkich elementów. Weźmy na przykład system rekomendacji filmów. Każda kolumna w tablicy elementów odpowiada jednemu filmowi. Utajnione sygnały mogą reprezentować gatunki lub być trudniejsze do zinterpretowania, ponieważ obejmują złożone interakcje między gatunkiem, gwiazdami, wiekiem filmu i innymi czynnikami.

Macierz elementów zawiera tę samą liczbę kolumn co macierz docelowy uwzględniana na czynniki. Na przykład w systemie rekomendacji filmów, który ocenia 10 000 tytułów filmów, tablica elementów będzie miała 10 000 kolumn.

items

#recsystems

w systemie rekomendacji, czyli encje rekomendowane przez system. Na przykład filmy to produkty polecane w sklepie z wideo, a książki to pozycje polecane przez księgarnię.

iteracja

#fundamentals

Pojedyncza aktualizacja parametrów modelu – jego wag i odchyleń – podczas trenowania. Rozmiar wsadu określa, ile przykładów przetwarza model w jednej iteracji. Jeśli na przykład rozmiar wsadu to 20, model przetwarza 20 przykładów przed dostosowaniem parametrów.

Podczas trenowania sieci neuronowej pojedyncza iteracja obejmuje 2 następujące karty:

Przekazywanie dalej w celu oceny straty w jednej wsadzie.
Przekazywanie wsteczne (propagacja wsteczna), które pozwala dostosować parametry modelu na podstawie utraty i tempa uczenia się.

J

JAX

Tablicowa biblioteka obliczeniowa łącząca XLA (Accelerated Linear Algebra) i automatyczne różnicowanie na potrzeby obliczeń numerycznych o dużej mocy. JAX udostępnia prosty i zaawansowany interfejs API do pisania przyspieszonego kodu liczbowego z możliwością kompozycyjnego przekształcenia. JAX udostępnia takie funkcje jak:

grad (automatyczne rozróżnianie)
jit (kompilacja w sam raz)
vmap (automatyczna wektoryzacja lub grupowanie)
pmap (równoległe)

JAX to język do wyrażania i komponowania przekształceń kodu liczbowego. Jest to język analogiczny – ale znacznie szerszy – do biblioteki Pythona NumPy. (Biblioteka .numpy w języku JAX to funkcjonalna, ale całkowicie przepisana wersja biblioteki Python NumPy).

JAX doskonale nadaje się do przyspieszenia wielu zadań związanych z systemami uczącymi się, ponieważ przekształca modele i dane w formę odpowiednią do obsługi równoległego działania w przypadku układów GPU i układów akceleratora TPU.

Biblioteki JAX, takich jak Flax, Optax, Pax i wiele innych, są oparte na infrastrukturze JAX.

K

Keras

Popularny interfejs API systemów uczących się w języku Python. Keras korzysta z kilku platform deep learning, w tym TensorFlow, gdzie jest dostępny jako tf.keras.

Maszyny wektorowe obsługujące jądra (KSVM)

Algorytm klasyfikacji, który ma na celu zmaksymalizowanie granicy między klasami pozytywnymi i ujemnymi przez mapowanie wektorów danych wejściowych na przestrzeń wyższą wymiarową. Rozważmy np. problem klasyfikacji, w którym wejściowy zbiór danych zawiera 100 funkcji. Aby zmaksymalizować barierę między klasami dodatnimi i negatywnymi, KSVM może wewnętrznie zmapować te cechy na milion wymiarów. Serwery KSVM korzystają z funkcji utraty o nazwie Utrata zawiasów.

najważniejsze punkty

#image

Współrzędne konkretnych cech na zdjęciu. Na przykład w modelu rozpoznawania obrazów, który odróżnia gatunki kwiatów, kluczowe punkty mogą być środkiem każdego płatka, łodygi, pręciora itd.

krzyżowa walidacja krzyżowa

Algorytm do prognozowania zdolności modelu do uogólniania nowych danych. Zapis k w części strony widocznej po przewinięciu odnosi się do liczby równych grup, na które dzielisz przykłady zbioru danych, czyli trenujesz i testujesz model k razy. W każdej rundzie trenowania i testowania inna grupa jest zbiorem testowym, a wszystkie pozostałe grupy stają się zbiorem treningowym. Po k rundach trenowania i testów obliczasz średnie i standardowe odchylenie wybranych danych testowych.

Załóżmy na przykład, że Twój zbiór danych składa się ze 120 przykładów. Załóżmy też, że ustawiasz k na 4. Dlatego po przetasowaniu danych należy podzielić zbiór danych na 4 równe grupy po 30 przykładów i przeprowadzić 4 rundy trenowania/testu:

Na przykład średni kwadrat błędu (MSE) może być najistotniejszym wskaźnikiem do zastosowania w modelu regresji liniowej. W związku z tym uzyskasz średnie i odchylenie standardowe MSE we wszystkich 4 rundach.

średnie k

#clustering

Popularny algorytm klastrowania, który grupuje przykłady w uczeniu nienadzorowanym. Algorytm k-średnich działa w taki sposób:

Iteratywnie określa najlepsze punkty środkowe wartości K (znane jako centroidy).
Przypisuje każdy przykład do najbliższego centroidu. Przykłady, które są najbliższe temu samemu centroidowi, należą do tej samej grupy.

Algorytm k-średni wybiera lokalizacje centroidów, by zminimalizować skumulowany kwadrat odległości od każdego przykładu do jego najbliższego centroidu.

Weźmy na przykład taki wykres przedstawiający wysokość psa i jego szerokość:

Wykres kartezjański z kilkunastoma punktami danych.

Jeśli k=3, algorytm k-średniów określi trzy centroidy. Każdy przykład jest przypisany do najbliższego centroidu, co daje 3 grupy:

Ten sam wykres kartezjański co na poprzedniej ilustracji, z wyjątkiem 3 dodanych centroidów.
Poprzednie punkty danych są podzielone na 3 odrębne grupy, z których każda reprezentuje punkty danych najbliższe konkretnemu centroidowi.

Załóżmy, że producent chce określić idealne rozmiary dla małych, średnich i dużych swetrów dla psów. Te 3 centroidy określają średnią wysokość i średnią szerokość każdego psa w tej gromadzie. Producent powinien więc prawdopodobnie bazować na tych 3 centroidach. Pamiętaj, że centroid klastra zwykle nie jest przykładem klastra.

Poprzednie ilustracje przedstawiają wartości k-średnie w przykładach z 2 cechami (wysokość i szerokość). Pamiętaj, że k-średnie mogą grupować przykłady dla wielu funkcji.

mediana k

#clustering

Algorytm grupowania ściśle powiązany z parametrami k-średnie. Praktyczna różnica między nimi jest następująca:

W k-średnich centroidy określa się przez zminimalizowanie sumy kwadratów odległości między kandydującym do centroidu a każdym z jego przykładów.
W k-medianie centroidy są określane przez zminimalizowanie sumy odległości między kandydatem do centroidu a każdym jego przykładem.

Pamiętaj, że definicje odległości są też inne:

Wartości k-średnich opierają się na odległości euklidesowej od środka środkowego do przykładu. (W 2 wymiarach odległość euklidesowa oznacza twierdzenie Pitagorasa przy obliczaniu przeciwprostokątnej). Na przykład odległość k-średnia między (2,2) a (5,-2) będzie wyglądać tak:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

Wartość k-mediana zależy od odległości Manhattanu od centroidu do przykładu. Ta odległość to suma wartości bezwzględnych delta każdego wymiaru. Na przykład odległość k-mediana między (2,2) a (5,-2) będzie wyglądać tak:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

Regularyzacja L₀

#fundamentals

Rodzaj regularizacji, który egzekwuje łączną liczbę wag innych niż zero w modelu. Na przykład model, który ma 11 wag niezerowych, podlega większej sankcji niż podobny model mający 10 wag niezerowych.

Regularyzacja L₀ jest czasami nazywana regulacją normy L0.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Regularyzacja L₀ jest zasadniczo niepraktyczna w przypadku dużych modeli, ponieważ regularyzacja L₀ zmienia trenowanie w problem optymalizacji wypukły.

Strata L₁

#fundamentals

Funkcja straty, która oblicza wartość bezwzględną różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Tak na przykład obliczono stratę L₁ dla zbiorczej z 5 przykładów:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Wartość bezwzględna delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = strata L₁

Utrata L₁ jest mniej czuła na wartości odstające niż straty L₂.

Średni błąd bezwzględny to średnia strata L₁ na przykład.

Kliknij tę ikonę, aby zobaczyć formalną funkcję matematyczną.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
Argument $y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Regularyzacja L₁

#fundamentals

Rodzaj regularizacji, który powoduje nałożenie wag proporcjonalnie do sumy ich wartości bezwzględnych. Regularyzacja L₁ pomaga przypisywać wagę nieistotnych lub mało trafnych funkcji do dokładnie 0. Cecha o wadze 0 zostaje skutecznie usunięta z modelu.

Różnica z L₂ regularyzacją.

Strata L₂

#fundamentals

Funkcja straty, która oblicza kwadrat różnicy między rzeczywistymi wartościami etykiety a wartościami prognozowanymi przez model. Tak na przykład obliczono stratę L₂ dla zbiorczej z 5 przykładów:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Kwadrat delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = strata L₂

Z powodu kwadratów strata L₂ zwiększa wpływ wartości odstających. Oznacza to, że strata L₂ reaguje silniej na błędne prognozy niż L₁. Na przykład utrata L₁ w przypadku poprzedniego wsadu wynosi 8, a nie 16. Zwróć uwagę, że jedna wartość odstająca obejmuje 9 z 16.

Modele regresji zwykle używają jako funkcji utraty funkcji utraty L₂.

Błąd średniej kwadratowej to średnia utrata L₂ na przykład. Utrata kwadratowa to inna nazwa straty L₂.

Kliknij tę ikonę, aby zobaczyć formalną funkcję matematyczną.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

gdzie:

$n$ to liczba przykładów.
Argument $y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Regularyzacja L₂

#fundamentals

Rodzaj regularizacji, który powoduje nakładanie kar na wagi proporcjonalnie do ich sumy kwadratów. Regularyzacja L₂ pomaga uzyskać wagi odstające (które mają wysokie lub niskie wartości ujemne) przybliżone do 0, ale nie do 0. Cechy o wartościach bardzo zbliżonych do 0 pozostają w modelu, ale nie wpływają w dużym stopniu na prognozę modelu.

Regularyzacja L₂ zawsze poprawia uogólnianie w modelach liniowych.

Porównaj z L₁ regularyzacją.

etykieta

#fundamentals

W nadzorowanych systemach uczących się jest to część przykładu, np. „odpowiedź” lub „wynik”.

Każdy przykład oznaczony etykietą składa się z co najmniej 1 funkcji i etykiety. Na przykład w zbiorze danych do wykrywania spamu etykieta miałaby prawdopodobnie postać „spam” lub „nie spam”. W zbiorze danych o deszczach etykietą może być ilość opadów, które spadły w danym okresie.

przykład z etykietami

#fundamentals

Przykład zawierający co najmniej 1 funkcję i etykietę. Na przykład w tabeli poniżej znajdują się 3 przykłady oznaczone etykietami z modelu wyceny autoreklamy, z których każdy ma 3 cechy i 1 etykietę:

Liczba sypialni	Liczba łazienek	Wiek domowy	Cena domu (etykieta)
3	2	15	345 000 PLN
2	1	72	179 000 PLN
4	2	34	392 000 PLN

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy na przykładach bez etykiet.

Przykład oznaczony kontrastem z przykładami bez etykiet.

wyciek etykiet

Błąd w projekcie modelu, w którym funkcja jest pośrednikiem dla etykiety. Weźmy np. model klasyfikacji binarnej do prognozowania, czy potencjalny klient zakupi określony produkt. Załóżmy, że jedna z cech modelu jest wartością logiczną o nazwie SpokeToCustomerAgent. Dodatkowo załóżmy, że klient klienta jest przypisywany dopiero po zakupie produktu przez potencjalnego klienta. Podczas trenowania model szybko nauczy się powiązania między elementem SpokeToCustomerAgent a etykietą.

lambda

#fundamentals

Synonim współczynnika regularyzacji.

Lambda to termin przeciążony. Skupiamy się na definicji tego terminu w ramach regularizacji.

LaMDA (Language Model for Dialogue Applications)

#language

Oparty na Transformerze duży model językowy opracowany przez Google i wytrenowany na dużym zbiorze danych dialogowych, który może generować realistyczne odpowiedzi konwersacyjne.

Omówienie LaMDA: naszej przełomowej technologii konwersacyjnej.

punkty orientacyjne

#image

Synonim punktów kluczowych.

model językowy

#language

model, który szacuje prawdopodobieństwo wystąpienia model lub sekwencji tokenów w dłuższej sekwencji tokenów.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Wbrew pozorom wiele modeli oceniających tekst nie jest modelami językowymi. Na przykład modele klasyfikacji tekstu i modele analizy nastawienia nie są modelami językowymi.

duży model językowy

#language

Termin nieformalny bez dokładnej definicji, zwykle oznaczający model językowy z dużą liczbą parametrów. Niektóre duże modele językowe zawierają ponad 100 miliardów parametrów.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Być może zastanawiasz się, kiedy model językowy staje się dostatecznie duży, aby można go było nazwać dużym modelem językowym. Obecnie nie ma uzgodnionego wiersza definiującego liczbę parametrów.

Większość obecnych dużych modeli językowych (np. GPT) jest oparta na architekturze Transformer.

przestrzeń utajona

#language

Synonim terminu umieszczanie miejsca.

warstwa

#fundamentals

Zbiór neuronów w sieci neuronowej. Trzy najczęstsze typy warstw to:

Warstwa wejściowa, która zawiera wartości wszystkich cech.
Co najmniej jedna ukryta warstwa, która znajduje nieliniowe relacje między obiektami a etykietą.
Warstwa wyjściowa, która dostarcza prognozy.

Na przykład na ilustracji poniżej przedstawiono sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową:

Sieć neuronowa z 1 warstwą wejściową, 2 ukrytymi warstwami i 1 warstwą wyjściową. Warstwa wejściowa składa się z 2 cech. Pierwsza ukryta warstwa składa się z 3 neuronów, a druga z 2 neuronów. Warstwa wyjściowa składa się z jednego węzła.

W TensorFlow warstwy są też funkcjami w języku Python, które przyjmują Tensory i opcje konfiguracji jako dane wejściowe i generują inne tensory jako dane wyjściowe.

Warstwy API (tf.layers)

#TensorFlow

Interfejs TensorFlow API do budowania głębokich sieci neuronowych w postaci warstw. Interfejs Warstwy API umożliwia tworzenie różnych typów warstw, takich jak:

tf.layers.Dense w przypadku w pełni połączonej warstwy.
tf.layers.Conv2D w przypadku warstwy splotowej.

Interfejs Warstwy jest zgodny z konwencjami interfejsu API warstw Keraswarstwowymi. Oznacza to, że oprócz innego prefiksu wszystkie funkcje w interfejsie Warstwy mają te same nazwy i podpisy co ich odpowiedniki w interfejsie Keras Layers API.

liść

#df

Dowolny punkt końcowy w drzewie decyzji. W przeciwieństwie do warunku liść nie przeprowadza testu. Możliwy jest raczej liść. Liść jest także węzłem terminala ścieżki wnioskowania.

Na przykład następujące drzewo decyzyjne zawiera 3 liści:

Drzewo decyzyjne z 2 warunkami prowadzącymi do trzech liści.

Narzędzie do analizowania interpretowalności (LIT)

Wizualne, interaktywne narzędzie do rozumienia modeli i wizualizacji danych.

Możesz użyć oprogramowania LIT typu open source do interpretacji modeli lub wizualizacji danych tekstowych, graficznych i tabelowych.

tempo uczenia się

#fundamentals

Liczba zmiennoprzecinkowa, która informuje algorytm gradientu malejącego, jak silnie ma dostosowywać wagi i odchylenia przy każdej iteracji. Na przykład tempo uczenia się równe 0,3 dostosowuje wagi i odchylenia 3 razy silniej niż tempo uczenia się 0,1.

Tempo uczenia się to kluczowy hiperparametr. Jeśli ustawisz zbyt niskie tempo uczenia się, trenowanie potrwa zbyt długo. Jeśli ustawisz zbyt wysokie tempo uczenia się, gradient gradientowy często ma problem z osiągnięciem zbieżności.

Kliknij ikonę, aby zobaczyć wyjaśnienie matematyczne.

Podczas każdej iteracji algorytm gradientu malejącego mnoży szybkość uczenia się przez gradient. Powstały w ten sposób iloczyn nazywa się krokiem gradientu.

regresja metodą najmniejszych kwadratów

Model regresji liniowej wytrenowany przez minimalizację L₂ straty.

jednostajne

#fundamentals

Relacja między co najmniej 2 zmiennymi, którą można przedstawić wyłącznie przez dodawanie i mnożenie.

Wykres zależności liniowej jest linią.

Przeciwieństwem są nieliniowe.

model liniowy

#fundamentals

model, który przypisuje jedną model do każdej model na potrzeby model. (Modele liniowe uwzględniają też uprzedzenia). W przeciwieństwie do tego relacja cech z prognozami w modelach szczegółowych jest zasadniczo nieliniowa.

Modele liniowe są zwykle łatwiejsze do wytrenowania i bardziej interpretowalne niż modele precyzyjne. Modele głębokie mogą jednak uczyć się złożonych relacji między cechami.

Regresja liniowa i regresja logistyczna to 2 rodzaje modeli liniowych.

Kliknij ikonę, aby zobaczyć wyliczenie.

Model liniowy ma taką postać:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

gdzie:

y to nieprzetworzona prognoza. (W przypadku niektórych rodzajów modeli liniowych ta nieprzetworzona prognoza będzie później modyfikowana. Zobacz na przykład regresję logiczną.
b to uprzedzenia.
to waga, więc w₁ oznacza waga pierwszej cechy, w₂ waga drugiej cechy itd.
x to cecha, więc x₁ to wartość pierwszej cechy, x₂ to wartość drugiej cechy i tak dalej.

Załóżmy na przykład, że model liniowy trzech cech uczy się tych odchyleń i wag:

B = 7
w₁ = –2,5
w₂ = –1,2
w₃ = 1,4

Dlatego, biorąc pod uwagę 3 cechy (x₁, x₂ i x₃), model liniowy generuje każdą prognozę według tego równania:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Przyjmijmy, że konkretny przykład zawiera następujące wartości:

x₁ = 4
x₂ = -10
x₃ = 5

Włączenie tych wartości do formuły powoduje wyświetlenie prognozy w tym przykładzie:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Modele liniowe obejmują nie tylko modele korzystające z równania liniowego do tworzenia prognoz, ale także szerszy zestaw modeli wykorzystujących równania liniowe jako tylko jeden z komponentów formuły tworzącej prognozy. Na przykład regresja logistyczna przetwarza nieprzetworzoną prognozę (y), aby uzyskać ostateczną wartość prognozy tylko od 0 do 1.

regresja liniowa

#fundamentals

Typ modelu systemów uczących się, w którym spełnione są oba te warunki:

Model jest modelem liniowym.
Prognoza jest wartością zmiennoprzecinkową. (To jest część regresji w regresji liniowej).

Porównaj regresję liniową z regresją logistyczną. Dodatkowo regresja kontrastowa dzięki klasyfikacji.

LIT

Skrót od terminu Learning Interpretability Tool (LIT), który wcześniej był znany jako narzędzie Language Interpretability Tool.

LLM

#language

Skrót od large model Language (duży model językowy).

regresja logistyczna

#fundamentals

Typ modelu regresji, który prognozuje prawdopodobieństwo. Modele regresji logistycznej mają te cechy:

Etykieta jest kategoryczna. Termin regresja logistyczna zwykle odnosi się do binarnej regresji logistycznej, czyli modelu, który oblicza prawdopodobieństwo dla etykiet z 2 możliwymi wartościami. Mniej popularny wariant, wielomianowa regresja logistyczna, oblicza prawdopodobieństwo dla etykiet z więcej niż 2 możliwymi wartościami.
Funkcja utraty podczas trenowania to Log Loss (Utrata logów). W przypadku etykiet z więcej niż 2 możliwymi wartościami możesz równolegle umieścić wiele jednostek utraty logów.
Model ma architekturę liniową, a nie głęboką sieć neuronowa. Pozostała część tej definicji ma jednak też zastosowanie do modeli szczegółowych, które prognozują prawdopodobieństwo etykiet kategorialnych.

Weźmy na przykład model regresji logistycznej, który oblicza prawdopodobieństwo, że dane wejściowe e-maile będą spamem lub nie będą spamem. Podczas wnioskowania załóżmy, że model przewiduje 0,72. Model szacuje więc:

72% prawdopodobieństwa, że e-mail będzie spamem
28% szans, że e-mail nie jest spamem.

Model regresji logistycznej wykorzystuje tę architekturę dwuetapową:

Model generuje nieprzetworzoną prognozę (y) przez zastosowanie funkcji liniowej cech wejściowych.
Model używa tej nieprzetworzonej prognozy jako danych wejściowych w funkcji sigmoidalnej, która konwertuje nieprzetworzoną prognozę na wartość z zakresu od 0 do 1 (bez tych wartości).

Podobnie jak każdy model regresji, model regresji logistycznej przewiduje liczbę. Jednak zwykle ta liczba staje się częścią modelu klasyfikacji binarnej w ten sposób:

Jeśli prognozowana liczba jest większa niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę pozytywną.
Jeśli prognozowana liczba jest mniejsza niż próg klasyfikacji, model klasyfikacji binarnej przewiduje klasę ujemną.

logits

Wektor nieprzetworzonych (nieznormalizowanych) prognoz generowanych przez model klasyfikacji, który jest zwykle przekazywany do funkcji normalizacji. Jeśli model rozwiązuje problem z klasyfikacją wieloklasową, logiki zwykle stają się danymi wejściowymi dla funkcji softmax. Funkcja softmax generuje wektor (znormalizowany) prawdopodobieństwa z jedną wartością dla każdej możliwej klasy.

Logarytmiczna funkcja utraty danych

#fundamentals

Funkcja utraty używana w regresji logistycznej.

Kliknij ikonę, aby zobaczyć wyliczenie.

Utrata logu jest obliczana według tego wzoru:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

gdzie:

$(x,y)\in D$ to zbiór danych zawierający wiele oznaczonych etykietami przykładów, które są $(x,y)$ parami.
$y$ to etykieta w przykładzie oznaczonym etykietą. To jest regresja logistyczna, dlatego każda wartość $y$ musi wynosić 0 lub 1.
$y'$ to wartość przewidywana (od 0 do 1, wyłącznie) dla zestawu funkcji w: $x$.

log-odds,

#fundamentals

Logarytm prawdopodobieństwa wystąpienia określonego zdarzenia.

Kliknij ikonę, aby zobaczyć wyliczenie.

Jeśli zdarzenie jest prawdopodobieństwem binarnym, odd odnosi się do stosunku prawdopodobieństwa sukcesu (p) do prawdopodobieństwa niepowodzenia (1–p). Załóżmy na przykład, że prawdopodobieństwo sukcesu danego zdarzenia wynosi 90%, a prawdopodobieństwo niepowodzenia – 10%. W tym przypadku szanse są obliczane w ten sposób:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

Argumenty logarytmiczne są po prostu logarytmem szans. Zgodnie z konwencją „logarytm” oznacza logarytm naturalny, ale logarytm może w rzeczywistości być dowolną podstawą większą niż 1. Zgodnie z przyjętą konwencją nasze wartości logarytmiczne są następujące:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

Funkcja log-odds to odwrotność funkcji sigmoidalnej.

Pamięć długoterminowa (LSTM)

#seq

Typ komórki w powracającej sieci neuronowej używany do przetwarzania sekwencji danych w aplikacjach takich jak rozpoznawanie pisma odręcznego, tłumaczenie maszynowe i tworzenie napisów do obrazów. Mechanizmy LSTM rozwiązują problem z znikaniem gradientu, który występuje podczas trenowania RNN z powodu długich sekwencji danych, utrzymując historię w stanie pamięci wewnętrznej na podstawie nowych danych wejściowych i kontekstu z poprzednich komórek w RNN.

LoRA

#language

#generatywna AI

Skrót od terminu Low-Rank Adaptability.

przegrana

#fundamentals

Podczas trenowania modelu nadzorowanego jest to miara tego, jak daleko prognoza modelu znajduje się od jego etykiety.

Funkcja straty oblicza stratę.

agregator strat

Typ algorytmu uczenia maszynowego, który poprawia wydajność modelu przez połączenie prognoz wielu modeli i wykorzystanie tych prognoz w 1 prognozie. W rezultacie agregator strat może zmniejszyć wariancję prognoz i poprawić dokładność prognoz.

krzywa straty

#fundamentals

Wykres straty jako funkcja liczby iteracji używanych do trenowania. Ten wykres przedstawia typową krzywą utraty:

Kartezyjski wykres strat i iteracji treningowych przedstawiający nagły spadek utraty w początkowych iteracjach, po którym następuje stopniowy spadek, a następnie płaski wykres podczas ostatnich iteracji.

Krzywe straty pomagają określić, kiedy model jest zbieżny, a kiedy nadmierny.

Krzywe straty mogą wykreślać wszystkie te typy strat:

Zobacz też krzywą uogólnienia.

funkcja straty

#fundamentals

Podczas trenowania lub testowania funkcja matematyczna, która oblicza stratę w grupie przykładów. Funkcja utraty zwraca mniejszą stratę w przypadku modeli, które generują dobre prognozy niż tych, które generują błędne prognozy.

Celem trenowania jest zwykle zminimalizowanie straty zwracanej przez funkcję utraty.

Istnieje wiele różnych rodzajów funkcji utraty. Wybierz odpowiednią funkcję utraty do rodzaju tworzonego modelu. Na przykład:

L₂ strata (lub średni kwadrat błędu) to funkcja straty dla regresji liniowej.
Log Loss to funkcja straty dla regresji logistycznej.

powierzchnia straty

Wykres przedstawiający stosunek wagi do wagi. Spadek gradientowy ma na celu znalezienie ciężarów, w przypadku których powierzchnia straty wynosi lokalne minimum.

Dostosowanie niskiego rankingu (LoRA)

#language

#generatywna AI

Algorytm do dostrajania efektywności parametrów, który dostraja tylko część parametrów dużego modelu językowego. LoRA zapewnia te korzyści:

Dostrajanie odbywa się szybciej niż w przypadku technik wymagających dostrajania wszystkich parametrów modelu.
Zmniejsza koszty obliczeniowe wnioskowania w dostrojonym modelu.

Model dostrojony przy użyciu LoRA utrzymuje lub poprawia jakość prognoz.

LoRA umożliwia korzystanie z wielu wyspecjalizowanych wersji modelu.

Certyfikat LSTM

#seq

Skrót od Long Short-Term Memory.

P

systemy uczące się

#fundamentals

Program lub system, który trenuje model na podstawie danych wejściowych. Wytrenowany model może tworzyć przydatne prognozy na podstawie nowych (nigdy wcześniej niewidzianych) danych pobranych z tego samego rozkładu, który został użyty do trenowania modelu.

Uczenie maszynowe odnosi się również do dziedziny badań dotyczących tych programów lub systemów.

klasa większości

#fundamentals

Jest to częstsza etykieta w zbiorze danych o niezbalansowaniu klasy. Na przykład w zbiorze danych zawierających 99% etykiet negatywnych i 1% pozytywnych te etykiety stanowią większość klasy.

Wskaż kontrast z klasą mniejszości.

Proces podejmowania decyzji Markowa (MDP)

#rl

Wykres przedstawiający model podejmowania decyzji, w którym podejmowane są decyzje (lub działania), aby poruszać się po sekwencji stanów przy założeniu, że występuje właściwość Markowa. W ramach uczenia przez wzmacnianie takie przejścia między stanami zwracają liczbową nagrodę.

Właściwość Markowa

#rl

Właściwość określonych środowisk, w przypadku których przejście stanów jest całkowicie określone na podstawie informacji wynikających z bieżącego stanu oraz działania agenta.

zamaskowany model językowy

#language

Model językowy, który prognozuje prawdopodobieństwo, że tokeny kandydatów wypełnią puste pola w sekwencji. Na przykład zamaskowany model językowy może obliczyć prawdopodobieństwo dla kandydatów na wyraz, w których zostanie zastąpione podkreślenie w tym zdaniu:

____ w kapeluszu wróciła.

W literaturze zwykle używany jest ciąg „MASK” zamiast podkreślenia. Na przykład:

„MASKA” w kapeluszu wróciła.

Większość współczesnych modeli językowych maskowanych działa dwukierunkowo.

matplotlib

Biblioteka 2D do tworzenia wykresów w Pythonie typu open source. matplotlib pomaga wizualizować różne aspekty systemów uczących się.

rozkład na czynniki w postaci macierzy

#recsystems

W matematyce jest to mechanizm znajdowania macierzy, których iloczyn skalarny przybliża macierz docelową.

W systemach rekomendacji tablica docelowa często zawiera oceny użytkowników dotyczące elementów. Na przykład macierz docelowy systemu rekomendacji filmów może wyglądać mniej więcej tak:

	Casablanca	Historia Filadelfii	Czarna Pantera	Wonder Woman	Pulp fiction
Użytkownik 1	5,0	3,0	0,0	2,0	0,0
Użytkownik 2	4.0	0,0	0,0	1,0	5,0
Użytkownik 3	3,0	1,0	4.0	5,0	0,0

System rekomendacji filmów ma na celu przewidywanie ocen użytkowników filmów bez oceny. Na przykład: czy Użytkownik 1 lubi Czarną Panterę?

Jedną z metod stosowanych w systemach rekomendacji jest użycie rozkładu macierzy do wygenerowania 2 tych macierzy:

Tablica użytkowników w kształcie liczby użytkowników pomnożona przez liczbę wymiarów wektora dystrybucyjnego.
Tablica elementów w kształcie liczby wymiarów wektora dystrybucyjnego x liczba elementów.

Na przykład przy użyciu rozkładu macierzy na 3 użytkowników i 5 elementów można uzyskać taką macierz użytkowników i tablicę elementów:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

Iloczyn skalarny macierzy użytkownika i tablicy elementów generuje macierz rekomendacji, która zawiera nie tylko oryginalne oceny użytkowników, ale także prognozy dotyczące filmów, których żaden użytkownik nie widział. Weźmy na przykład ocenę użytkownika 1 Casablanca, która wynosiła 5, 0. Iloczyn skalarny odpowiadający tej komórce w tabeli rekomendacji powinien wynosić około 5, 0 i będzie to:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

Co ważniejsze, czy Użytkownik 1 lubi Czarną Panterę? Biorąc pod uwagę iloczyn skalarny odpowiadający pierwszemu wierszowi i trzeciej kolumnie, przewidywana ocena to 4,3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

Rozkład macierzy zazwyczaj generuje macierz użytkowników i tablicę elementów, które razem są znacznie bardziej zwarte niż macierz docelowy.

Średni błąd bezwzględny (MAE)

Średnia strata na przykład przy zastosowaniu straty L₁. Oblicz średni błąd bezwzględny w ten sposób:

Oblicz stratę L₁ dla wsadu.
Podziel stratę L₁ przez liczbę przykładów w grupie.

Kliknij tę ikonę, aby zobaczyć formalną funkcję matematyczną.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

gdzie:

$n$ to liczba przykładów.
Argument $y$ to rzeczywista wartość etykiety.
$\hat{y}$ to wartość prognozowana przez model dla $y$.

Weźmy np. obliczenie straty L₁ w tej partii składającej się z 5 przykładów:

Rzeczywista wartość przykładu	Prognozowana wartość modelu	Strata (różnica między rzeczywistą a prognozowaną)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = strata L₁

Zatem strata L₁ wynosi 8, a liczba przykładów to 5. Zatem średni błąd bezwzględny wynosi:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

Zestawienie średniego błędu bezwzględnego za pomocą błędu średniego do kwadratu i błędu średniej kwadratu pierwiastka.

Błąd średniokwadratowy (MSE)

Średnia strata na przykład przy zastosowaniu straty L₂. Oblicz błąd średni kwadrat w ten sposób:

Oblicz stratę L₂ dla wsadu.
Podziel stratę L₂ przez liczbę przykładów w grupie.

Kliknij tę ikonę, aby zobaczyć formalną funkcję matematyczną.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ gdzie:

$n$ to liczba przykładów.
Argument $y$ to rzeczywista wartość etykiety.
$\hat{y}$ to prognoza modelu dla $y$.

Weźmy na przykład stratę w tej partii składającej się z 5 przykładów:

Rzeczywista wartość	Prognoza modelu	Strata	Kwadratowa strata
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = strata L₂

W związku z tym błąd średniokwadratowy to:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Średni kwadratowy błąd to popularny optymalizator trenowania, zwłaszcza regresja liniowa.

Skontrastuj średni kwadratowy błąd z średnim błędem bezwzględnym i średnią kwadratem pierwiastka.

TensorFlow Playground używa średniego kwadratowego błędu do obliczania wartości strat.

Kliknij tę ikonę, aby zobaczyć więcej informacji o wartościach odstających.

Wartości odstające w dużym stopniu wpływają na błąd średniokwadratowy. Na przykład strata 1 to kwadratowa strata 1, a strata o 3 oznacza kwadratową stratę 9. W poprzedniej tabeli przykład z utratą 3 kont stanowi ok. 56% błędu średniokwadratowego, a w każdym przykładzie z utratą 1 – tylko 6%.

Wskaźniki odstające nie mają tak silnego wpływu na średni błąd bezwzględny jak błąd średniego kwadratowego. Na przykład utrata 3 to zaledwie ok. 38% średniego błędu bezwzględnego.

Przycinanie to jeden ze sposobów zapobiegania zmniejszeniu zdolności modelu do prognozowania skrajnie wartości odstających.

sieć typu mesh

#TensorFlow

#GoogleCloud

W programowaniu równoległym w systemach uczących się termin związany z przypisywaniem danych i modelu do układów TPU oraz definiowaniem sposobu fragmentacji lub replikacji tych wartości.

Siatka to termin przeciążony, który może oznaczać:

Fizyczny układ układów TPU.
Abstrakcyjny konstrukt logiczny do mapowania danych i modelu na układy TPU.

W obu przypadkach siatka jest określana jako kształt.

metanauka

#language

Podzbiór systemów uczących się, które wykrywają lub ulepszają algorytm uczenia się. System metasystemów uczących się może też wytrenować model tak, aby szybko uczył się nowych zadań na podstawie niewielkiej ilości danych lub na podstawie doświadczenia zdobytego w ramach poprzednich zadań. Algorytmy metalearningu zwykle dążą do:

Udoskonalaj lub poznawaj samodzielnie opracowane funkcje (takie jak inicjator lub optymalizator).
zwiększyć wydajność przetwarzania danych i przetwarzania danych.
Popraw uogólnienie.

Meta-uczenie się jest związane z nauką krótkoterminową.

wskaźnik

#TensorFlow

Statystyka, na której Ci zależy.

Cel to wskaźnik, który system systemów uczących się próbuje zoptymalizować.

Metrics API (tf.metrics)

Interfejs TensorFlow API do oceny modeli. Na przykład tf.metrics.accuracy określa, jak często prognozy modelu pasują do etykiet.

minizbiorcza

#fundamentals

Mały, losowo wybrany podzbiór zbiorczego przetworzonego w jednej cyklu. Rozmiar wsadu małej partii wynosi zwykle od 10 do 1000 przykładów.

Załóżmy np., że cały zbiór treningowy (pełny wsad) składa się z 1000 przykładów. Dodatkowo załóżmy, że rozmiar grupy każdej minigrupy ustawiasz na 20. Dlatego każda iteracja określa stratę na losowych 20 spośród 1000 przykładów, a następnie odpowiednio koryguje wagi i odchylenia.

O wiele efektywniej obliczysz stratę w przypadku miniwsadu niż utrata wszystkich przykładów w pełnym wsadzie.

minizbiorczy spadek stochastyczny z gradientem

Algorytm gradientu opadania, który wykorzystuje miniseryjne. Inaczej mówiąc, małe zbiorowe zestawienie stochastyczne gradientu oszacowuje gradient na podstawie niewielkiego podzbioru danych treningowych. Zwykłe zjawisko gradientu stochastycznego używa niewielkiej partii o rozmiarze 1.

minimalna strata

Funkcja utraty dla generatywnych sieci kontradyktoryjnych oparta na entropii krzyżowej między dystrybucją wygenerowanych danych a danych rzeczywistych.

W pierwszym dokumencie użyto parametru Minimax, aby opisać sieci generatywne.

klasa mniejszościowa

#fundamentals

Rzadziej używana etykieta w zbiorze danych o niezbalansowaniu klasy. Na przykład jeśli zbiór danych zawiera 99% etykiet negatywnych i 1% pozytywnych, etykiety dodatnie są klasą mniejszości.

Kontrast z klasą większości.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Zestaw treningowy z milionem przykładów brzmi imponująco. Jeśli jednak klasa mniejszości jest słabo reprezentowana, nawet bardzo duży zestaw treningowy może być niewystarczający. Skup się na łącznej liczbie przykładów w zbiorze danych, a bardziej na liczbie przykładów w klasie mniejszości.

Jeśli w Twoim zbiorze danych nie ma wystarczającej liczby przykładów klas mniejszości, możesz użyć downsampling (definicji w drugim punkcie), aby uzupełnić klasę mniejszości.

ML

Skrót od terminu Machine Learning (uczenie maszynowe).

MNIST,

#image

Zbiór danych w domenie publicznej, skompilowany przez LeCun, Cortesa i Burgesa,zawierający 60 tys. obrazów. Każdy obraz przedstawia, jak człowiek ręcznie zapisał konkretną cyfrę od 0 do 9. Każdy obraz jest przechowywany w postaci tablicy liczb całkowitych o wymiarach 28 x 28, gdzie każda liczba całkowita to wartość w skali szarości z zakresu od 0 do 255 włącznie.

MNIST to kanoniczny zbiór danych dla systemów uczących się, często używany do testowania nowych metod. Więcej informacji znajdziesz w bazie danych MNIST Database of Handwritten Digits (baza danych odręcznych cyfr).

modalność

#language

Ogólna kategoria danych. Na przykład liczby, tekst, obrazy, film i dźwięk to 5 różnych modalności.

model

#fundamentals

Ogólnie każdy konstrukt matematyczny, który przetwarza dane wejściowe i zwraca dane wyjściowe. Inaczej mówiąc, model to zbiór parametrów i struktury potrzebne systemowi do generowania prognoz. W nadzorowanych systemach uczących się model pobiera przykład jako dane wejściowe i wyraża prognozę jako dane wyjściowe. W nadzorowanych systemach uczących się modele nieco się różnią. Na przykład:

Model regresji liniowej składa się ze zbioru wag i odchylenia.
Model sieci neuronowej składa się z tych elementów:
- Zestaw ukrytych warstw, z których każda zawiera co najmniej 1 neuron.
- Wagi i uprzedzenia związane z każdym neuronem.
Model drzewa decyzji składa się z:
- Kształt drzewa, czyli wzorzec, który łączy warunki i liści.
- Warunki i opóźnienie.

Model możesz zapisać, przywrócić lub utworzyć jego kopie.

Nienadzorowane systemy uczące się również generują modele, zwykle funkcję, która potrafi zmapować dane wejściowe na najbardziej odpowiedni klaster.

Kliknij ikonę, aby porównać funkcje algebraiczne i programistyczne z modelami ML.

Funkcja algebraiczna, taka jak poniżej, jest modelem:

  f(x, y) = 3x -5xy + y² + 17

Poprzednia funkcja mapuje wartości wejściowe (x i y) na dane wyjściowe.

Podobnie jest w przypadku poniższej funkcji programowania, takiej jak poniżej:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

Element wywołujący przekazuje argumenty do poprzedniej funkcji w Pythonie, a funkcja generuje dane wyjściowe (za pomocą instrukcji return).

Chociaż głęboka sieć neuronowa ma zupełnie inną strukturę matematyczną niż funkcja algebraiczna czy programowa, głęboka sieć neuronowa nadal wymaga danych wejściowych (przykład) i zwraca dane wyjściowe (prognoza).

Programista ręcznie koduje funkcję programowania. Model systemów uczących się natomiast stopniowo uczy się optymalnych parametrów podczas automatycznego trenowania.

pojemność modelu

Złożoność problemów, których model może nauczyć się. Im bardziej złożone są problemy, których może nauczyć się model, tym większa jego wydajność. Wydajność modelu zazwyczaj zwiększa się wraz z liczbą jego parametrów. Formalną definicję klasyfikatora znajdziesz w artykule Wymiar VC.

kaskadowe łączenie modeli

#generatywna AI

System, który wybiera model idealny dla określonego zapytania wnioskowania.

Wyobraź sobie grupę modeli – od bardzo dużych (z wieloma parametrami) po znacznie mniejsze (znacznie mniej parametrów). Bardzo duże modele zużywają więcej zasobów obliczeniowych w czasie wnioskowania niż mniejsze modele. Jednak bardzo duże modele mogą zwykle wnioskować bardziej złożone żądania niż mniejsze. Kaskadowe łączenie modeli określa złożoność zapytania wnioskowania i wybiera odpowiedni model, który przeprowadzi wnioskowanie. Głównym celem kaskadowania modeli jest zmniejszenie kosztów wnioskowania przez wybranie mniejszych modeli i wybór większego modelu w przypadku bardziej złożonych zapytań.

Załóżmy, że na telefonie działa mały model, a większa jego wersja działa na serwerze zdalnym. Dobry kaskadowy model pozwala zmniejszyć koszty i czas oczekiwania, ponieważ mniejszy model obsługuje proste żądania i wywołuje model zdalny w celu obsługi złożonych żądań.

Zobacz też model routera.

równoległość modelu

#language

Sposób skalowania trenowania lub wnioskowania, który powoduje umieszczenie różnych części jednego model na różnych model. Równoległość modeli umożliwia stosowanie modeli, które są zbyt duże, aby zmieścić się na jednym urządzeniu.

Aby wdrożyć równoległość modelu, system zwykle wykonuje te czynności:

Fragmenty (dzielenie) modelu na mniejsze części.
Rozdziela trenowanie tych mniejszych części na wiele procesorów. Każdy procesor trenuje własną część modelu.
Łączy wyniki w celu utworzenia jednego modelu.

Równoległość modelu spowalnia trenowanie.

Zobacz też artykuł na temat równoległości danych.

model routera

#generatywna AI

Algorytm, który określa idealny model do wnioskowania w kaskadowym modelu. Model routera to zwykle model systemu uczącego się, który stopniowo uczy się, jak wybrać najlepszy model na potrzeby danych wejściowych. Router modelu może być jednak czasami prostszy, niebędący algorytmem systemów uczących się.

trenowanie modelu

Proces wyboru najlepszego model.

Wykorzystanie chwili

Zaawansowany algorytm przesuwania w postaci gradientu, w którym etap nauki zależy nie tylko od pochodnej obecnego kroku, ale także od pochodnych poprzednich kroków. Przy obliczaniu momentu pędu obliczamy ważoną wykładniczo średnią ruchomą gradientów w czasie, analogicznie do pędu w fizyce. Wykorzystanie chwili sprawia, że nauka nie utknie w lokalnej minima.

klasyfikacja wieloklasowa

#fundamentals

W uczeniu nadzorowanym problem z klasyfikacją, w którym zbiór danych zawiera więcej niż 2 klasy etykiet. Na przykład etykiety w zbiorze danych Iris muszą być jedną z tych 3 klas:

Irys setosa
Irys wirginica
Irys w wersji versicolor

Model wytrenowany na zbiorze danych Iris, który prognozuje typ przesłony na nowych przykładach, wykonuje klasyfikację wieloklasową.

W przeciwieństwie do problemów z klasyfikacją, które rozróżniają dokładnie 2 klasy, są to modele klasyfikacji binarnej. Na przykład model poczty e-mail, który prognozuje spam lub nie spam, jest modelem klasyfikacji binarnej.

W przypadku problemów grupowania klasyfikacja wieloklasowa odnosi się do więcej niż 2 klastrów.

wieloklasowa regresja logistyczna

Użycie regresji logistycznej w problemach z klasyfikacją wieloklasową.

wielogłowa autouwaga

#language

Rozszerzenie samouważności, które stosuje mechanizm samouważności wielokrotnie w przypadku każdej pozycji w sekwencji wejściowej.

W projekcie Transformers wprowadzono wielogłową funkcję autopilnowania.

model multimodalny

#language

Model, którego dane wejściowe lub wyjściowe zawierają więcej niż 1 modalność. Rozważmy na przykład model, w którym funkcje zawierają zarówno obraz, jak i podpisy tekstowe (2 modalności) i zwraca wynik wskazujący, w jakim stopniu podpis tekstowy pasuje do obrazu. Dane wejściowe tego modelu są multimodalne, a dane wyjściowe są jednomodalne.

klasyfikacja wielomianowa

Synonim klasyfikacji wieloklasowej.

regresja wielomianowa

Synonim wieloklasowej regresji logistycznej.

wielozadaniowość

Technika systemów uczących się, w której jeden model jest wytrenowany do wykonywania wielu zadań.

Modele wielozadaniowe są tworzone przez trenowanie na danych odpowiednich do poszczególnych zadań. Dzięki temu model może nauczyć się współdzielić informacje między zadaniami, co usprawnia jego uczenie się.

Model wytrenowany pod kątem wielu zadań często ma lepsze możliwości uogólniania i może lepiej obsługiwać różne rodzaje danych.

N

Trap NaN

Gdy jedna liczba w modelu staje się podczas trenowania NaN, co powoduje, że wiele lub wszystkie pozostałe liczby w modelu zmieniają się w NaN.

NaN to skrót od Not a Number.

rozumienie języka naturalnego

#language

Określanie zamiarów użytkownika na podstawie tego, co wpisał lub powiedział. Na przykład wyszukiwarka używa rozumienia języka naturalnego, aby określić, czego szuka użytkownik, na podstawie tego, co wpisał lub powiedział.

klasa negatywna

#fundamentals

W klasyfikacji binarnej jedna klasa jest określana jako pozytywna, a druga – ujemna. Klasa pozytywna to rzecz lub zdarzenie, które testuje model, a klasa ujemna to druga możliwość. Na przykład:

Ocena negatywna w teście medycznym może oznaczać, że to nie guz.
Wykluczona klasa w klasyfikatorze e-mail może mieć stan „Nie spam”.

Wskaż kontrast z klasą pozytywną.

próbkowanie negatywne

Synonim terminu próbkowanie kandydatów.

Neural Architecture Search (NAS)

Technika automatycznego projektowania architektury sieci neuronowej. Algorytmy NAS pozwalają skrócić czas i zasoby niezbędne do wytrenowania sieci neuronowej.

NAS zazwyczaj używa:

Przestrzeń wyszukiwania, która jest zbiorem możliwych architektur.
Funkcja sprawności fizycznej, czyli pomiar skuteczności konkretnej architektury w przypadku danego zadania.

Algorytmy NAS często zaczynają od niewielkiego zestawu możliwych architektur i stopniowo rozszerzają przestrzeń wyszukiwania w miarę jak algorytm uczy się więcej o skuteczności architektur. Funkcja sprawności fizycznej bazuje zazwyczaj na wydajności architektury zbioru treningowego, a algorytm jest zazwyczaj trenowany z wykorzystaniem techniki uczenia przez wzmacnianie.

Algorytmy NAS sprawdziły się w wyszukiwaniu architektur o wysokiej wydajności do różnych zadań, takich jak klasyfikacja obrazów, klasyfikacja tekstu i tłumaczenie maszynowe.

sieć neuronowa

#fundamentals

model zawierający co najmniej 1 model. Głęboka sieć neuronowa to typ sieci neuronowej, który zawiera więcej niż 1 ukrytą warstwę. Na przykład na diagramie poniżej widać głęboką sieć neuronowa z 2 ukrytymi warstwami.

Sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową.

Każdy neuron w sieci neuronowej łączy się ze wszystkimi węzłami w następnej warstwie. Na przykład na poprzednim diagramie widać, że każdy z 3 neuronów w pierwszej ukrytej warstwie oddzielnie łączy się z obydwoma neuronami w drugiej ukrytej warstwie.

Sieci neuronowe stosowane na komputerach są czasem nazywane sztucznymi sieciami neuronowymi, co pozwala odróżnić je od sieci neuronowych występujących w mózgu i innych układach nerwowych.

Niektóre sieci neuronowe mogą naśladować bardzo złożone nieliniowe relacje między różnymi cechami a etykietą.

Zobacz też splotową sieć neuronowa i powracającą sieć neuronowa.

neuron

#fundamentals

W systemach uczących się: odrębna jednostka w ukrytej warstwie sieci neuronowej. Każdy neuron wykonuje takie dwuetapowe działanie:

Oblicza sumę ważoną wartości wejściowych pomnożonych przez odpowiednie wagi.
Przekazuje sumę ważoną jako dane wejściowe do funkcji aktywacji.

Neuron w pierwszej ukrytej warstwie przyjmuje dane wejściowe z wartości cech w warstwie wejściowej. Neuron w dowolnej ukrytej warstwie poza pierwszą przyjmuje dane wejściowe z neuronów z poprzedniej ukrytej warstwy. Na przykład neuron w drugiej ukrytej warstwie przyjmuje dane wejściowe od neuronów z pierwszej ukrytej warstwy.

Na ilustracji poniżej przedstawiono 2 neurony i ich dane wejściowe.

Neuron w sieci neuronowej naśladuje zachowanie neuronów w mózgu i innych częściach układów nerwowych.

N-gram

#seq

#language

Uporządkowana sekwencja N słów. Na przykład naprawdę do szaleństwa to 2 gramy. Kolejność ma znaczenie, więc sztucznie to nie to samo co niesamowite.

N	Nazwy tego rodzaju N-gram	Przykłady
2	bigram lub 2-gram	iść do, iść, zjeść obiad, zjeść kolację
3	trygram lub 3-gram	zjadli za dużo, trzy niewidome myszy, i dzwonki na telefon
4	4 gram	spacer po parku, kurz na wietrze, chłopiec zjadł soczewicę

Wiele modeli rozumienia języka naturalnego korzysta z N-gramów do przewidywania następnego słowa, które użytkownik wpisał lub powie. Załóżmy na przykład, że użytkownik wpisał three blind (3 niewidome). Model NLU oparty na trygramach prawdopodobnie przewidywałby, że użytkownik w następnym przypadku wpisze myszy.

Porównaj n-gramy z torem słów, które są nieuporządkowanymi zestawami słów.

NLU

#language

Skrót od naturalnego rozumienia.

węzeł (drzewo decyzji)

#df

W drzewie decyzji dowolny warunek lub liść.

Drzewo decyzyjne z 2 warunkami i 3 liśćmi.

węzeł (sieć neuronowa)

#fundamentals

Neuron w ukrytej warstwie.

węzeł (wykres TensorFlow)

#TensorFlow

Operacja na wykresie TensorFlow.

szum

Ogólnie rzecz biorąc, wszystko, co zasłania sygnał w zbiorze danych. Szum można wprowadzić do danych na różne sposoby. Na przykład:

Weryfikatorzy popełniają błędy w oznaczaniu.
Ludzie i instrumenty błędnie rejestrują lub pomijają wartości cech.

niebinarny warunek

#df

Warunek obejmujący więcej niż 2 możliwe wyniki. Na przykład ten warunek niebinarny ma 3 możliwe rezultaty:

Warunek (number_of_legs = ?), który prowadzi do 3 możliwych wyników. Jeden wynik (number_of_legs = 8) prowadzi do liścia o nazwie pająk. Drugi wynik (number_of_legs = 4) prowadzi do liścia nazwanego „psem”. Trzeci wynik (number_of_legs = 2) prowadzi do liścia o nazwie pingwina.

nieliniowy

#fundamentals

Relacja między co najmniej 2 zmiennymi, której nie można przedstawić wyłącznie poprzez dodawanie i mnożenie. Relacja linearna może być przedstawiona w postaci linii. Relacja nieliniowa nie może być reprezentowana jako linia. Rozważmy np. 2 modele, z których każdy wiąże pojedynczą cechę z 1 etykietą. Model po lewej stronie jest liniowy, a po prawej – nieliniowy:

Dwa działki. Jeden wykres jest liniowy, więc jest to zależność liniowa.
Drugi wykres jest krzywą, więc jest to zależność nieliniowa.

efekt braku odpowiedzi

#fairness

Zobacz Błąd doboru.

niestacjonarny

#fundamentals

Cecha, której wartości zmieniają się w przypadku jednego lub kilku wymiarów, zwykle w czasie. Rozważmy na przykład te przykłady niestacjonarności:

Liczba kostiumów kąpielowych sprzedawanych w danym sklepie różni się w zależności od pory roku.
Ilość konkretnych owoców zebranych w danym regionie wynosi zero przez większą część roku, ale przez krótki okres jest wysoka.
Z powodu zmian klimatycznych średnia roczna temperatura się zmienia.

Przeciwieństwem jest stacjonarność.

normalizacja

#fundamentals

Ogólnie rzecz biorąc, proces konwertowania rzeczywistego zakresu wartości zmiennej na standardowy zakres wartości, taki jak:

Od -1 do +1
Od 0 do 1
rozkład normalny

Załóżmy na przykład, że rzeczywisty zakres wartości określonej cechy wynosi od 800 do 2400. W ramach inżynierii funkcji możesz znormalizować rzeczywiste wartości do standardowego zakresu, np. od -1 do +1.

Normalizacja jest częstym zadaniem w inżynierii cech. Modele zwykle trenują szybciej (i dają lepsze prognozy), gdy każda cecha liczbowa w wektorze cech ma mniej więcej taki sam zakres.

wykrywanie nowości

Proces określania, czy nowy (nowatorski) przykład pochodzi z tej samej dystrybucji co zestaw treningowy. Inaczej mówiąc, po wytrenowaniu na zbiorze treningowym wykrywanie nowości określa, czy nowy przykład (podczas wnioskowania czy podczas dodatkowego trenowania) jest wyjątkiem.

Przeciwieństwem są wykrywanie wyników odstających.

dane liczbowe

#fundamentals

Funkcje reprezentowane w postaci liczb całkowitych lub liczb rzeczywistych. Na przykład model wyceny domu przedstawiałby prawdopodobnie rozmiar domu (w stopach kwadratowych lub metrach kwadratowych) jako dane liczbowe. Prezentowanie cechy jako danych liczbowych wskazuje, że jej wartości mają związek z etykietą matematyczną. Oznacza to, że liczba metrów kwadratowych domu ma chyba związek matematyczny z wartością domu.

Nie wszystkie dane całkowite powinny być przedstawiane jako dane liczbowe. Na przykład kody pocztowe w niektórych częściach świata są liczbami całkowitymi, ale w modelach nie należy ich podawać jako danych liczbowych. Dzieje się tak dlatego, że kod pocztowy 20000 nie jest dwa (lub o połowę) wyższy niż kod pocztowy 10000. Poza tym chociaż różne kody pocztowe wiążą się z różnymi wartościami dotyczącymi nieruchomości, nie możemy zakładać, że wartości nieruchomości dla kodu pocztowego 20000 są 2 razy cenniejsze niż wartości nieruchomości dla kodu pocztowego 10000. Kody pocztowe powinny być zamiast tego jako dane kategorialne.

Cechy liczbowe są czasami nazywane obiektami ciągłymi.

NumPy

Biblioteka matematyczna open source pozwalająca na efektywne operacje tablicowe w Pythonie. pandas jest oparty na NumPy.

O

cel

Wskaźnik, który algorytm próbuje zoptymalizować.

funkcja celu

Wzór matematyczny lub dane, które model ma zoptymalizować. Na przykład funkcja celu dla regresji liniowej to zwykle Średnia kwadratowa strata. Dlatego podczas trenowania modelu regresji liniowej trenowanie ma na celu zminimalizowanie średniej kwadratowej straty.

W niektórych przypadkach celem jest zmaksymalizowanie funkcji celu. Jeśli na przykład funkcją celu jest dokładność, celem jest maksymalizacja dokładności.

Zobacz też strata.

warunek skośny

#df

W drzewie decyzji warunek, który obejmuje więcej niż 1 funkcję. Jeśli na przykład wysokość i szerokość są obiektami, warunek skośny wygląda tak:

  height > width

Porównaj warunek wyrównany do osi.

offline

#fundamentals

Synonim słowa statyczny.

wnioskowanie offline

#fundamentals

Proces generowania przez model grupy prognoz, a następnie buforowania (zapisywania) tych prognoz. Dzięki temu aplikacje mogą uzyskać dostęp do wywnioskowanej prognozy z pamięci podręcznej, bez ponownego uruchamiania modelu.

Załóżmy np., że mamy model, który co 4 godziny generuje lokalne prognozy pogody. Po każdym uruchomieniu modelu system zapisuje wszystkie lokalne prognozy pogody w pamięci podręcznej. Aplikacje pogodowe pobierają prognozy z pamięci podręcznej.

Wnioskowanie offline nazywane jest też wnioskowaniem statycznym.

Różnica z wnioskowaniem online.

kodowanie one-got

#fundamentals

Przedstawianie danych kategorialnych w postaci wektora, w którym:

Jeden z elementów ma wartość 1.
Pozostałe elementy mają wartość 0.

Kodowanie jednorazowe jest zwykle stosowane do reprezentowania ciągów znaków lub identyfikatorów, które mają ograniczony zestaw możliwych wartości. Załóżmy na przykład, że cecha kategorialna o nazwie Scandinavia ma 5 możliwych wartości:

„Dania”
„Szwecja”
„Norwegia”
„Finlandia”
„Islandia”

Jednokrotne kodowanie może reprezentować każdą z tych 5 wartości w następujący sposób:

country	Wektor
„Dania”	1	0	0	0	0
„Szwecja”	0	1	0	0	0
„Norwegia”	0	0	1	0	0
„Finlandia”	0	0	0	1	0
„Islandia”	0	0	0	0	1

Dzięki kodowaniu jednorazowo model może uczyć się różnych połączeń w zależności od kraju.

Przedstawienie cechy jako danych liczbowych jest alternatywą dla kodowania jeden-gorącego. Niestety liczbowe reprezentowanie krajów skandynawskich nie jest dobrym rozwiązaniem. Rozważ na przykład taką reprezentację liczbową:

„Dania” ma wartość 0
„Szwecja” ma 1 miejsce
„Norwegia” ma 2 miejsce
„Finlandia” ma 3 miejsce
„Islandia” ma 4 miejsce

Dzięki kodowaniu numerycznemu model matematycznie zinterpretowałby nieprzetworzone liczby i spróbowałby się na nich trenować. Jednak w rzeczywistości Islandia nie jest dwa razy (albo nawet o połowę mniejsza) od Norwegii, więc wyciąganie z modelu dziwnych wniosków.

nauka jednorazowa

Podejście oparte na systemach uczących się, często używane do klasyfikacji obiektów, opracowane do uczenia skutecznych klasyfikatorów na podstawie pojedynczego przykładu trenowania.

Zapoznaj się też z nauką krótkoterminową i nauką typu zero-shot.

prompty jednorazowe

#language

#generatywna AI

Prompt zawierający 1 przykład pokazujący, jak powinien reagować duży model językowy. Na przykład ten prompt zawiera 1 przykład, który pokazuje duży model językowy, jak powinien odpowiadać na zapytanie.

Elementy jednego promptu	Notatki
`Jaka jest oficjalna waluta w danym kraju?`	Pytanie, na które ma odpowiedzieć LLM.
`Francja: EUR`	Przykład:
`Indie:`	Faktyczne zapytanie.

Wskaż podobieństwa i różnice między promptami jedno-strzałowymi z następującymi terminami:

jeden kontra wszystko

#fundamentals

Biorąc pod uwagę problem klasyfikacji z klasami N, rozwiązaniem składającym się z N osobnych klasyfikatorów binarnych – jeden klasyfikator binarny dla każdego możliwego wyniku. Na przykład w modelu, który klasyfikuje przykłady jako produkty zwierzęce, warzywne lub mineralne, rozwiązanie typu „jeden kontra wszystkie” zapewniłoby te 3 osobne klasyfikatory binarne:

zwierzę czy nie zwierzę
warzywne czy niewarzywne
minerał vs. nieminerał

online

#fundamentals

Synonim terminu dynamic.

wnioskowanie online

#fundamentals

generowanie prognoz na żądanie. Załóżmy na przykład, że aplikacja przekazuje dane wejściowe do modelu i wysyła żądanie prognozy. System wykorzystujący wnioskowanie online odpowiada na żądanie, uruchamiając model (i zwracając prognozę do aplikacji).

Przeciwieństwem są wnioskowanie offline.

operacja (operacja)

#TensorFlow

W TensorFlow każda procedura, która tworzy, manipuluje lub niszczy obiekt Tensor. Na przykład mnożenie macierzy to operacja, w której dane wejściowe składają się z 2 składników i generują jeden jako dane wyjściowe.

Optax

Biblioteka przetwarzania i optymalizacji gradientów dla języka JAX. Optax ułatwia prowadzenie badań, dostarczając elementy składowe, które można ponownie łączyć w niestandardowe sposoby w celu optymalizacji modeli parametrycznych, takich jak głębokie sieci neuronowe. Inne cele to:

udostępnianie czytelnych, dobrze przetestowanych i wydajnych implementacji podstawowych komponentów;
Zwiększenie produktywności przez umożliwienie łączenia składników niskiego poziomu w niestandardowych optymalizatorach (lub innych komponentach przetwarzania gradientu).
Przyspieszanie wdrażania nowych pomysłów przez ułatwianie zgłaszania się do nich.

optymalizator

Specjalna implementacja algorytmu gradientu gradientu. Popularne optymalizatory to:

AdaGrad – ADAptive GRADient descent.
Adam oznacza skrót ADAptive od Momentum.

efekt jednorodności grupy zewnętrznej

#fairness

To tendencja do postrzegania członków poza grupą jako bardziej podobnych niż w grupie przy porównywaniu postaw, wartości, cech osobowości i innych cech. Określenie w grupie odnosi się do osób, z którymi regularnie się kontaktujesz, a „poza grupą” odnosi się do osób, z którymi nie komunikujesz się regularnie. Jeśli utworzysz zbiór danych z prośbą o podanie atrybutów dotyczących osób spoza grupy, atrybuty te mogą być mniej niuanse i bardziej stereotypowe niż te, które uczestnicy wymieniają w przypadku osób w ich grupie.

Liliputowie mogą na przykład bardzo szczegółowo opisywać domy innych liliputów, powołując się na niewielkie różnice w stylach architektonicznych, oknach, drzwiach i rozmiarach. Ci sami liliputowie mogą jednak po prostu zadeklarować, że wszyscy mieszkańcy Robdingnagii mieszkają w identycznych domach.

Błąd ujednolicania grupy zewnętrznej to forma uprzedzenia atrybucji w grupie.

Zobacz też uprzedzenia w grupie.

wykrywanie wyników odstających

Proces identyfikowania wartości odstających w zbiorze treningowym.

Przeciwieństwem są wykrywanie nowości.

nietypowych danych

Wartości, które są oddalone od większości innych wartości. W przypadku uczenia maszynowego żadne z tych stwierdzeń są odstające:

Dane wejściowe, których wartości są większe niż mniej więcej 3 odchylenia standardowe od średniej.
Wagi z wysokimi wartościami bezwzględnymi.
Prognozowane wartości są stosunkowo oddalone od wartości rzeczywistych.

Załóżmy na przykład, że widget-price jest cechą określonego modelu. Załóżmy, że średnia widget-price to 7 euro z odchyleniem standardowym 1 euro. Przykłady zawierające wartość widget-price w wysokości 12 euro lub 2 euro są więc uznawane za wartości odstające, ponieważ każda z tych cen to 5 standardowych odchyleń od średniej.

Wyniki odstające są często spowodowane literówkami lub innymi błędami w danych wejściowych. W innych przypadkach wartości odstające nie są błędami. W końcu wartości odchyleń o 5 standardowych odchyleń od średniej są w rzeczywistości rzadko, ale są praktycznie niemożliwe.

Wartości odstające często powodują problemy podczas trenowania modelu. Przycinanie to jeden ze sposobów zarządzania elementami odstającymi.

ocena bezpośrednia

#df

Mechanizm oceny jakości lasu decyzyjnego przez przetestowanie każdego drzewa decyzyjnego na podstawie przykładów nieużywanych podczas trenowania danego drzewa decyzyjnego. Na przykład na poniższym diagramie widać, że system trenuje każde drzewo decyzyjne na około 2/3 przykładów, a potem ocenia wyniki względem pozostałej 1/3 przykładów.

Las decyzyjny składający się z 3 drzew decyzyjnych.
Jedno drzewo decyzyjne trenuje na 2/3 przykładów, a pozostałą część wykorzystuje do oceny OOB (1/3).
Drugie drzewo decyzyjne trenuje na innych 2/3 przykładów niż poprzednie drzewo decyzyjne, a następnie używa do oceny OOB innej wartości 1/3 niż w poprzednim drzewie decyzyjnym.

Ocena bezpośrednia to wydajna i zachowawcza metoda obliczeniowa, która pozwala oszacować mechanizm weryfikacji krzyżowej. W ramach weryfikacji krzyżowej trenowany jest 1 model na każdą rundę weryfikacji krzyżowej (np. 10 modeli jest trenowanych w ramach 10-krotnej weryfikacji). W przypadku oceny OOB trenowany jest 1 model. Ponieważ bagowanie powoduje wstrzymanie części danych z każdego drzewa podczas trenowania, ocena OOB może wykorzystać te dane do przybliżonej weryfikacji krzyżowej.

warstwa wyjściowa

#fundamentals

„Ostatnia” warstwa sieci neuronowej. Warstwa wyjściowa zawiera prognozę.

Na ilustracji poniżej przedstawiono małą głęboką sieć neuronowa z warstwą wejściową, 2 ukrytymi warstwami i warstwą wyjściową:

nadmierne dopasowanie

#fundamentals

Utworzenie model, który pasuje do model, tak aby nie przewidywał poprawnych prognoz na podstawie nowych danych.

Regularizowanie może ograniczyć nadmierne dopasowanie. Trening na dużym i zróżnicowanym zestawie treningowym może również ograniczyć nadmierne dopasowanie.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Nadmiarowe dopasowanie jest jak trzymanie się rad tylko ulubionego nauczyciela. Pewnie uda Ci się odnieść sukces na zajęciach tego nauczyciela, ale możesz przesadzić z jego pomysłami i nie udać się na innych zajęciach. Stosując się do rad różnych nauczycieli, możesz lepiej dostosować się do nowych sytuacji.

nadmierne próbkowanie

Ponowne wykorzystanie przykładów klasy mniejszości w zbiorze danych niezrównoważonych w klasie, aby utworzyć bardziej zrównoważony zbiór treningowy.

Rozważmy na przykład problem z klasyfikacją binarną, w którym stosunek klasy większości do klasy mniejszości wynosi 5000:1. Jeśli zbiór danych zawiera milion przykładów, oznacza to, że zawiera tylko około 200 przykładów klasy mniejszości. To może być za mało, aby skutecznie trenować. Aby przezwyciężyć ten brak danych, możesz wielokrotnie wykorzystać te 200 przykładów w nadmiernej ilości, co może doprowadzić do uzyskania wystarczającej ilości przykładów do wykorzystania podczas trenowania.

Uważaj, aby nie dopuścić do nadmiernego dopasowania w przypadku nadmiernego próbkowania.

Przeciwieństwem jest niedostateczne próbkowanie.

P

spakowane dane

Metoda bardziej efektywnego przechowywania danych.

Spakowane dane przechowują dane w formacie skompresowanym lub w inny sposób, który umożliwia ich bardziej wydajny dostęp. Spakowane dane minimalizują ilość pamięci i obciążeń obliczeniowych wymaganych do uzyskania do nich dostępu, co prowadzi do szybszego trenowania i wydajniejszego wnioskowania na model.

Dane spakowane są często używane razem z innymi technikami, takimi jak rozszerzanie danych i regularizacja, co dodatkowo zwiększa wydajność modeli.

pandy

#fundamentals

Interfejs API analizy danych z orientacją na kolumny oparty na numpy. Wiele platform systemów uczących się, w tym TensorFlow, obsługuje jako dane wejściowe struktury danych Pandas. Więcej informacji znajdziesz w dokumentacji Pandas.

parametr

#fundamentals

wagi i odchylenia, których model uczy się podczas trenowania. Na przykład w modelu regresji liniowej parametry składają się z odchylenia (b) i wszystkich wag (w₁, w₂ itd.) w tej formule:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

W przeciwieństwie do tego hiperparametr to wartości, które Ty (lub usługa dostrajania hiperparametrów) dostarcza modelowi. Na przykład szybkość uczenia się jest hiperparametrem.

dostrajanie zapewniające wydajność parametrów

#language

#generatywna AI

Zestaw technik do dostrajania dużego już wytrenowanego modelu językowego (PLM) bardziej wydajnie niż pełne dostrajanie. Dostrajanie z użyciem parametrów zwykle dostosowuje znacznie mniej parametrów niż pełne dostrajanie, ale zwykle tworzy duży model językowy, który działa równie dobrze (lub prawie tak samo dobrze), jak duży model językowy utworzony w ramach pełnego dostrajania.

Porównaj dostrajanie ekonomiczne w zakresie:

Dostrajanie pod kątem wydajności jest też nazywane dostrajaniem energooszczędnym.

Serwer parametrów (PS)

#TensorFlow

Zadanie, które śledzi parametry modelu w ustawieniu rozproszonym.

aktualizacja parametru

Operacja dostosowywania parametrów modelu podczas trenowania, zwykle w ramach pojedynczej iteracji opadania gradientowego.

pochodna cząstkowa

Pochodna, w której wszystkie zmienne oprócz jednej są uznawane za stałą. Na przykład pochodna cząstkowa funkcji f(x, y) w odniesieniu do x jest pochodną funkcji f uważanej za funkcję funkcji x (tzn. zachowanie stałej y). Częściowa pochodna f w odniesieniu do x skupia się tylko na tym, jak zmienia się x, i ignoruje pozostałe zmienne w równaniu.

efekt uczestnictwa

#fairness

Synonim uprzedzeń w postaci braku odpowiedzi. Zobacz Błąd doboru.

strategia partycjonowania

Algorytm, według którego zmienne są dzielone między serwery parametrów.

PAX

Platforma programowania przeznaczona do trenowania dużych sieci neuronowych modeli tak dużych, że obejmują one wiele układów akceleratora układów akceleratora wycinków lub podów.

Pax korzysta z platformy Flax, która jest oparta na platformie JAX.

Diagram przedstawiający pozycję Pax w stosie oprogramowania.
Usługa Pax powstała na bazie JAX. Pax składa się z 3 warstw. Dolna warstwa zawiera TensorStore i Lan.
Środkowa warstwa zawiera Optax i flaxformer. Górna warstwa zawiera bibliotekę modelowania Praxis. Fiddle działa na platformie Pax.

Perceptron

System (sprzęt lub oprogramowanie), który przyjmuje co najmniej jedną wartość wejściową, uruchamia funkcję na ważonej sumie danych wejściowych i przetwarza jedną wartość wyjściową. W przypadku systemów uczących się funkcja jest zwykle nieliniowa, np. ReLU, sigmoid czy tanh. Na przykład poniższy perceptron przetwarza 3 wartości wejściowe przy użyciu funkcji sigmoidalnej:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

Na tej ilustracji perceptron pobiera trzy dane wejściowe, z których każdy jest modyfikowany za pomocą wagi przed wprowadzeniem do perceptronu:

Perceptron, który pobiera 3 dane wejściowe, każdy pomnożony przez osobną wagę. Perceptron generuje jedną wartość.

Perceptrony to neurony w sieciach neuronowych.

występ

Hasło przeciążone o tym znaczeniu:

Standardowe znaczenie w inżynierii oprogramowania. Jak szybko (lub efektywnie) działa to oprogramowanie?
Znaczenie uczenia maszynowego. Skuteczność odpowiada na pytanie: na ile poprawny jest dany model? Czyli jak dobre są prognozy modelu?

znaczenie zmiennej permutacji

#df

Rodzaj zmiennej ważności, który ocenia wzrost błędu prognozy modelu po permutowaniu wartości funkcji. Znaczenie zmiennej permutacji to dane niezależne od modelu.

zakłopotanie

Jedna z miar, jak dobrze model wykonuje swoje zadanie. Załóżmy na przykład, że Twoim zadaniem jest przeczytanie pierwszych kilku liter słowa, które użytkownik wpisuje na klawiaturze telefonu, i przedstawienie listy możliwych do uzupełnienia słów. Niedokładność (P) dla tego zadania to przybliżona liczba odgadań, które musisz podać, aby na liście znalazły się słowa, które użytkownik próbuje wpisać.

Zdezorientowanie jest związane z entropią krzyżową w następujący sposób:

$$P= 2^{-\text{cross entropy}}$$

potok

Infrastruktura otaczająca algorytm systemów uczących się. Potok obejmuje gromadzenie danych, umieszczanie ich w plikach danych treningowych, trenowanie co najmniej 1 modelu oraz eksportowanie modeli do środowiska produkcyjnego.

potokowanie

#language

Forma równoległości modelu, w której przetwarzanie modelu jest podzielone na kolejne etapy, a każdy z nich jest wykonywany na innym urządzeniu. Gdy etap przetwarza 1 wsad, poprzedni etap może pracować z kolejnym.

Zobacz też trenowanie etapowe.

pjit

Funkcja JAX, która dzieli kod w celu uruchomienia na wielu układach akceleratora. Użytkownik przekazuje funkcję do pjit, która zwraca funkcję o równoważnej semantyce, ale jest skompilowana w celu obliczenia XLA, który działa na wielu urządzeniach (np. GPU lub TPU).

pjit umożliwia użytkownikom dzielenie obliczeń na fragmenty bez ich przepisywania za pomocą partycjonowania SPMD.

W marcu 2023 r. konto pjit zostało połączone z domeną jit. Więcej informacji znajdziesz w artykule Tablice rozproszone i automatyczna równoległość.

PLM

#language

#generatywna AI

Skrót od terminu wstępnie wytrenowanego modelu językowego.

Pmap

Funkcja JAX, która wykonuje kopie funkcji wejściowej na wielu bazowych urządzeniach sprzętowych (procesorach, GPU lub procesorach TPU) z różnymi wartościami wejściowymi. pmap korzysta z SPMD.

policy

#rl

Podczas uczenia przez wzmacnianie agencji probabilistyczne mapowanie stanów z działań.

grupowanie

#image

Zmniejszanie macierzy (lub macierzy) utworzonych przez wcześniejszą warstwę splotową do mniejszej. Łączenie w ramach zazwyczaj obejmuje wartość maksymalną lub średnią na wspólnym obszarze. Załóżmy na przykład, że mamy taką macierz 3 x 3:

Macierz 3 x 3 [[5,3,1], [8,2,5], [9,4,3]].

Operacja łączenia, podobnie jak operacja splotowa, dzieli tę macierz na wycinki, a następnie przesuwa tę splotową operację według kroków. Załóżmy na przykład, że operacja grupowania dzieli splotową macierz na wycinki 2 x 2 z krokiem 1 x 1. Jak widać na diagramie poniżej, mają miejsce 4 operacje łączenia. Załóżmy, że każda operacja grupowania wybiera maksymalną wartość z 4 w tym wycinku:

Grupowanie pomaga egzekwować niezmienność translacji w tablicy danych wejściowych.

Łączenie w puli dla aplikacji do rozpoznawania obrazów jest nazywane łączeniem przestrzennym. Aplikacje wykorzystujące ciągi czasowe zwykle nazywają się agregacją tymczasową. Mniej formalnie nazywane jest „podpróbkowaniem” lub „downsamplingiem”.

kodowanie pozycjonujące

#language

Technika dodawania w sekwencji do umieszczania tokena informacji o pozycji tokena. Modele transformerów używają kodowania pozycjonowego, aby lepiej rozumieć zależności między różnymi częściami sekwencji.

Typowa implementacja kodowania pozycyjnego wykorzystuje funkcję sinusoidalną. Częstotliwość i amplituda funkcji sinusoidalnej są określane przez pozycję tokena w sekwencji. Dzięki tej metodzie model Transformer może nauczyć się uwzględniać różne części sekwencji w zależności od ich pozycji.

klasa pozytywna

#fundamentals

Zajęcia, których dotyczy test.

Na przykład klasą pozytywną w modelu raka może być „guz”. Pozytywną klasą w klasyfikatorze e-mail może być „spam”.

Ustaw kontrast z klasą ujemną.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Termin klasa dodatnia może być mylący, ponieważ „pozytywny” wynik wielu testów jest często niepożądany. Na przykład w wielu testach medycznych klasa pozytywna odpowiada guzom lub chorobom. Zwykle chodzi o to, by lekarz powiedział Ci „Gratulacje! Wyniki testu były negatywne”. Niezależnie od tego klasa pozytywna to zdarzenie, które ma znaleźć się test.

Oczywiście testujesz jednocześnie zarówno klasę pozytywną, jak i negatywną.

obróbka

#fairness

#fundamentals

Dostosowywanie danych wyjściowych modelu po jego uruchomieniu. Za ich pomocą można egzekwować ograniczenia związane z obiektywnością bez konieczności modyfikowania modeli.

Na przykład można zastosować przetwarzanie po przetwarzaniu do klasyfikatora binarnego, ustawiając próg klasyfikacji w taki sposób, aby w przypadku danego atrybutu zachować równość możliwości. W tym celu należy sprawdzić, czy prawdziwie dodatni współczynnik prawdziwie pozytywnych jest taki sam dla wszystkich wartości danego atrybutu.

PR AUC (obszar pod krzywą PR)

Obszar pod interpolowaną krzywą precyzji i czułości uzyskany przez naniesienie punktów (czułości, precyzji) dla różnych wartości progu klasyfikacji. Zależnie od sposobu obliczania PR AUC może być odpowiednikiem średniej precyzji modelu.

Praxis

Podstawowa, wysoko wydajna biblioteka ML Pax. Praxis jest często nazywana „biblioteką warstw”.

Praxis zawiera nie tylko definicje klasy warstwy, ale też większość jej komponentów pomocniczych, w tym:

dane wejściowe
biblioteki konfiguracji (HParam i Fiddle)
optymalizatorów

Praxis podaje definicje klasy modelu.

precyzja

Dane dla modeli klasyfikacji, które odpowiadają na to pytanie:

Jaki odsetek prognoz był poprawny, gdy model przewidział klasę dodatnią?

Oto wzór:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

gdzie:

Wskazuje, że model prawidłowo przewidział klasę pozytywną.
Wynik fałszywie pozytywny oznacza, że model błędnie przewidział klasę pozytywną.

Załóżmy na przykład, że model dokonał 200 pozytywnych prognoz. Z tych 200 pozytywnych prognoz:

150 osób było wynikiem prawdziwie pozytywnych.
50 wyników to wynik fałszywie pozytywnych.

W takim przypadku:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

Zbadaj dokładność i czułość.

krzywej precyzji i czułości

Krzywa dokładności i czułości przy różnych progach klasyfikacji.

prognoza

#fundamentals

Dane wyjściowe modelu. Na przykład:

Prognoza modelu klasyfikacji binarnej może być klasą pozytywną lub ujemną.
Prognoza modelu klasyfikacji wieloklasowej to jedna klasa.
Prognoza modelu regresji liniowej jest liczbą.

#generatywna AI

Wstępne trenowanie modelu na dużym zbiorze danych. Niektóre wytrenowane modele to niezdarne olbrzymy, które trzeba zwykle ulepszyć przez dodatkowe trenowanie. Eksperci ds. systemów uczących się mogą na przykład wstępnie wytrenować duży model językowy na ogromnym zbiorze danych tekstowych, takim jak wszystkie strony w języku angielskim w Wikipedii. Po wstępnym trenowaniu wynikowy model można dopracować za pomocą dowolnej z tych technik:

wcześniejsze przekonanie

Twoje przekonania na temat danych przed rozpoczęciem ich trenowania. Na przykład regularyzacja L₂ opiera się na wcześniejszym przekonaniu, że wagi powinny być małe i zwykle rozkładane około zera.

model regresji prawdopodobnej

Model regresji, który wykorzystuje nie tylko wagi poszczególnych cech, ale także ich niepewność. Model regresji prawdopodobnej generuje prognozę i jej niepewność. Na przykład model prawdopodobieństwa regresji może dać prognozę 325 z odchyleniem standardowym o wartości 12. Więcej informacji o modelach regresji prawdopodobnej znajdziesz na tej stronie o Colab na stronietensorflow.org.

funkcja gęstości prawdopodobieństwa

Funkcja, która określa częstotliwość próbek danych mających dokładnie konkretną wartość. Gdy wartości zbioru danych są ciągłymi liczbami zmiennoprzecinkowymi, dopasowania ścisłe rzadko występują. Jednak integrating funkcji gęstości prawdopodobieństwa z wartości x do wartości y daje oczekiwaną częstotliwość próbek danych między x a y.

Załóżmy na przykład, że rozkład normalny ma średnią 200 i odchylenie standardowe 30. Aby określić oczekiwaną częstotliwość próbek danych w zakresie od 211,4 do 218,7, możesz zintegrować funkcję gęstości prawdopodobieństwa dla rozkładu normalnego od 211,4 do 218,7.

prompt

#language

#generatywna AI

Każdy tekst wpisany jako dane wejściowe dużego modelu językowego w celu uwarunkowania działania modelu w określony sposób. Prompty mogą mieć postać krótkiej frazy lub dowolnej długości (np. całego tekstu powieści). Prompty należą do wielu kategorii, m.in. w tej tabeli:

Kategoria promptu	Przykład	Notatki
Pytanie	`Jak szybko może latać gołąb?`
Instrukcja	`Napisz zabawny wiersz o arbitrażu.`	Prompt z prośbą o zrobienie czegoś przez duży model językowy.
Przykład	`Przetłumacz kod Markdown na HTML. Na przykład: Markdown: * element listy HTML: <ul> <li>element listy</li> </ul>`	Pierwsze zdanie w tym przykładowym promptie to instrukcja. Pozostała część promptu to przykład.
Rola	`Wyjaśnij, dlaczego gradient gradientowy jest wykorzystywany w trenowaniu systemów uczących się podczas studiów doktoranckich z fizyki.`	Pierwsza część zdania to instrukcja, a wyrażenie „doktor fizyki” to część określająca rolę.
Częściowe dane wejściowe do ukończenia przez model	`Premier Wielkiej Brytanii mieszka w`	Częściowy prompt wejściowy może kończyć się nagle (jak w tym przykładzie) lub kończyć się podkreśleniem.

Model generatywnej AI może odpowiedzieć na prompt za pomocą tekstu, kodu, obrazów, umieszczania treści, filmów...

uczenie się oparte na promptach

#language

#generatywna AI

Funkcja określonych modeli, która pozwala im dostosować swoje działanie w odpowiedzi na dowolnie wybrany tekst (prompty). W typowym modelu uczenia się opartym na promptach duży model językowy odpowiada na prompt przez wygenerowanie tekstu. Załóżmy na przykład, że użytkownik wpisuje taki prompt:

Podsumuj trzecią zasadę dynamiki Newtona.

Model zdolny do uczenia się na podstawie promptów nie został specjalnie wytrenowany tak, aby odpowiadał na poprzedni prompt. Model „wie” raczej dużo faktów o fizyce, dużo o ogólnych regułach językowych i o tym, co stanowi na ogół przydatne odpowiedzi. Wiedza ta wystarczy, aby udzielić (mamy nadzieję) przydatnej odpowiedzi. Dodatkowe informacje zwrotne („Ta odpowiedź była zbyt skomplikowana” lub „Co to jest reakcja?”) umożliwiają niektórym systemom uczenia się opartym na promptach stopniowe zwiększanie przydatności odpowiedzi.

projektowanie promptów

#language

#generatywna AI

Synonim wyrażenia inżynieria promptów.

techniki tworzenia promptów

#language

#generatywna AI

Sztuka tworzenia próśb, które skłaniają do uzyskania pożądanych odpowiedzi za pomocą dużego modelu językowego. Ludzie pracują nad promptami. Tworzenie dobrze ustrukturyzowanych promptów to kluczowy element zapewniania przydatnych odpowiedzi z dużego modelu językowego. Przygotowanie promptów zależy od wielu czynników, w tym:

Zbiór danych używany do wstępnego trenowania i ewentualnego dostrajania dużego modelu językowego.
temperatura i inne parametry dekodowania, których model używa do generowania odpowiedzi.

Więcej informacji o tworzeniu pomocnych promptów znajdziesz w artykule Wprowadzenie do projektowania promptów.

Projektowanie promptów to synonim inżynierii promptów.

dostrajanie promptów

#language

#generatywna AI

Mechanizm dostrajania parametrów wydajności, który uczy się „prefiksu”, który system dołącza do rzeczywistego promptu.

Jedną z wariantów dostrajania promptów (czasami nazywanych dostrajaniem prefiksu) jest dodanie prefiksu do każdej warstwy. W przeciwieństwie do tego większość dostrajania promptów dodaje tylko prefiks do warstwy wejściowej.

Kliknij ikonę, aby dowiedzieć się więcej o prefiksach.

Na potrzeby dostrajania „prefiks” (nazywany też „płynnym promptem”) to garść nauczonych wektorów dostosowanych do konkretnego zadania, dodawanych do osadzonych tokenów tekstowych z poziomu promptu. System „uczy się” na wczesnym etapie, blokując wszystkie pozostałe parametry modelu i dostosowując do określonego zadania.

etykiety serwera proxy

#fundamentals

Dane używane do określania przybliżonych etykiet, które nie są bezpośrednio dostępne w zbiorze danych.

Załóżmy np., że musisz wytrenować model do prognozowania poziomu stresu pracowników. Zbiór danych zawiera wiele funkcji prognozowanych, ale nie ma etykiety poziom stresu. Nie zniechęcając się, wybierasz „wypadki w miejscu pracy” jako zastępczą etykietę poziomu stresu. Przecież ci pracownicy, którzy są pod dużym stresem, będą popełniać więcej wypadków niż uspokajani pracownicy. Czy tak? Może liczba wypadków w miejscu pracy wznosi się i spada z wielu powodów.

W drugim przykładzie załóżmy, że w przypadku zbioru danych chcesz użyć etykiety czy pada? jako wartości logicznej, ale zbiór danych nie zawiera danych o deszczu. Jeśli dostępne są zdjęcia, możesz umieścić zdjęcia osób niosących parasole, aby określić, czy pada?. Czy to dobra etykieta proxy? Prawdopodobnie, ale w niektórych kulturach ludzie mogą bardziej nosić parasole chroniące przed słońcem niż deszcz.

Etykiety serwera proxy są często niedoskonałe. Jeśli to możliwe, wybieraj rzeczywiste etykiety zamiast etykiet serwera proxy. Dlatego w przypadku braku rzeczywistej etykiety wybieraj ją bardzo ostrożnie, wybierając najmniej najgorszą kandydaturę.

serwer proxy (atrybuty poufne)

#fairness

Atrybut używany jako zastąpienie atrybutu poufnego. Na przykład kod pocztowy danej osoby może być używany jako informacje o jej dochodach, rasie lub przynależności etnicznej.

funkcja czysta

Funkcja, której dane wyjściowe opierają się wyłącznie na jej danych wejściowych i nie mają skutków ubocznych. W szczególności funkcja czysta nie wykorzystuje ani nie zmienia żadnego stanu globalnego, na przykład zawartości pliku czy wartości zmiennej spoza funkcji.

Do tworzenia kodu bezpiecznego w wątkach można używać czystych funkcji, co jest przydatne podczas fragmentacji kodu model na wiele model.

Metody przekształcania funkcji JAX wymagają, aby funkcje wejściowe były funkcjami czystymi.

P

Funkcja Q

#rl

W uczeniu przez wzmacnianie jest to funkcja, która prognozuje oczekiwany zwrot po wykonaniu działania w stanie, a następnie na podstawie danej zasady.

Funkcja Q jest też nazywana funkcją wartości stanu działania.

Q-learning

#rl

W uczeniu przez wzmacnianie jest to algorytm, który umożliwia agentowi poznanie optymalnej funkcji Q procesu decyzyjnego Markowa przez zastosowanie równania Bellmana. Proces decyzyjny Markowa określa środowisko.

kwantyl

Każdy zasobnik w zasobniku kwantylowym.

zasobnik kwantylowy

Rozłożenie wartości funkcji na zasobniki tak, aby każdy zasobnik zawierał taką samą (lub prawie taką samą) liczbę przykładów. Na przykład na tym rysunku widać podział 44 punktów na 4 zasobniki, z których każdy zawiera 11 punktów. Aby każdy zasobnik na rysunku zawierał taką samą liczbę punktów, niektóre segmenty mają różną szerokość wartości x.

44 punkty danych podzielone na 4 grupy po 11 punktów.
Każdy zasobnik zawiera taką samą liczbę punktów danych, ale niektóre zasobniki mają szerszy zakres wartości cech niż inne zasobniki.

kwantyzacja

Przeciążone hasło, którego można użyć na dowolny z tych sposobów:

Wdrożenie zasobnika kwantylowego do konkretnej funkcji.
Przekształcanie danych w zera i jedynki w celu przyspieszenia ich przechowywania, trenowania i wnioskowania. Dane logiczne są bardziej odporne na szumy i błędy niż inne formaty, więc kwantyzacja może poprawić prawidłowość modelu. Techniki kwantyzacji obejmują zaokrąglanie, obcinanie i binowanie.
Zmniejszenie liczby bitów używanych do przechowywania parametrów modelu. Załóżmy np., że parametry modelu są przechowywane jako 32-bitowe liczby zmiennoprzecinkowe. Kwantyzacja konwertuje te parametry z 32 bitów na 4, 8 lub 16 bitów. Kwantyzacja zmniejsza te koszty:
- Wykorzystanie mocy obliczeniowej, pamięci, dysku i sieci
- Czas do określenia prognozy
- Zużycie energii
Kwantyzacja czasami jednak zmniejsza trafność prognoz modelu.

kolejka

#TensorFlow

Operation TensorFlow, która implementuje strukturę danych kolejki. Zwykle używany podczas I/O.

R

RAGIA

#fundamentals

Skrót oznaczający generowanie rozszerzone przez pobieranie.

Losowy las

#df

Zbiór drzew decyzyjnych, w którym każde drzewo decyzyjne jest wytrenowane z wykorzystaniem konkretnego losowego szumu, np. bagowania.

Lasy losowe to rodzaj lasu decyzji.

zasada losowej

#rl

W przypadku uczenia przez wzmacnianie zasada, która wybiera działanie losowo.

ranking

Rodzaj uczenia nadzorowanego, którego celem jest uporządkowanie listy elementów.

ranga (liczba całkowita)

Pozycja porządkowa klasy w zadaniu systemów uczących się, który klasyfikuje klasy od najwyższej do najniższej. Na przykład system rankingowy zachowań może uszeregować psy w kolejności od wartości najwyższej (stek) do najniższej (zgniły jarmuż).

Pozycja (Tensor)

#TensorFlow

Liczba wymiarów w Tensor. Na przykład skalarny ma ranking 0, wektor ma pozycję 1, a tablica 2.

Nie należy mylić z rankingiem (liczbą liczebności).

oceniający

#fundamentals

Osoba, która zapewnia etykiety przykładów. „Komentator” to inna nazwa oceniającego.

wycofanie

Dane dla modeli klasyfikacji, które odpowiadają na to pytanie:

Jaki odsetek prognoz został poprawnie zidentyfikowany przez model jako klasa pozytywna, gdy dane podstawowe były klasą pozytywną?

Oto wzór:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

gdzie:

Wskazuje, że model prawidłowo przewidział klasę pozytywną.
Wartość fałszywie negatywny oznacza, że model błędnie przewidział klasę ujemną.

Załóżmy na przykład, że model dokonał 200 prognoz na przykładach, w których dane podstawowe były klasą pozytywną. Z tych 200 prognoz:

180 osób było wynikiem prawdziwie pozytywnych.
20 wyników fałszywie negatywnych.

W takim przypadku:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

Kliknij ikonę, aby wyświetlić uwagi na temat zbiorów danych o niebalansach klasowych.

Czułość jest szczególnie przydatna przy określaniu mocy prognostycznej modeli klasyfikacji, w których klasa pozytywna występuje rzadko. Weźmy na przykład zbiór danych o nierównej klasy wartości, w którym klasa pozytywna danej choroby występuje tylko u 10 pacjentów na milion. Załóżmy, że Twój model generuje 5 milionów prognoz, które dają takie wyniki:

30 prawdziwie pozytywnych ocen
20 wyników fałszywie negatywnych
4 999 000 prawdziwie negatywnych
950 fałszywie pozytywnych wyników

Wycofanie tego modelu jest więc następujące:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

Z kolei dokładność tego modelu to:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

Tak duża wartość dokładności wygląda imponująco, ale w zasadzie jest bez znaczenia. Czułość jest znacznie bardziej przydatnym wskaźnikiem w przypadku zbiorów danych z niezbalansowaną klasą niż dokładność.

system rekomendacji

#recsystems

System, który wybiera dla każdego użytkownika stosunkowo mały zestaw odpowiednich elementów z dużego korpusu. Na przykład system rekomendacji może polecić 2 filmy ze zbioru 100 tys. filmów: dla jednego użytkownika wybierz Casablanca i The Philadelphia Story, a w przypadku innego użytkownika – Wonder Woman i Czarna Pantera. System rekomendacji filmów może opierać swoje rekomendacje na takich czynnikach jak:

Filmy ocenione lub obejrzane przez podobnych użytkowników.
Gatunek, reżyserzy, aktorzy, docelowa grupa demograficzna...

Prostokątna jednostka liniowa (ReLU)

#fundamentals

funkcję aktywacji o takim działaniu:

Jeśli dane wejściowe mają wartość ujemną lub zero, wynik wynosi 0.
Jeśli dane wejściowe są dodatnie, wynik jest równy wartości wejściowej.

Na przykład:

Jeśli wartość wejściowa to -3, wynik to 0.
Jeśli podana wartość to +3, wynik to 3,0.

Oto fabuła ReLU:

ReLU to bardzo popularna funkcja aktywacyjna. Pomimo swojego prostego działania ReLU nadal umożliwia sieci neuronowej uczenie się nieliniowych powiązań między funkcjami a etykietą.

nawracająca sieć neuronowa

#seq

Sieć neuronowa celowo uruchamiana wielokrotnie, w której fragmenty każdego uruchomionego pliku danych są przekazywane do kolejnego uruchomienia. Konkretnie chodzi o to, że warstwy ukryte z poprzedniego uruchomienia dostarczają część danych wejściowych do tej samej ukrytej warstwy przy następnym uruchomieniu. Powracające sieci neuronowe są szczególnie przydatne przy ocenie sekwencji, ponieważ ukryte warstwy mogą uczyć się z poprzednich przebiegów sieci neuronowej z wcześniejszych części sekwencji.

Na przykład na ilustracji poniżej widać powtarzającą się sieć neuronowa, która działa 4 razy. Zwróć uwagę, że wartości zapamiętane w ukrytych warstwach przy pierwszym uruchomieniu stają się częścią danych wejściowych dla tych samych ukrytych warstw przy drugim uruchomieniu. Podobnie wartości zapamiętane w warstwie ukrytej podczas drugiego uruchomienia stają się częścią danych wejściowych w tej samej ukrytej warstwie przy trzecim uruchomieniu. W ten sposób powracająca sieć neuronowa stopniowo trenuje i prognozuje znaczenie całej sekwencji, a nie tylko znaczenie poszczególnych słów.

Numer RNN, który uruchamia się 4 razy, aby przetworzyć 4 słowa wpisane.

model regresji

#fundamentals

Nieformalnie model generujący prognozę liczbową. (W przeciwieństwie do tego model klasyfikacji generuje prognozę klasy). Poniżej znajdują się na przykład wszystkie modele regresji:

Model, który prognozuje wartość konkretnej domu,np. 423 000 euro.
Model, który prognozuje oczekiwaną długość życia drzewa, np.23,2 roku.
Model prognozujący ilość deszczu, który będzie padał w danym mieście w ciągu najbliższych 6 godzin, np.0,18 cala.

2 typowe modele regresji to:

Regresja liniowa, która znajduje linię, która najlepiej pasuje do wartości etykiet do cech.
Regresja logistyczna, która generuje prawdopodobieństwo z zakresu od 0,0 do 1,0, które system zwykle mapuje na prognozę klasy.

Nie każdy model, który generuje prognozy liczbowe, jest modelem regresji. W niektórych przypadkach prognoza numeryczna jest w rzeczywistości tylko modelem klasyfikacji, który ma takie nazwy klas liczbowych. Na przykład model prognozujący numeryczny kod pocztowy jest modelem klasyfikacji, a nie modelem regresji.

regularyzacja

#fundamentals

Każdy mechanizm, który ogranicza nadmierne dopasowanie. Popularne typy regularyzacji to między innymi:

L₁ regularyzacja
L₂ regularyzacja
regularizacja porzucania
wczesne zaprzestanie (nie jest to formalna metoda regularnego regulowania, ale może skutecznie ograniczyć nadmierne dopasowanie).

Regularizację można też zdefiniować jako karę ze względu na złożoność modelu.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Regulacja jest sprzeczna z intuicją. Zwiększenie regularnej regularności zwykle zwiększa utratę treningów, co jest mylące, ponieważ nie jest celem zminimalizowania utraty treningów?

Właściwie to nie. Celem nie jest minimalizacja utraty treningów. Celem jest formułowanie doskonałych prognoz na rzeczywistych przykładach. Co ważne, chociaż zwiększenie regularyzacji zwiększa straty trenowania, zwykle pomaga modelom tworzyć lepsze prognozy na rzeczywistych przykładach.

współczynnik regularyzacji

#fundamentals

Liczba, która określa względne znaczenie regularizacji podczas trenowania. Zwiększenie częstotliwości regularnej pozwala ograniczyć nadmierne dopasowanie, ale może zmniejszyć moc prognozowania modelu. I odwrotnie, zmniejszenie lub pominięcie współczynnika regularyzacji zwiększa dopasowanie.

Kliknij ikonę, aby zobaczyć wyliczenie.

Współczynnik regularyzacji jest zwykle oznaczany jako grecka litera „lambda”. Oto uproszczone równanie straty pokazuje wpływ lambdy:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

gdzie regularizacja to dowolny mechanizm regularyzacji, w tym:

uczenie się przez wzmacnianie

#rl

Rodzina algorytmów, które uczą się optymalnych zasad, których celem jest maksymalizacja zwrotu podczas interakcji ze środowiskiem. Na przykład główną nagrodą w większości gier jest zwycięstwo. Systemy uczenia się przez wzmacnianie mogą stać się ekspertem w graniu w złożone gry, oceniając sekwencje poprzednich ruchów, które ostatecznie prowadziły do zwycięstw i przegranych.

Uczenie się przez wzmacnianie na podstawie opinii użytkowników (RLHF)

#generatywna AI

#rl

Wykorzystanie opinii weryfikatorów w celu poprawy jakości odpowiedzi modelu. Na przykład mechanizm RLHF może poprosić użytkowników o ocenę jakości odpowiedzi modelu za pomocą emotikona 👍 lub 👎. Na podstawie tych informacji system może dostosować kolejne odpowiedzi.

ReLU

#fundamentals

Skrót od wyprostowanej jednostki liniowej.

bufor powtórki

#rl

W algorytmach podobnych do DQN pamięć używana przez agenta do przechowywania przejść stanów na potrzeby ponownego odtwarzania.

replika

Kopia zestawu do trenowania lub modelu, zwykle na innej maszynie. Na przykład system może zastosować tę strategię wdrażania równoległości danych:

Umieść repliki istniejącego modelu na wielu maszynach.
Wyślij różne podzbiory zbioru treningowego do każdej repliki.
Agreguj aktualizacje parametrów.

efekt raportowania

#fairness

Częstotliwość, z jaką użytkownicy piszą o działaniach, wynikach lub własności, nie jest odzwierciedleniem ich rzeczywistej częstotliwości ani stopni, w jakim dana właściwość jest charakterystyczna dla klasy jednostek. Tendencyjność raportowania może wpływać na strukturę danych wykorzystywanych przez systemy uczące się.

Na przykład w książkach słowo śmiech jest bardziej powszechne niż oddech. Model uczenia maszynowego, który szacuje względną częstotliwość śmiechu i oddychania z korpusu książki, prawdopodobnie określiłby, że śmiech jest częstszy niż oddychanie.

reprezentacja

Proces mapowania danych na przydatne obiekty.

ponowne rankingi

#recsystems

Ostatni etap systemu rekomendacji, w którym elementy z oceną mogą zostać ponownie ocenione zgodnie z innym algorytmem (zwykle nienależącym do systemów uczących się). W ramach ponownego pozycjonowania oceniana jest lista elementów wygenerowanych na etapie punktacji i podejmuje takie działania jak:

Usuwanie produktów, które użytkownik już kupił.
Poprawia wynik nowych produktów.

generowanie rozszerzone przez pobieranie (RAG)

#fundamentals

Technika poprawiania jakości danych wyjściowych dużego modelu językowego (LLM) przez umocowanie go z wykorzystaniem źródeł wiedzy pobranych po wytrenowaniu modelu. RAG zwiększa dokładność odpowiedzi LLM, zapewniając wytrenowanemu LLM dostęp do informacji pobranych z zaufanych baz wiedzy lub dokumentów.

Oto częste powody, dla których warto korzystać z generowania rozszerzonego przez wyszukiwanie:

Zwiększenie dokładności faktów wygenerowanych przez model.
Zapewnienie modelowi dostępu do wiedzy, na której nie został trenowany.
Zmiana wiedzy wykorzystywanej przez model.
Umożliwienie modelowi cytowania źródeł.

Załóżmy na przykład, że aplikacja chemiczna używa interfejsu PaLM API do generowania podsumowań zapytań użytkowników. Gdy backend aplikacji odbiera zapytanie, system:

Wyszukuje dane („pobiera”) dane związane z zapytaniem użytkownika.
Dołącza („rozszerza”) odpowiednie dane chemiczne do zapytania użytkownika.
Instruuje model LLM do utworzenia podsumowania na podstawie dołączonych danych.

return

#rl

W ramach uczenia przez wzmacnianie, biorąc pod uwagę pewną zasadę i konkretny stan, zwrot to suma wszystkich nagród, które agent ma otrzymać po przestrzeganiu zasad od stanu do końca odcinka. Przedstawiciel uznał za opóźniony charakter oczekiwanych nagród, obniżając nagrody zgodnie ze zmianami w stanach wymaganych do ich otrzymania.

Dlatego, jeśli współczynnik rabatu wynosi $\gamma$i $r_0, \ldots, r_{N}$określa nagrody do końca odcinka, zwrot jest obliczany w ten sposób:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

kupon promocyjny

#rl

W przypadku uczenia przez wzmacnianie jest to liczbowy wynik wykonania działania w stanie zdefiniowanym przez środowisko.

regularyzacja kalenicy

Synonim L₂ regularyzacji. W kontekście czystych statystyk „regularizacja grzbietu” używa się częściej określenia L₂ regularyzacja.

NN

#seq

Skrót oznaczający powracające sieci neuronowe.

Krzywa charakterystyki operacyjnej odbiornika

#fundamentals

Wykres współczynnika wyników prawdziwie pozytywnych w porównaniu z odsetkiem wyników fałszywie dodatnich dla różnych progów klasyfikacji w klasyfikacji binarnej.

Kształt krzywej ROC sugeruje zdolność modelu klasyfikacji binarnej do oddzielania klas pozytywnych od ujemnych. Załóżmy na przykład, że model klasyfikacji binarnej idealnie oddziela wszystkie klasy negatywne od wszystkich klas pozytywnych:

Linia liczbowa z 8 przykładami dodatnimi po prawej stronie i 7 przykładami negatywnymi po lewej.

Krzywa charakterystyki ROC poprzedniego modelu wygląda tak:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X to współczynnik fałszywie pozytywnych, a oś Y współczynnik prawdziwie pozytywnych. Krzywa ma odwrócony kształt L. Krzywa zaczyna się od punktu (0,0,0,0) i idzie prosto do (0,0,1,0). Następnie krzywa zmienia się z (0,0,1,0) do (1,0,1,0).

Na ilustracji poniżej przedstawiono nieprzetworzone wartości regresji logistycznej w przypadku strasznego modelu, którego w ogóle nie można oddzielić klas negatywnych od klas pozytywnych:

Wiersz liczbowy z przykładami dodatnimi i klasami negatywnymi całkowicie wymieszanymi.

Krzywa charakterystyki ROC w tym modelu wygląda tak:

Krzywa ROC, która jest w rzeczywistości linią prostą od (0,0,0,0) do (1,0,1,0).

Tymczasem w świecie rzeczywistym większość modeli klasyfikacji binarnej w pewnym stopniu dzieli klasy pozytywne i negatywne, ale zwykle nie idealnie. Typowa krzywa ROC mieści się więc gdzieś między 2 skrajnymi wartościami:

Krzywa charakterystyki operacyjnej odbiornika (ROC). Oś X to współczynnik fałszywie pozytywnych, a oś Y współczynnik prawdziwie pozytywnych. Krzywa ROC przedstawia przybliżony łuk przechodzący przez punkty kompasu z zachodu na północ.

Punkt na krzywej ROC najbliższy (0,0,1,0) teoretycznie określa idealny próg klasyfikacji. Na wybór idealnego progu klasyfikacji wpływa jednak kilka innych rzeczywistych kwestii. Na przykład wyniki fałszywie negatywne powodują znacznie większy ból niż wyniki fałszywie pozytywne.

Dane liczbowe o nazwie AUC podsumowują krzywą ROC w formie pojedynczej wartości zmiennoprzecinkowej.

prośba o rolę

#language

#generatywna AI

Opcjonalna część promptu, która określa docelową grupę odbiorców odpowiedzi modelu generatywnej AI. Bez komunikatu o roli duży model językowy dostarcza odpowiedzi, która może, ale nie musi, być przydatna dla osoby, która zadaje pytania. Dzięki prośbą o określoną rolę duży model językowy może odpowiadać w sposób bardziej odpowiedni i przydatny dla określonej grupy odbiorców. Na przykład część promptów dotyczących roli w tych promptach jest pogrubiona:

Streść ten artykuł doktora ekonomii.
Opisz, jak działają pływy u 10-letniego dziecka.
Wyjaśnij kryzys finansowy w 2008 roku. Mów jak do małego dziecka lub golden retrievera.

poziom główny

#df

Początkowy węzeł (pierwszy warunek) w drzewie decyzyjnym. Zgodnie z konwencją diagramy umieszczają korzenie na górze drzewa decyzyjnego. Na przykład:

Drzewo decyzyjne z 2 warunkami i 3 liśćmi. Warunek początkowy (x > 2) to pierwiastek.

katalog główny

#TensorFlow

Wskazany przez Ciebie katalog do hostowania podkatalogów punktów kontrolnych TensorFlow i plików zdarzeń wielu modeli.

Średnia kwadratowa błędów (RMSE)

#fundamentals

Pierwiastek kwadratowy z średniego kwadratu błędu.

niewariancja obrotowa

#image

W przypadku zadania z klasyfikacją obrazów jest to zdolność algorytmu do skutecznej klasyfikacji obrazów, nawet jeśli zmienia się orientacja obrazu. Na przykład algorytm nadal potrafi wykryć rakietę tenisową niezależnie od tego, czy jest skierowana w górę, na bok czy w dół. Pamiętaj, że niewariancja rotacyjna nie zawsze jest możliwa. Na przykład odwrócona 9 nie powinna być sklasyfikowana jako 9.

Zobacz też informacje o niewariancji translacji i niezmienności rozmiaru.

R-kwadrat

Wskaźnik regresji wskazujący, jak duże zmienność etykiety wynika z pojedynczej cechy lub zbioru cech. R kwadrat to wartość z zakresu od 0 do 1, którą można zinterpretować w następujący sposób:

Wartość R kwadrat o wartości 0 oznacza, że żadna odmiana etykiety nie jest związana z zestawem cech.
Wartość R kwadrat o wartości 1 oznacza, że cała odmiana etykiety jest związana z zestawem cech.
Wartość R kwadrat z zakresu od 0 do 1 wskazuje, w jakim stopniu odmianę etykiety można przewidzieć na podstawie danej cechy lub zbioru cech. Na przykład kwadrat R kwadrat o wartości 0,10 oznacza, że 10 procent wariancji w etykiecie wynika z zestawu cech, kwadrat R kwadrat o wartości 0,20 oznacza, że 20 procent jest zbiorem cech i tak dalej.

Wartość R kwadrat jest kwadratem współczynnika korelacji Pearsona między wartościami prognozowanymi przez model a danymi podstawowymi.

S

efekt próbkowania

#fairness

Zobacz Błąd doboru.

próbkowanie z zastąpieniem

#df

Metoda wybierania elementów ze zbioru propozycji, w której ten sam element można wybrać wiele razy. Wyrażenie „z zastąpieniem” oznacza, że po każdym dokonaniu wyboru wybrany element wraca do puli elementów kandydatów. Metoda odwrotna, czyli próbkowanie bez zastąpienia, oznacza, że element kandydujący można wybrać tylko raz.

Weźmy na przykład taki zestaw owocowy:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Załóżmy, że system losowo wybiera fig jako pierwszy element. Jeśli używasz próbkowania z zastąpieniem, system wybiera drugi element z tego zbioru:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

Tak, to ten sam zestaw co wcześniej, więc system mógł ponownie wybrać fig.

Jeśli używasz próbkowania bez zastąpienia, po wybraniu próbki nie można wybrać jej ponownie. Jeśli na przykład system losowo wybierze fig jako pierwszą próbkę, nie będzie można wybrać parametru fig ponownie. Dlatego system wybiera drugą próbkę z takiego (zmniejszonego) zbioru:

fruit = {kiwi, apple, pear, cherry, lime, mango}

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Słowo zamiennik w próbkowaniu z zamiennikiem jest mylące dla wielu osób. W języku angielskim zamiennik oznacza „zastąpienie”. Jednak próbkowanie z zastąpieniem faktycznie używa francuskiej definicji zamiennika, co oznacza „odwracanie czegoś”.

Angielskie słowo replacement jest tłumaczone jako replacement (zastąpienie).

SavedModel

#TensorFlow

Zalecany format do zapisywania i przywracania modeli TensorFlow. SavedModel to neutralny dla języka format serializacji, który można odzyskać. Umożliwia on systemom i narzędziom wyższego poziomu tworzenie, wykorzystywanie i przekształcanie modeli TensorFlow.

Szczegółowe informacje znajdziesz w rozdziałie na temat zapisywania i przywracania w przewodniku po TensorFlow dla programistów.

Ekonomiczna

#TensorFlow

Obiekt TensorFlow odpowiada za zapisywanie punktów kontrolnych modelu.

wartość skalarna

Pojedyncza liczba lub pojedynczy ciąg znaków, które można przedstawić jako tensor dla wartości rank 0. Na przykład te wiersze kodu tworzą w TensorFlow po 1 wartości skalarnej:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

skalowanie

Każda przekształcenie lub technika matematyczna, które zmieniają zakres wartości etykiety lub cechy. Niektóre formy skalowania są bardzo przydatne przy przekształceniach takich jak normalizacja.

Typowe formy skalowania przydatne w uczeniu maszynowym to:

skalowaniem liniowym, które zwykle polega na zastosowaniu kombinacji odejmowania i dzielenia, aby zastąpić pierwotną wartość liczbą z zakresu od -1 do +1 lub z zakresu od 0 do 1.
przez skalowanie logarytmiczne, które zastępuje pierwotną wartość jej logarytmem.
Normalizacja wyniku Z, w której wartość pierwotna jest zastępowana wartością zmiennoprzecinkową, która reprezentuje liczbę odchyleń standardowych od średniej danej cechy.

scikit-learn

Popularna platforma open source dla systemów uczących się. Wejdź na scikit-learn.org.

ocena

#recsystems

Element systemu rekomendacji, który podaje wartość lub ranking każdego elementu utworzonego na etapie generowania kandydatów.

efekt wyboru

#fairness

Błędy w wnioskach wyciągniętych z próbkowanych danych wynikające z procesu selekcji, który generuje systematyczne różnice między próbkami zaobserwowanymi w danych i próbkami niezaobserwowanymi. Wyróżniamy te formy dyskryminacji doboru:

odchylenia zasięgu: populacja reprezentowana w zbiorze danych nie pasuje do populacji, na temat której model systemów uczących się przygotowuje prognozy.
Błąd próbkowania: dane z grupy docelowej nie są zbierane w sposób losowy.
Błąd związany z brakiem odpowiedzi (nazywany też stroną uczestnictwa): użytkownicy z określonych grup w innym przedziale czasu zrezygnowali z ankiet niż osoby z innych grup.

Załóżmy np., że tworzysz model systemów uczących się, który przewiduje, jak podoba się widzom film. Aby zebrać dane do trenowania, wysyłasz ankietę wszystkim osobom w pierwszym rzędzie w kinie, w którym wyświetlany jest film. Może się to wydawać rozsądnym sposobem gromadzenia zbioru danych, jednak ta forma zbierania danych może powodować te formy uprzedzeń doboru:

efekt odchylenia zasięgu: przez próbkowanie na podstawie populacji, która zdecydowała się obejrzeć film, prognozy modelu mogą nie uogólniać wyników wśród osób, które nie wyraziły jeszcze takiego zainteresowania filmem.
odchylenie próby: w przeciwieństwie do losowego próbkowania z zamierzonej populacji (wszystkich osób w filmie) wzięto pod uwagę tylko osoby z pierwszego rzędu. Możliwe, że osoby siedzące w pierwszym rzędzie były bardziej zainteresowane filmem niż osoby w pozostałych rzędach.
tendencyjność braku odpowiedzi: zazwyczaj osoby z mocnymi opiniami częściej biorą udział w ankietach opcjonalnych niż osoby z łagodnym opinią. Ankieta dotycząca filmu jest opcjonalna, więc jest większe prawdopodobieństwo, że odpowiedzi wygenerują dwumodalny rozkład niż w przypadku normalnego rozkładu (w kształcie dzwonka).

samoutrzymanie (zwana też warstwą samoobsługi)

#language

Warstwa sieci neuronowej, która przekształca sekwencję wektorów dystrybucyjnych (np. token) w inną sekwencję wektorów dystrybucyjnych. Każde osadzenie w sekwencji wyjściowej tworzy się przez integrowanie informacji z elementów sekwencji wejściowej z wykorzystaniem mechanizmu uważności.

Część ja samouwagi odnosi się do sekwencji obejmującej siebie, a nie do innego kontekstu. Samoobserwacja to jeden z głównych elementów składowych Transformerów. Wykorzystuje terminologię wyszukiwania słownika, taką jak „zapytanie”, „klucz” i „wartość”.

Warstwa samouważności zaczyna się od sekwencji reprezentujących dane wejściowe, po 1 na każde słowo. Reprezentację wejściową słowa można użyć do umieszczenia słowa. Na podstawie każdego słowa w sekwencji wejściowej sieć określa trafność słowa w odniesieniu do każdego elementu w całej sekwencji słów. Wyniki trafności określają, w jakim stopniu ostateczny wygląd słowa obejmuje reprezentację innych słów.

Weźmy na przykład to zdanie:

Zwierzę nie przeszło przez ulicę, ponieważ było zbyt zmęczone.

Na ilustracji poniżej (z filmu Transformer: A Novel Neural Network Architecture for Language Language Understanding) pokazujemy wzorzec skupienia uwagi na zaimku it, w którym każda linijka jest ciemna i wskazuje, w jakim stopniu każde słowo ma wkład w reprezentację:

To zdanie pojawia się dwukrotnie: Zwierzę nie przeszło przez ulicę, ponieważ było zbyt zmęczone. Linie łączą zaimek w jednym zdaniu z 5 tokenami (The, zwierzęta, street, it, it, it, a kropka) w drugim zdaniu. Granica między zaimkiem a słowem „zwierzę” jest najsilniejsza.

Warstwa samouważności wyróżnia słowa, które są związane z tym hasłem. W tym przypadku warstwa uwagi nauczyła się wyróżniać słowa, które ta może się odnosić, przypisując najwyższą wagę słowu zwierzę.

W przypadku sekwencji n tokenów samoobserwacja przekształca sekwencję wektorów dystrybucyjnych n oddzielnie razy, raz w każdej pozycji w sekwencji.

Przeczytaj też artykuły o uwag i wielkości uwagi.

nauka bez nadzoru

Rodzina technik przekształcania problemu z nienadzorowanymi systemami uczącymi się w problem z nadzorowanymi systemami uczącymi się przez utworzenie etykiet zastępczych na podstawie przykładów bez etykiet.

Niektóre modele oparte na Transformerze, takie jak BERT, korzystają z samonadzorowanego uczenia się.

Samodzielne szkolenie to uczenie się częściowo nadzorowane.

samoszkolenie

Wariant samodzielnego uczenia się, który jest szczególnie przydatny, gdy spełnione są wszystkie te warunki:

Stosunek przykładów bez etykiet do przykładów oznaczonych etykietami w zbiorze danych jest wysoki.
Jest to problem z klasyfikacją.

Samotrenowanie polega na powtarzaniu tych 2 kroków, aż model przestanie się poprawiać:

Użyj nadzorowanych systemów uczących się, aby wytrenować model na przykładowych przykładach oznaczonych etykietami.
Użyj modelu utworzonego w kroku 1, aby wygenerować prognozy (etykiety) dla przykładów bez etykiet, przenosząc te, w przypadku których występuje duża pewność, do oznaczonych etykietami przykładów z prognozowaną etykietą.

Zwróć uwagę, że każda iteracja kroku 2 dodaje więcej oznaczonych etykietami przykładów kroku 1.

uczenie częściowo nadzorowane

Wytrenowanie modelu na danych, gdy niektóre przykłady trenowania mają etykiety, a inne nie. Jedną z metod uczenia się częściowo nadzorowanego jest wnioskowanie etykiet dla przykładów bez etykiet, a następnie trenowanie na podstawie wywnioskowanych etykiet w celu utworzenia nowego modelu. Nauka częściowo nadzorowana może być przydatna, jeśli dostęp do etykiet jest kosztowny, ale jest wiele przykładów bez etykiet.

Trenowanie samodzielne to jedna z technik uczenia się częściowo nadzorowanego.

atrybut poufny

#fairness

To atrybut ludzki, który może być szczególnie ważny ze względów prawnych, etycznych, społecznych lub osobistych.

analiza nastawienia

#language

Stosowanie statystycznych lub algorytmów uczenia maszynowego do określania ogólnego nastawienia grupy (pozytywnej lub negatywnej) do usługi, produktu, organizacji lub tematu. Na przykład przy użyciu rozumienia języka naturalnego algorytm mógł przeprowadzić analizę nastawienia na temat tekstowych opinii z kursu uniwersyteckiego, aby określić stopień, w jakim uczniom się podobał lub nie podobał.

model sekwencji

#seq

Model, którego dane wejściowe są sekwencyjne. Na przykład dzięki przewidywaniu kolejnego obejrzanego filmu

zadanie sekwencyjne z sekwencją

#language

Zadanie, które przekształca sekwencję wejściową tokenów w sekwencję wyjściową tokenów. Na przykład 2 popularne rodzaje zadań sekwencyjnych to:

Tłumacze:
- Przykładowa sekwencja wejściowa: „Kocham Cię”.
- Przykładowa sekwencja wyjściowa: „Je t'aime”.
Odpowiadanie na pytania:
- Przykładowa sekwencja danych wejściowych: „Czy potrzebuję samochodu w Krakowie?”.
- Przykładowa sekwencja wyjścia: „Nie, zatrzymaj samochód w domu”.

porcja

Proces udostępniania wytrenowanego modelu do generowania prognoz za pomocą wnioskowania online lub wnioskowania offline.

kształt (tensor)

Liczba elementów w każdym wymiarze tendencji. Kształt jest przedstawiony jako lista liczb całkowitych. Na przykład ten dwuwymiarowy tensor ma kształt [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

TensorFlow do reprezentowania kolejności wymiarów używa formatu wiersz-główny (styl C), dlatego kształt w TensorFlow to [3,4], a nie [4,3]. Inaczej mówiąc, w dwuwymiarowym systemie TensorFlow Tensor kształt to [liczba wierszy i liczba kolumn].

fragment

#TensorFlow

#GoogleCloud

Logiczny podział zbioru treningowego lub modelu. Zwykle niektóre procesy tworzą fragmenty, dzieląc przykłady lub parametry na fragmenty o równym rozmiarze. Każdy fragment jest następnie przypisywany do innej maszyny.

Fragmentacja modelu nosi nazwę równoległości modelu, a dane do fragmentacji – równoległością danych.

zmniejszanie

#df

hiperparametr we wzmacnianiu gradientu, który steruje nadmiernym dopasowaniem; Zmniejszenie w przypadku wzmocnienia gradientu jest analogiczne do szybkości uczenia się w opadanie gradientowym. Zmniejszanie to wartość dziesiętna z zakresu od 0,0 do 1,0. Niższa wartość kurczenia zmniejsza dopasowanie ponad większe niż większa wartość kurczenia.

funkcja sigmoid

#fundamentals

Funkcja matematyczna, która „ściska” wartość wejściową do ograniczonego zakresu, zwykle od 0 do 1 lub od -1 do +1. Oznacza to, że do sigmoidy można przekazać dowolną liczbę (dwa, milion, minus miliardy itd.), a wynik pozostanie w ograniczonym zakresie. Schemat funkcji aktywacji sigmoidalnej wygląda tak:

Funkcja sigmoidalna ma wiele zastosowań w uczeniu maszynowym, m.in.:

Konwersja nieprzetworzonych danych wyjściowych modelu regresji logistycznej lub regresji wielomianowej na prawdopodobieństwo.
Pełni funkcję funkcji aktywacyjnej w niektórych sieciach neuronowych.

Kliknij ikonę, aby zobaczyć wyliczenie.

Funkcja sigmoidalna na podanej liczbie x ma taką formułę:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

W systemach uczących się x jest zwykle sumą ważoną.

miara podobieństwa

#clustering

W algorytmach grupowania wskaźnik używany do określania, czy 2 przykłady są podobne.

pojedynczy program / wiele danych (SPMD)

Technika równoległości, w której te same obliczenia są wykonywane równolegle na różnych danych wejściowych na różnych urządzeniach. Celem SPMD jest szybsze osiąganie wyników. To najpopularniejszy styl programowania równoległego.

niewariancja rozmiaru

#image

W przypadku zadania z klasyfikacją obrazów jest to zdolność algorytmu do skutecznej klasyfikowania obrazów nawet wtedy, gdy zmieni się rozmiar obrazu. Na przykład algorytm nadal potrafi zidentyfikować kota niezależnie od tego, czy zużywa 2 mln czy 200 tys. pikseli. Pamiętaj, że nawet najlepsze algorytmy klasyfikacji obrazów nadal mają praktyczne ograniczenia dotyczące niezmienności rozmiaru. Na przykład algorytm (lub człowiek) raczej nie sklasyfikuje obrazu kota zużywającego zaledwie 20 pikseli.

Przeczytaj też informacje o niewariancji translacyjnej i niewariancji rotacji.

szkicowanie

#clustering

W nienadzorowanych systemach uczących się jest to kategoria algorytmów, które przeprowadzają wstępną analizę podobieństw na przykładach. Algorytmy szkicowania korzystają z funkcji haszującej z uwzględnieniem lokalizacji do identyfikowania punktów, które prawdopodobnie są podobne, a następnie grupują je w zasobniki.

Szkicowanie zmniejsza ilość obliczeń wymaganych do przeprowadzania obliczeń podobieństw w dużych zbiorach danych. Zamiast obliczać podobieństwo dla każdej pary przykładów w zbiorze danych, obliczamy podobieństwo tylko dla każdej pary punktów w każdym zasobniku.

Pomiń gram

#language

n-gram, który może pominąć (lub „pominąć”) słowa w oryginalnym kontekście. Oznacza to, że n słów nie ze sobą wcześniej sąsiadujących. Mówiąc dokładniej, „k-skip-n-gram” to n-gram, w przypadku którego pominięto maksymalnie 100 słów.

Na przykład „szybko brązowy lis” ma takie 2 gramy:

„szybkość”
„szybki brązowy”
„brązowy lis”

„1 pomiń 2 gramy” to para słów z maksymalnie 1 słowem. Dlatego „szybki brązowy lis” ma takie 2 g/1 pomijania:

„brązowy”
„szybki lis”

Poza tym wszystkie 2 gramy również 1-pominięciem 2 gramów, ponieważ można pominąć mniej niż 1 słowo.

Fragmenty ze słowami pomiń ułatwiają zrozumienie kontekstu danego słowa. W tym przykładzie słowo „lis” było bezpośrednio powiązane ze słowem „szybkie” w zestawie 1 pomijanie 2 gramów, ale nie w zestawie 2 gramów.

Pomiń i gramy pomagają w trenowaniu modeli wstawienia słów.

funkcja softmax

#fundamentals

Funkcja, która określa prawdopodobieństwo dla każdej możliwej klasy w modelu klasyfikacji wieloklasowej. Suma prawdopodobieństw wynosi dokładnie 1,0. Na przykład w tabeli poniżej pokazujemy, jak funkcja softmax rozkłada różne prawdopodobieństwa:

Obraz jest...	Probability,
pies	0,85
Cat	0,13
koń	0,02

Jest on też nazywany pełnym softmax.

Przeciwieństwem jest próbkowanie kandydatów.

Kliknij ikonę, aby zobaczyć wyliczenie.

Równanie softmax wygląda tak:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

gdzie:

$\sigma_i$ to wektor wyjściowy. Każdy element wektora wyjściowego określa prawdopodobieństwo tego elementu. Suma wszystkich elementów w wektorze wyjściowym to 1,0. Wektor wyjściowy zawiera taką samą liczbę elementów jak wektor wejściowy – $z$.
$z$ to wektor wejściowy. Każdy element wektora wejściowego zawiera wartość zmiennoprzecinkową.
$K$ to liczba elementów w wektorze wejściowym (i wektorze wyjściowym).

Załóżmy na przykład, że wektor wejściowy to:

[1.2, 2.5, 1.8]

Dlatego funkcja softmax oblicza mianownik w następujący sposób:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Prawdopodobieństwo miękkiego maksimum każdego elementu jest więc następujące:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Zatem wektor wyjściowy jest więc taki:

$$\sigma = [0.154, 0.565, 0.281]$$

$\sigma$ – suma trzech elementów to 1,0. Uff...

łagodne dostrajanie promptów

#language

#generatywna AI

Technika dostrajania dużego modelu językowego do określonego zadania bez konieczności użycia zasobów dostrajania. Zamiast ponownie trenować wszystkie wagi w modelu, dostrajanie promptów automatycznie dostosowuje komunikat tak, aby osiągnąć ten sam cel.

Po otrzymaniu promptu tekstowego dostrajanie dostrajania promptów zwykle dodaje do promptu dodatkowe wektory dystrybucyjne tokenów i optymalizuje dane wejściowe za pomocą propagacji wstecznej.

„Twardy” prompt zawiera rzeczywiste tokeny, a nie wektory dystrybucyjne.

cecha rozproszona

#language

#fundamentals

Cecha, której wartości mają głównie zero lub są puste. Na przykład cecha zawierająca 1 wartość 1 i milion 0 wartości jest rozproszona. W przeciwieństwie do tego cechy gęste mają wartości, które przeważnie nie są zerowe lub są puste.

W systemach uczących się zaskakująca liczba funkcji to rzadkie funkcje. Cechy kategorialne są zwykle rozproszone. Na przykład z 300 możliwych gatunków drzew w lesie jeden przykład to klon. Albo spośród milionów możliwych filmów w bibliotece wideo jednym z nich może być samo „Casablanca”.

W modelu zazwyczaj prezentujesz rozproszone cechy za pomocą kodowania 1 gotowego. Jeśli jednorazowe kodowanie jest duże, możesz na nie umieścić warstwę umieszczania, aby zwiększyć wydajność.

reprezentacja rozproszona

#language

#fundamentals

Przechowywanie w obiekcie rozproszonym tylko pozycji elementów innych niż zero.

Załóżmy na przykład, że obiekt kategorialny o nazwie species identyfikuje 36 gatunków drzew w konkretnym lesie. Zakładamy też, że każdy przykład dotyczy tylko 1 gatunku.

Do reprezentowania gatunków drzew w każdym przykładzie możesz użyć wektora 1 gorąca. Wektor jeden gorący może zawierać pojedynczy 1 (reprezentujący w tym przykładzie konkretne gatunki drzewa) i 35 0 (aby reprezentować 35 gatunków drzew, których nie). Dlatego jedna gorąca reprezentacja właściwości maple może wyglądać tak:

Wektor, w którym pozycje od 0 do 23 zawiera wartość 0, pozycje 24 – wartość 1, a pozycje od 25 do 35 – wartość 0.

Z kolei rozproszona reprezentacja określa po prostu położenie konkretnego gatunku. Jeśli maple znajduje się na pozycji 24, rozproszona reprezentacja maple będzie po prostu taka:

Zwróć uwagę, że reprezentacja rozproszona jest znacznie mniejsza niż reprezentacja rozproszona.

Aby zobaczyć nieco bardziej złożony przykład, kliknij ikonę.

Załóżmy, że każdy przykład w modelu musi reprezentować słowa, ale nie ich kolejność, w zdaniu w języku angielskim. Język angielski składa się z około 170 tys. słów, więc angielski jest cechą kategoryczną, która ma około 170 tys. elementów. W większości zdań w języku angielskim występuje bardzo mały ułamek ze 170 tys. słów, więc zestaw słów w jednym przykładzie będzie niemal na pewno niewielkim ilością danych.

Zastanów się nad następującym zdaniem:

My dog is a great dog

Do odzwierciedlenia słów w tym zdaniu można użyć wariantu wektora 1 gorąca. W tym wektorze wiele komórek w wektorze może zawierać wartość inną niż zero. Dodatkowo w tym wariancie komórka może zawierać liczbę całkowitą inną niż 1. Mimo że słowa „mój”, „to”, „a” i „świetny” występują w zdaniu tylko raz, słowo „pies” występuje dwukrotnie. Użycie tego wariantu jednego gorącego wektora do reprezentowania słów w tym zdaniu daje następujący wektor 170 tys. elementów:

Rzadkie przedstawienie tego samego zdania wyglądałoby po prostu tak:

Jeśli nie wiesz, co zrobić, kliknij ikonę.

Pojęcie „rozproszona reprezentacja” jest mylące dla wielu osób, ponieważ „rozproszona reprezentacja” sama w sobie nie jest rozproszonym wektorem. Jest to raczej gęsta reprezentacja rozproszonego wektora. Reprezentacja indeksu synonimów jest nieco bardziej zrozumiała niż „reprezentacja rozproszona”.

wektor rozproszony

#fundamentals

Wektor, którego wartości to głównie zera. Zapoznaj się też z artykułami o rzadkich cechach i różnorodności.

rozproszenie

Liczba elementów w wektorze lub macierzy podzielona przez łączną liczbę wpisów w tym wektorze lub macierzy. Załóżmy na przykład, że mamy macierz 100-elementową, w której 98 komórek zawiera zero. Sposób obliczania różnorodności wygląda tak:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

Rozbieżność cech oznacza rozproszenie wektora cech, a rozproszenie modelu oznacza rozproszenie wag modelu.

agregacja przestrzenna

#image

Zobacz pooling.

podział : fragment

#df

W drzewie decyzji jest to inna nazwa warunku.

rozdzielacz

#df

Podczas trenowania drzewa decyzyjnego rutyna (i algorytm) odpowiada za znalezienie najlepszego warunku w każdym węźle.

protokół SPMD

Skrót od wyrażenia jeden program / wiele danych.

kwadratowa utrata zawiasu

Kwadrat utraty zawiasu. Kwadratowy brak zawiasu grożą wyższe wartości odstające niż zwykłe.

strata do kwadratu

#fundamentals

Synonim L₂ straty.

trening etapowy

#language

Taktyka trenowania modelu w sekwencji odrębnych etapów. Celem może być przyspieszenie procesu trenowania lub uzyskanie lepszej jakości modelu.

Oto ilustracja metody progresywnego nakładania:

Etap 1 zawiera 3 ukryte warstwy, etap 2 – 6 – a etap 3 – 12 takich warstw.
Etap 2 rozpoczyna trening z ciężarami nauczonymi w 3 ukrytych warstwach Etapu 1. Etap 3 zaczyna trenowanie z ciężarami nauczonymi w 6 ukrytych warstwach etapu 2.

Trzy etapy oznaczone jako „Etap 1”, „2” i „3”.
Każdy etap ma inną liczbę warstw: etap 1 ma 3 warstwy, etap 2 – 6, a etap 3 – 12.
Trzy warstwy z etapu 1 stają się pierwszymi 3 warstwami etapu 2.
Podobnie 6 warstw ze etapu 2 staje się 6 pierwszymi warstwami etapu 3.

Zobacz też tworzenie potoków.

state

#fundamentals

Algorytm zjawiska gradientu, w którym jest jednym z rozmiaru wsadu. Oznacza to, że SGD trenuje na pojedynczym przykładzie wybranym losowo i losowo z zestawu treningowego.

stride

#image

W operacji splotowej lub w ramach puli delta w każdym wymiarze następnej serii wycinków danych wejściowych. Na przykład ta animacja przedstawia krok (1,1) podczas operacji splotowej. W związku z tym następny wycinek danych wejściowych zaczyna się o jedną pozycję po prawej stronie poprzedniego wycinka danych wejściowych. Gdy operacja dochodzi do prawej krawędzi, następny wycinek jest w całości w lewo, ale o jedną pozycję w dół.

Poprzedni przykład przedstawia dwuwymiarowy krok. Jeśli macierz wejściowa jest trójwymiarowa, krok byłby też trójwymiarowy.

minimalizacja ryzyka strukturalnego (SRM)

Algorytm, który łączy 2 cele:

Potrzeba zbudowania modelu najbardziej prognozującego (np. z najniższą stratą).
Konieczność zachowania jak najprostszych modeli (np. silnej regularności).

Na przykład funkcja, która minimalizuje stratę i regularność w zbiorze treningowym, jest algorytmem strukturalnym minimalizacji ryzyka.

Przeciwieństwem jest empiryczna minimalizacja ryzyka.

podpróbkowanie

#image

Zobacz pooling.

token podsłowia

#language

W modelach językowych token będący podłańcuchem słowa, którym może być całe słowo.

Na przykład słowo „itemize” można podzielić na części „item” (słowo kluczowe) i „ize” (sufiks), z których każdy jest reprezentowany przez własny token. Podzielenie nietypowych słów na takie, nazywane podsłowami, umożliwia modelom językowym operowanie na bardziej powszechnych częściach słowa, takich jak prefiksy i sufiksy.

Z drugiej strony popularne słowa takie jak „idź” mogą nie być rozdzielone i są reprezentowane przez jeden token.

podsumowanie

#TensorFlow

W TensorFlow wartość lub zbiór wartości obliczonych w konkretnym kroku, zwykle używana do śledzenia wskaźników modelu podczas trenowania.

nadzorowane systemy uczące się

#fundamentals

Wytrenowanie model na podstawie model i odpowiadających im model. Nadzorowane systemy uczące się przypominają uczenie się danego tematu przez badanie zestawu pytań i odpowiadających im odpowiedzi. Po opanowaniu mapowania między pytaniami i odpowiedziami uczeń może odpowiadać na nowe (nigdy wcześniej niewidziane) pytania na ten sam temat.

Porównaj dane z nienadzorowanymi systemami uczącymi się.

funkcja syntetyczna

#fundamentals

Cechę, której nie ma wśród cech wejściowych, ale została utworzona na podstawie co najmniej 1 z nich. Oto metody tworzenia cech syntetycznych:

Grupowanie obiektu ciągłego do przedziałów zakresu.
Utworzenie różnych cech.
Mnożenie (lub dzielenie) jednej wartości cechy przez inne wartości cech lub przez samą wartość. Jeśli na przykład a i b są cechami wejściowymi, to przykłady funkcji syntetycznych:
- ab
- a²
Stosowanie funkcji transcendentalnej do wartości cechy. Jeśli na przykład c jest cechą wejściową, to przykłady cech syntetycznych:
- sin(c)
- ln(c)

Funkcje tworzone przez samo normalizację lub skalowanie nie są uznawane za funkcje syntetyczne.

T

T5

#language

Model nauczania przenoszenia tekstu na tekst wprowadzony przez AI od Google w 2020 roku. T5 to model kodera-dekodera oparty na architekturze Transformer wytrenowany na bardzo dużym zbiorze danych. Dobrze sprawdza się w różnych zadaniach związanych z przetwarzaniem języka naturalnego, takich jak generowanie tekstu, tłumaczenie języków czy odpowiadanie na pytania w sposób konwersacyjny.

Nazwa T5 pochodzi od liter T w funkcji „Transformer przesyłania tekstu na tekst”.

T5X

#language

Platforma open source służąca do uczenia maszynowego do tworzenia i trenowania dużych modeli przetwarzania języka naturalnego (NLP). T5 jest zaimplementowany w bazie kodu T5X (utworzonej w JAX i Flax).

tabelaryczny Q-learning

#rl

W ramach uczenia przez wzmacnianie warto wdrożyć naukę Q z użyciem tabeli do przechowywania funkcji Q dla każdej kombinacji stanu i działania.

cel

Synonim terminu label.

sieć docelowa

#rl

W Deep Q-learning sieć neuronowa stanowiąca stabilne przybliżenie głównej sieci neuronowej, w której główna sieć neuronowa wdraża funkcję Q lub zasadę. Następnie możesz wytrenować główną sieć, używając wartości Q przewidzianych przez sieć docelową. Zapobiega to pętli informacji zwrotnych, która ma miejsce, gdy główna sieć trenuje na prognozowanych wartościach Q. Dzięki unikaniu tych informacji stabilność trenowania zwiększa się.

działanie

Problem, który można rozwiązać za pomocą technik uczenia maszynowego, takich jak:

temperatura

#language

#image

#generatywna AI

hiperparametr, który kontroluje stopień losowości wyników modelu. Im wyższa temperatura, tym bardziej losowe wyniki, a niższe.

Wybór najlepszej temperatury zależy od konkretnej aplikacji i preferowanych właściwości danych wyjściowych modelu. Temperaturę można na przykład podnieść podczas tworzenia aplikacji, która generuje kreatywne wyniki. I odwrotnie, prawdopodobnie obniżysz temperaturę podczas tworzenia modelu, który klasyfikuje obrazy lub tekst, aby zwiększyć jego dokładność i spójność.

#TensorFlow

Łączna liczba skalarów zawartych w usłudze Tensor. Na przykład Tensor[5, 10] ma rozmiar 50.

TensorStore

Biblioteka do wydajnego odczytywania i zapisywania dużych, wielowymiarowych tablic.

warunek zakończenia

#rl

We uczeniu przez wzmacnianie warunki, które określają, kiedy kończy się odcinek, na przykład kiedy agent osiągnie określony stan lub przekroczy liczbę progową przejść. Na przykład w systemie kółko i krzyżyk odcinek kończy się, gdy gracz oznaczy 3 kolejne spacje lub wszystkie spacje.

test

#df

W drzewie decyzji jest to inna nazwa warunku.

strata testowa

#fundamentals

Dane reprezentujące stratę modelu w porównaniu z zbiorem testowym. Podczas tworzenia model zazwyczaj starasz się zminimalizować stratę testów. Dzieje się tak, ponieważ niska utrata wartości testu jest silniejszym sygnałem jakości niż niska utrata trenowania lub mała utrata weryfikacji.

Duża luka między utratą testów a utratą trenowania lub utratą walidacji sugeruje, że trzeba zwiększyć współczynnik regularyzacji.

zbiór testowy

Podzbiór zbioru danych zarezerwowany do testowania wytrenowanego modelu.

Zazwyczaj dzielisz przykłady w zbiorze danych na 3 różne podzbiory:

Każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć jednocześnie do zbioru treningowego i testowego.

Zarówno zbiór treningowy, jak i zestaw do weryfikacji są ściśle powiązane z trenowaniem modelu. Zbiór testowy jest tylko pośrednio powiązany z trenowaniem, dlatego strata testu jest wskaźnikiem mniej tendencyjnym i wyższej jakości niż utraty trenowania czy utraty wynikającej z weryfikacji.

rozpiętość tekstu

#language

Zakres indeksu tablicy powiązany z określoną podsekcją ciągu tekstowego. Na przykład słowo good w ciągu znaków w języku Python s="Be good now" zajmuje rozpiętość tekstu od 3 do 6.

tf.Example

#TensorFlow

Standardowy bufor protokołu do opisywania danych wejściowych na potrzeby trenowania lub wnioskowania modeli systemów uczących się.

tf.keras

#TensorFlow

Implementacja technologii Keras zintegrowana z TensorFlow.

próg (dla drzew decyzyjnych)

#df

W warunku wyrównanym do osi jest to wartość, do której porównywana jest cecha. Na przykład 75 to wartość progowa w tym warunku:

grade >= 75

analiza ciągów czasowych

#clustering

Podobszar systemów uczących się i statystyk, który analizuje dane czasowe. Wiele rodzajów problemów z systemami uczącymi się wymaga analizy ciągów czasowych, w tym klasyfikacji, grupowania, prognozowania i wykrywania anomalii. Możesz np. użyć analizy ciągów czasowych, aby prognozować przyszłą sprzedaż płaszczy zimowych w poszczególnych miesiącach na podstawie historycznych danych dotyczących sprzedaży.

krok w czasie

#seq

1 „wycofana” komórka w powracającej sieci neuronowej. Na przykład na ilustracji poniżej widać 3 etapy czasowe (oznaczone indeksami dolnymi t-1, t i t+1):

3 etapy czasowe w powtarzającej się sieci neuronowej. Dane wyjściowe pierwszego kroku w czasie staną się danymi wejściowymi dla drugiego kroku. Dane wyjściowe drugiego kroku w czasie staną się danymi wejściowymi do trzeciego kroku czasu.

token

#language

W modelu językowym jest to jednostka atomowa, na której model trenuje i na której model generuje prognozy. Oto zwykle jeden z tych tokenów:

np. wyrażenie „psy jak koty” składa się z 3 tokenów słów: „psy”, „podoba się” i „koty”.
znak – np. wyrażenie „ryba rowerowa” składa się z 9 tokenów. (Pamiętaj, że puste miejsce jest liczone jako jeden z tokenów).
podsłów, w których jedno słowo może być pojedynczym tokenem lub większą liczbą tokenów. Podsłowo składa się ze słowa głównego, prefiksu lub sufiksu. Na przykład model językowy, który używa podsłów jako tokenów, może traktować słowo „psy” jako 2 tokeny (słowo główne „pies” i sufiks liczby mnogiej „s”). Ten sam model językowy może zinterpretować pojedyncze słowo „wysoki” jako 2 podsłowa (słowo „wysoki” i przyrostek „er”).

#fundamentals

Proces określania idealnych parametrów (wag i odchyleń), które składa się z modelu. Podczas trenowania system odczytuje dane z przykładów i stopniowo dostosowuje parametry. W trenowaniu wykorzystuje się każdy przykład – od kilku do miliardów razy.

utrata treningu

#fundamentals

Dane reprezentujące stratę modelu podczas konkretnej iteracji trenowania. Załóżmy, że funkcja utraty to Średni kwadratowy błąd. Być może strata trenowania (średnia kwadratowa błędów) dla 10.iteracji wynosi 2,2, a utrata trenowania dla 100.iteracji – 1,9.

Krzywa straty przedstawia liczbę utraconych metod trenowania i liczbę powtórzeń. Krzywa strat zawiera następujące wskazówki dotyczące trenowania:

Nachylenie w dół oznacza, że model się rozwija.
Stwierdzenie rosnące oznacza, że model się pogarsza.
Płaski nachylenie oznacza, że model osiągnął zgodność.

Na przykład taka krzywa straty w pewnym stopniu wyidealizowana:

Ostry spadek podczas początkowych iteracji, co oznacza szybką poprawę modelu.
Stopniowy spadek (ale nadal w dół) aż do końca trenowania, co oznacza ciągłe ulepszanie modelu w nieco wolniejszym tempie niż podczas początkowych iteracji.
Płaski spadek pod koniec trenowania, co sugeruje zbieżność.

Wykres strat trenowania i iteracji. Ta krzywa utraty zaczyna się od ostrego nachylenia w dół. Nachylenie stopniowo spłaszcza się, aż spadnie do zera.

Chociaż utrata trenowania jest ważna, zobacz też uogólnienie.

zniekształcenie między trenowaniem a zastosowaniem praktycznym

#fundamentals

Różnica między wydajnością modelu podczas trenowania a wydajnością tego samego modelu podczas wyświetlania.

zbiór treningowy

#fundamentals

Podzbiór zbioru danych używany do trenowania modelu.

Tradycyjnie przykłady w zbiorze danych dzielą się na 3 różne podzbiory:

W idealnej sytuacji każdy przykład w zbiorze danych powinien należeć tylko do jednego z poprzednich podzbiorów. Na przykład pojedynczy przykład nie powinien należeć zarówno do zbioru treningowego, jak i do walidacji.

trajektoria

#rl

We uczeniu przez wzmacnianie jest to sekwencja krotek reprezentujących sekwencję przejść stanu agenta, gdzie każda krotka odpowiada stanowi, działanie, nagrodzie i następnemu stanowi przy określonej zmianie stanu.

nauczanie na przemian

Przenoszenie informacji z jednego zadania systemów uczących się do innego. Na przykład w przypadku uczenia wielozadaniowego jeden model rozwiązuje wiele zadań, jak np. model szczegółowy, który ma różne węzły wyjściowe dla różnych zadań. Przeniesienie uczenia się może obejmować przeniesienie wiedzy z wykonania prostszego zadania do bardziej złożonego lub przeniesienie wiedzy z zadania, w którym jest więcej danych, do zadania, w którym jest ich mniej.

Większość systemów uczących się rozwiązuje jedno zadanie. Przeniesienie uczenia się to mały krok w kierunku sztucznej inteligencji, w którym jeden program może rozwiązać wiele zadań.

Transformator

#language

Opracowana przez Google architektura sieci neuronowej, która opiera się na mechanizmach własnej uwagi, aby przekształcić sekwencję wektorów dystrybucyjnych danych wejściowych w sekwencję osadzonych danych wyjściowych bez korzystania z splotów ani powracających sieci neuronowych. Transformer można postrzegać jako stos warstw samouważnych.

Transformer może zawierać te elementy:

koder
dekodera
zarówno koder, jak i dekoder

Koder przekształca sekwencję wektorów dystrybucyjnych w nową sekwencję o tej samej długości. Koder zawiera N identycznych warstw, z których każda zawiera dwie warstwy podrzędne. Te 2 warstwy podrzędne są stosowane na każdej pozycji sekwencji umieszczania danych wejściowych, przekształcając każdy element sekwencji w nowe umieszczanie. Pierwsza warstwa podrzędna kodera agreguje informacje z całej sekwencji wejściowej. Druga warstwa podrzędna kodera przekształca zagregowane informacje w osadzanie wyjściowe.

Dekoder przekształca sekwencję wektorów dystrybucyjnych danych wejściowych w sekwencję wektorów dystrybucyjnych, które mogą mieć inną długość. Dekoder zawiera też N identycznych warstw z trzema warstwami podrzędnymi, z których dwie są podobne do warstw podrzędnych kodera. Trzecia podwarstwa dekodera pobiera dane wyjściowe z kodera i stosuje mechanizm samodzielnej uwagi, aby je gromadzić.

Dobre wprowadzenie do transformerów zawiera post na blogu Transformer: A Novel Neural Network Architecture for LanguageUnderstanding.

niewariancja translacyjna

#image

W przypadku zadania z klasyfikacją obrazów jest to zdolność algorytmu do skutecznej klasyfikacji obrazów, nawet jeśli zmienia się położenie obiektów na obrazie. Na przykład algorytm nadal potrafi zidentyfikować psa niezależnie od tego, czy znajduje się on w środkowej części kadru, czy na jego lewym końcu.

Przeczytaj też informacje o niewariancji rozmiaru i niewariancji rotacji.

trygram

#seq

#fundamentals

Utworzenie model o niskiej zdolności prognozowania, ponieważ nie w pełni uchwycił złożoność danych treningowych. Niedopasowanie może powodować wiele problemów, w tym:

Trenowanie z zakresu niewłaściwego zestawu funkcji.
Trenowanie za mało epok lub zbyt niskie tempo uczenia się.
Trenowanie ze zbyt wysokim współczynnikiem regularyzacji.
Umieszczanie zbyt małej liczby ukrytych warstw w głębokiej sieci neuronowej.

niedopróbkowanie

Usunięcie przykładów z klasy większości w zbiorze danych o nierównowadze między klasą, aby utworzyć bardziej zrównoważony zbiór treningowy.

Weźmy za przykład zbiór danych, w którym stosunek klasy większości do klasy mniejszości wynosi 20:1. Aby przezwyciężyć brak równowagi klas, możesz utworzyć zbiór treningowy zawierający wszystkie przykłady klas mniejszościowych, ale tylko dziesiątą większości przykładów klas. W ten sposób powstanie współczynnik klas zbioru treningowego 2:1. Z powodu zbyt małej liczby próbek ten bardziej zrównoważony zbiór treningowy może wygenerować lepszy model. Ten bardziej zrównoważony zbiór treningowy może też zawierać niewystarczającą liczbę przykładów do wytrenowania skutecznego modelu.

Kontrast z nadmiernym próbkowaniem.

jednokierunkowa

#language

System oceniający tylko tekst, który postępuje przed docelowym fragmentem tekstu. Z kolei system dwukierunkowy ocenia zarówno tekst, który wyprzedza, jak i następuje po docelowej sekcji tekstu. Więcej informacji znajdziesz w sekcji Dwukierunkowe.

jednokierunkowy model językowy

#language

Model językowy, który opiera swoje prawdopodobieństwo wyłącznie na podstawie tokenów pojawiających się przed, a nie po tokenach docelowych. Różnica z dwukierunkowym modelem językowym.

przykład bez etykiety

#fundamentals

Przykład, który zawiera funkcje, ale nie zawiera etykiety. Na przykład w tabeli poniżej znajdują się 3 przykłady modelu wyceny domu bez etykiety – każdy z 3 cechami, ale bez wartości domu:

Liczba sypialni	Liczba łazienek	Wiek domowy
3	2	15
2	1	72
4	2	34

W nadzorowanych systemach uczących się modele trenują na przykładach oznaczonych etykietami i generują prognozy na przykładach bez etykiet.

W uczeniu częściowo nadzorowanym i nienadzorowanym podczas trenowania używane są przykłady bez etykiet.

Porównaj przykład bez etykiety z przykładem z etykietą.

nienadzorowane systemy uczące się

#clustering

#fundamentals

Wytrenowanie model do znajdowania wzorców w zbiorze danych, zwykle w zbiorze danych bez etykiet.

Najczęstszym zastosowaniem nienadzorowanych systemów uczących się jest grupowanie danych w grupy podobnych przykładów. Na przykład nienadzorowany algorytm uczenia maszynowego może grupować utwory na podstawie różnych właściwości muzyki. Powstałe klastry mogą stać się danymi wejściowymi dla innych algorytmów systemów uczących się (na przykład dla usługi rekomendacji muzycznych). Grupowanie może pomóc, gdy brakuje przydatnych etykiet lub brakuje ich. Na przykład w dziedzinach takich jak przeciwdziałanie nadużyciom i oszustwom klastry mogą pomóc ludziom lepiej zrozumieć dane.

Przeciwieństwem są nadzorowane systemy uczące się.

Kliknij ikonę, aby wyświetlić dodatkowe notatki.

Innym przykładem nienadzorowanych systemów uczących się jest analiza głównych komponentów (PCA). Na przykład zastosowanie PCA do zbioru danych zawierającego miliony koszyków może ujawnić, że w koszykach zawierających cytryny często znajdują się też środki zobojętniające.

modelowanie wzrostu

Powszechnie stosowana w marketingu technika modelowania, która modeluje „przyczynowy efekt” („przyrostowy wpływ”) „terapii” na „osobę”. Poniżej przedstawiamy dwa przykłady:

Lekarze mogą korzystać z modelowania wzrostu, aby przewidywać spadek śmiertelności (skutek przyczynowy) w zabiegu medycznym (leczenia) w zależności od wieku i historii medycznej pacjenta (osoby).
Marketerzy mogą korzystać z modelowania wzrostu, aby przewidywać wzrost prawdopodobieństwa zakupu (efekt przypadkowy) z powodu reklamy (grupy eksperymentalnej) osoby (osoby fizycznej).

Modelowanie wzrostu różni się od klasyfikacji lub regresji tym, że w modelowaniu wzrostu zawsze brakuje niektórych etykiet (np. połowa etykiet w metodach binarnych). Na przykład pacjent może otrzymać leczenie lub nie. Oznacza to, że możemy obserwować tylko, czy pacjent wyzdrowieje, czy nie w tylko jednej z tych 2 sytuacji (ale nigdy w obu tych sytuacjach). Główną zaletą modelu wzrostu jest to, że może on generować prognozy dla nieobserwowanej sytuacji (kontrfaktycznej) i używać go do obliczania efektu przyczynowego.

zwiększanie wagi

Zastosowanie wagi do klasy downsampled jest równa czynnikowi, o którym próbkowanie polegało.

lista użytkowników

#recsystems

W systemach rekomendacji jest to wektor osadzający wygenerowany przez rozbudowę macierzy, który zawiera ukryte sygnały dotyczące preferencji użytkownika. Każdy wiersz tabeli użytkowników zawiera informacje o względnej sile różnych sygnałów ukrytych w przypadku pojedynczego użytkownika. Weźmy na przykład system rekomendacji filmów. W tym systemie utajone sygnały w tabeli użytkowników mogą reprezentować zainteresowania poszczególnych gatunków lub mogą być trudniejsze do zinterpretowania, ponieważ są to złożone interakcje obejmujące wiele czynników.

Macierz użytkowników zawiera po 1 kolumnie na każdą funkcję utajnioną i dla każdego użytkownika. Oznacza to, że tablica użytkowników zawiera taką samą liczbę wierszy jak matryca docelowa, która jest uwzględniana na czynniki pierwsze. Na przykład w systemie rekomendacji filmów dla 1 mln użytkowników tablica użytkowników będzie miała 1 000 000 wierszy.

V

weryfikacja

#fundamentals

Wstępna ocena jakości modelu. Weryfikacja sprawdza jakość prognoz modelu względem zestawu do walidacji.

Zestaw do weryfikacji różni się od zestawu do trenowania, dlatego weryfikacja pomaga zabezpieczyć się przed nadmiernym dopasowaniem.

Ocena modelu w odniesieniu do zestawu do walidacji to pierwsza runda testowania, a ocena modelu w odniesieniu do zestawu testowego jako druga runda testów.

utrata weryfikacji

#fundamentals

Dane reprezentujące utratę modelu w zbiorze do walidacji podczas konkretnej iteracji trenowania.

Zobacz też krzywą uogólnienia.

zestaw do weryfikacji

#fundamentals

Podzbiór zbioru danych, który przeprowadza wstępną ocenę względem wytrenowanego modelu. Zwykle, zanim ocenisz model w porównaniu z zbiorem testowym, kilka razy porównujesz wytrenowany model z zbiorem do weryfikacji.

Zazwyczaj dzielisz przykłady w zbiorze danych na 3 różne podzbiory:

przypisywanie wartości

Proces zastępowania brakującej wartości akceptowanym zamiennikiem. Jeśli brakuje wartości, możesz odrzucić cały przykład lub użyć funkcji przypisywania wartości, aby odzyskać przykład.

Weźmy na przykład zbiór danych zawierający funkcję temperature, która powinna być zapisywana co godzinę. Odczyt temperatury był jednak niedostępny dla konkretnej godziny. Oto sekcja zbioru danych:

Sygnatura czasowa	Temperatura
1680561000	10
1680564600	12
1680568200	brak
1680571800	20
1680575400	21
1680579000	21

System może usunąć brakujący przykład lub przypisać brakującą temperaturę jako 12, 16, 18 lub 20, w zależności od algorytmu przypisywania.

problem z znikającym gradientem

#seq

Tendencja gradientów wczesnych ukrytych warstw niektórych głębokich sieci neuronowych staje się zaskakująco płaska (niska). Coraz niższe gradienty powodują coraz mniejsze zmiany wag węzłów w głębokiej sieci neuronowej, co prowadzi do mniejszej ilości uczenia się lub jego braku. W przypadku modeli, w których występuje problem z zanikającym gradientem, trenowanie staje się trudne lub niemożliwe. Komórki Długa pamięć krótkoterminowa rozwiązują ten problem.

Porównaj problem z wybuchowym gradientem.

znaczenie zmiennej

#df

Zbiór wyników wskazujący względne znaczenie każdej cech w modelu.

Rozważmy np. drzewo decyzyjne, które prognozuje ceny nieruchomości. Załóżmy, że drzewo decyzyjne wykorzystuje 3 cechy: rozmiar, wiek i styl. Jeśli zbiór zmiennych istotności tych 3 cech ma wynosić {size=5.8, age=2.5, style=4.7}, to dla drzewa decyzyjnego rozmiar jest ważniejszy niż wiek czy styl.

Istnieją różne wskaźniki o zmiennej ważności, które mogą informować ekspertów ds. systemów uczących się o różnych aspektach modeli.

wariacyjny autokoder (VAE)

#language

Typ autokodera, który wykorzystuje różnice między danymi wejściowymi i wyjściowymi do wygenerowania zmodyfikowanych wersji danych wejściowych. W przypadku generatywnej AI przydają się warunkowe autokodery.

Wartości VAE opierają się na wnioskowaniu wariacyjnym, czyli metodzie szacowania parametrów modelu prawdopodobieństwa.

wektor

Bardzo przeciążony termin, którego znaczenie różni się w zależności od różnych dziedzin matematyki i nauki. W uczeniu maszynowym wektor ma 2 właściwości:

Typ danych: wektory w uczeniu maszynowym zwykle zawierają liczby zmiennoprzecinkowe.
Liczba elementów: długość wektora lub jego wymiar.

Rozważmy na przykład wektor cech zawierający 8 liczb zmiennoprzecinkowych. Ten wektor cech ma długość lub wymiar wynoszący osiem. Pamiętaj, że wektory systemów uczących się mają często bardzo dużo wymiarów.

W postaci wektora można przedstawić wiele różnych rodzajów informacji. Na przykład:

Dowolne położenie na powierzchni Ziemi można przedstawić jako wektor dwuwymiarowy, w którym jeden wymiar to szerokość, a drugi długość.
Bieżące ceny 500 akcji można przedstawić w postaci wektora 500-wymiarowego.
Rozkład prawdopodobieństwa na skończonej liczbie klas można przedstawić w postaci wektora. Na przykład system klasyfikacji wieloklasowej, który przewiduje jeden z 3 kolorów wyjściowych (czerwony, zielony lub żółty), może zwrócić wektor (0.3, 0.2, 0.5) o wartości P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

Wektory można łączyć, dlatego różne media mogą być przedstawione jako jeden wektor. Niektóre modele działają bezpośrednio na konkatenacji wielu jednorazowych kodowań.

Wyspecjalizowane procesory, takie jak TPU, są zoptymalizowane pod kątem wykonywania operacji matematycznych na wektorach.

Wektor jest tendencją rankingu 1.

Ś

Strata Wassersteina

Jedna z funkcji straty zwykle stosowanych w sieciach kontradyktoryjnych w sprawie generatywnej, obliczana na podstawie odległości przeprowadzek między dystrybucją danych wygenerowanych a rzeczywistych.

waga

#fundamentals

Wartość, którą model mnoży przez inną wartość. Trenowanie to proces wyznaczania idealnych wag modelu. Wnioskowanie to proces użycia tych nauczonych wag do tworzenia prognoz.

Kliknij ikonę, aby zobaczyć przykład wag w modelu liniowym.

Wyobraź sobie model liniowy z 2 obiektami. Załóżmy, że trenowanie określa te wagi (i uprzedzenia):

Wskaźnik odchylenia (b) ma wartość 2,2
Waga ₁ powiązana z jedną cechą wynosi 1, 5.
Waga w₂ powiązana z inną cechą wynosi 0, 4.

Przejdźmy teraz do przykładu z tymi wartościami cech:

Wartość jednej cechy, x₁, wynosi 6.
Wartość drugiej cechy, x₂, wynosi 10.

Ten model liniowy wykorzystuje tę formułę do wygenerowania prognozy y':

$$y' = b + w_1x_1 + w_2x_2$$

W związku z tym prognoza wygląda tak:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Jeśli waga wynosi 0, odpowiednia cecha nie ma udziału w modelu. Jeśli np. w₁ ma wartość 0, wartość x₁ jest nieistotna.

Naprzemienne najmniejsze kwadraty ważone (WALS)

#recsystems

Algorytm minimalizujący funkcję celu podczas rozkładania macierzy w systemach rekomendacji, co umożliwia zmniejszenie wagi brakujących przykładów. WALS minimalizuje ważony błąd kwadratowy między pierwotną macierzą a rekonstrukcją przez naprzemienne rozłożenie na czynniki podziału wiersza i rozłożenie kolumny na czynniki. Każdą z tych optymalizacji można rozwiązać, stosując optymalizację wypukłą metodą najmniejszych kwadratów. Szczegółowe informacje znajdziesz w kursie na temat systemów rekomendacji.

suma ważona

#fundamentals

Suma wszystkich odpowiednich wartości wejściowych pomnożona przez odpowiednie wagi. Załóżmy na przykład, że odpowiednie dane wejściowe składają się z tych elementów:

wartość wejściowa	waga wejściowa
2	–1,3
-1	0,6
3	0,4

Suma ważona wygląda więc tak:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suma ważona to argument wejściowy dla funkcji aktywacji.

model szeroki

Model liniowy, który zwykle ma wiele rozproszonych cech wejściowych. Określamy go jako „szeroki”, ponieważ jest to specjalny typ sieci neuronowej z dużą liczbą danych wejściowych, które łączą się bezpośrednio z węzłem wyjściowym. Szerokie modele są często łatwiejsze do debugowania i sprawdzenia niż modele precyzyjne. Chociaż szerokie modele nie mogą wyrażać nieliniowości za pomocą ukrytych warstw, szerokie modele mogą korzystać z przekształceń takich jak przechodzenie cech i grupowania w celu modelowania nieliniowości na różne sposoby.

Porównaj z modelem szczegółowym.

szerokość

Liczba neuronów w konkretnej warstwie sieci neuronowej.

mądrość tłumu

#df

Sama koncepcja uśredniania opinii i szacunków dużej grupy ludzi („tłumu”) często przynosi zaskakująco dobre wyniki. Rozważmy na przykład grę, w której użytkownicy zgadują liczbę galaretek zapakowanych do dużego słoika. Chociaż większość indywidualnych przypuszczeń jest niedokładna, z badań empirycznych wynika, że średnia wszystkich przypuszczalnych faktów jest zaskakująco zbliżona do rzeczywistej liczby galaretek w słoiku.

Ensembles to programowy analog mądrości tłumu. Nawet jeśli poszczególne modele generują bardzo niedokładne prognozy, uśrednianie prognoz wielu modeli często generuje zaskakująco dobre prognozy. Na przykład chociaż indywidualne drzewo decyzyjne może generować słabe prognozy, las decyzji często generuje bardzo dobre prognozy.

umieszczanie słów

#language

Reprezentowanie każdego słowa w zestawie słów w wektorze umieszczania, czyli reprezentowanie każdego słowa jako wektora wartości zmiennoprzecinkowych z zakresu od 0,0 do 1,0. Wyrazy o podobnym znaczeniu są lepiej reprezentowane niż słowa o innym znaczeniu. Na przykład marchew, seler i ogórki mają względnie podobne atrybuty, które znacznie różnią się od słów samolot, okularów przeciwsłonecznych czy pasty do zębów.

X

XLA (Przyspieszona algebra liniowa)

Kompilator open source dla systemów uczących się do procesorów graficznych, procesorów i akceleratorów ML.

Kompilator XLA wykorzystuje modele z popularnych platform ML, takich jak PyTorch, TensorFlow i JAX, i optymalizuje je pod kątem wysokiej wydajności na różnych platformach sprzętowych, w tym akceleratorach ML.

Z

uczenie się „zero-shot”

Rodzaj trenowania systemów uczących się, w którym model formułuje prognozę dla zadania, na którym nie został jeszcze wytrenowany. Oznacza to, że model nie otrzymuje przykładów do trenowania konkretnych zadań, ale jest proszony o wnioskowanie na potrzeby tego zadania.

prompt typu zero-shot

#language

#generatywna AI

Prompt, który nie zawiera przykładu, w jaki sposób ma odpowiadać duży model językowy. Na przykład:

Elementy jednego promptu	Notatki
`Jaka jest oficjalna waluta w danym kraju?`	Pytanie, na które ma odpowiedzieć LLM.
`Indie:`	Faktyczne zapytanie.

Duży model językowy może reagować na jeden z tych warunków:

Rupia
INR
₹
Rupia indyjska
rupia
rupia indyjska

Wszystkie odpowiedzi są prawidłowe, ale preferowany jest konkretny format.

Porównaj zachowania typu zero-shot z tymi terminami:

Normalizacja wyniku Z

#fundamentals

Metoda skalowania, która zastępuje nieprzetworzoną wartość cech wartością zmiennoprzecinkową reprezentującą liczbę odchyleń standardowych od średniej tej cechy. Rozważmy na przykład cechę, której średnia wynosi 800, a odchylenie standardowe wynosi 100. W tabeli poniżej pokazujemy, jak normalizacja wyniku Z mapuje nieprzetworzoną wartość na swój wynik Z:

Wartość nieprzetworzona	Wynik Z
800	0
950	+1,5
575	–2,25

Model systemów uczących się będzie trenować na wynikach Z danej cechy, a nie na nieprzetworzonych wartościach.