דף זה תורגם על ידי Cloud Translation API.

מילון מונחים ללמידת מכונה

מילון המונחים הזה מגדיר מונחים כלליים של למידת מכונה וגם מונחים ספציפיים ל-TensorFlow.

A

אבלציה

שיטה להערכת החשיבות של תכונה או רכיב, על ידי הסרה שלו ממודל באופן זמני. לאחר מכן צריך לאמן מחדש את המודל בלי התכונה או הרכיב האלה, ואם הביצועים של המודל שעברו אימון מחדש גרועים משמעותית, סביר להניח שהתכונה או הרכיב שהוסרו היו חשובים.

לדוגמה, נניח שמאמנים מודל סיווג על 10 תכונות ומשיגים דיוק של 88% בקבוצת הבדיקה. כדי לבדוק את החשיבות של המאפיין הראשון, אפשר לאמן מחדש את המודל באמצעות תשע התכונות האחרות בלבד. אם המודל שעבר אימון מחדש מניב ביצועים פחות טובים באופן משמעותי (למשל, דיוק של 55%), כנראה שהתכונה שהוסרה הייתה חשובה. לעומת זאת, אם המודל שעבר אימון מחדש מניב ביצועים דומים, אז כנראה שלתכונה הזו לא הייתה חשיבות רבה.

Ablation יכול גם לעזור לקבוע את החשיבות של:

רכיבים גדולים יותר, כמו מערכת משנה שלמה של מערכת למידת מכונה גדולה
בתהליכים או בשיטות, כמו שלב של עיבוד מראש של נתונים

בשני המקרים, תוכלו לראות איך ביצועי המערכת משתנים (או לא משתנים) לאחר הסרת הרכיב.

בדיקת A/B

דרך סטטיסטית להשוות שתי שיטות (או יותר) – ה-A וה-B. בדרך כלל, A היא שיטה קיימת וה-B היא שיטה חדשה. בדיקת A/B לא רק קובעת איזו שיטה מניבה ביצועים טובים יותר, אלא גם אם ההבדל מובהק מבחינה סטטיסטית.

בבדיקות A/B בדרך כלל מתבצעת השוואה בין מדד יחיד בשתי שיטות. לדוגמה, מה ההבדל בין דיוק המודל בין שתי שיטות? עם זאת, בדיקת A/B יכולה גם להשוות כל מספר סופי של מדדים.

שבב מאיץ

#GoogleCloud

קטגוריה של רכיבי חומרה מיוחדים שמיועדים לבצע חישובי מפתח שנדרשים לאלגוריתמים של למידה עמוקה (Deep Learning).

צ'יפים של מאיץ (או בקיצור מאיצים) יכולים להגביר את המהירות והיעילות של משימות האימון וההסקה משמעותית בהשוואה למעבד לשימוש כללי. הם אידיאליים לאימון רשתות נוירונים ולמשימות חישוביות דומות.

דוגמאות לצ'יפים של מאיץ:

יחידות עיבוד Tensor של Google (TPU) עם חומרה ייעודית ללמידה עמוקה (Deep Learning).
יחידות ה-GPU של NVIDIA, למרות שהן תוכננו בהתחלה לעיבוד גרפי, הן נועדו לאפשר עיבוד מקביל, שעשוי להגביר את מהירות העיבוד באופן משמעותי.

דיוק

#fundamentals

מספר החיזויים של הסיווג הנכון, חלקי המספר הכולל של החיזויים. כלומר:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

לדוגמה, אם מודל מבצע 40 חיזויים נכונות ו-10 חיזויים שגויים, רמת הדיוק שלו תהיה:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

סיווג בינארי מספק שמות ספציפיים לקטגוריות השונות של חיזויים נכונים וחיזויים שגויים. לכן, נוסחת הדיוק לסיווג בינארי היא:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

איפה:

TP הוא המספר של התוצאות החיוביות הנכונות (חיזויים נכונים).
TN הוא המספר של מילות המפתח השליליות הנכונות (חיזויים נכונים).
FP הוא מספר התוצאות החיוביות השגויות (חיזויים שגויים).
FN הוא מספר התוצאות השליליות השגויות (חיזויים שגויים).

השוואה וניגוד בין הדיוק באמצעות דיוק ואחזור.

לוחצים על הסמל כדי להציג הערות נוספות.

למרות שמדובר במדד חשוב במצבים מסוימים, הדיוק מטעה מאוד במצבים אחרים. חשוב לציין שדיוק הוא בדרך כלל מדד לא טוב להערכה של מודלים לסיווג שמעבדים מערכי נתונים לא מאוזנים בדרגה.

לדוגמה, נניח ששלג יורד רק 25 ימים מאה בעיר סובטרופית מסוימת. מכיוון שבימים ללא שלג (המחלקה השלילית) מעט מאוד ימים עם שלג (הרמה החיובית), מערך הנתונים של השלג בעיר הזו לא מאוזן. נניח שיש מודל סיווג בינארי שאמור לחזות שלג או לא שלג בכל יום, אבל רק חוזה "אין שלג" כל יום. המודל הזה מדויק מאוד אבל אין לו כוח חיזוי. הטבלה הבאה מסכמת את התוצאות למשך מאה שנה של חיזויים:

קטגוריה	מספרים
TP	0
TN	36500
FP	25
FN	0

לכן, הדיוק של המודל הזה:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

על אף שדיוק של 99.93% נראה כאחוז מרשים מאוד, למודל אין בפועל יכולת חיזוי.

דיוק וזכירה הם בדרך כלל מדדים שימושיים יותר מדיוק לצורך הערכת מודלים שמאומנו על מערכי נתונים עם איזון בכיתה.

פעולה

#rl

בלמידת חיזוק, המנגנון שבאמצעותו הסוכן עובר בין מצבים של הסביבה. הנציג בוחר את הפעולה באמצעות מדיניות.

פונקציית הפעלה

#fundamentals

פונקציה שמאפשרת לרשתות נוירונים ללמוד על קשרים לא לינאריים (מורכבים) בין תכונות לבין התווית.

פונקציות הפעלה פופולריות כוללות:

התרשימים של פונקציות ההפעלה הם אף פעם לא קווים ישרים בודדים. לדוגמה, התרשים של פונקציית ההפעלה של ReLU מורכב משני קווים ישרים:

תרשים קרטזי בשני שורות. בשורה הראשונה יש ערך y קבוע של 0, והוא נמשך לאורך ציר ה-X בין 'אינסוף', '0' ל-'0 ו-0'.
השורה השנייה מתחילה ב-0.0. לקו הזה יש שיפוע של +1, כך
שהוא נעים בין 0,0 ל-+אינסוף,+אינסוף.

שרטוט של פונקציית ההפעלה sigmoid נראה כך:

תרשים מעוקל דו-ממדי עם ערכי x שחוצים את הדומיין
-אינסוף עד חיובי, בעוד שערכי ה-y מתפרשים על הטווח שבין 0 ל-1 כמעט. כש-x הוא 0, y הוא 0.5. שיפוע העקומה הוא תמיד
חיובי, כשהשיפוע הגבוה ביותר הוא 0,0.5 ויורד בהדרגה
ככל שהערך המוחלט של x גדל.

כדי לראות דוגמה, צריך ללחוץ על הסמל.

ברשת נוירונים, פונקציות הפעלה מבצעות מניפולציות על הסכום המשוקלל של כל הקלט לנוירון. כדי לחשב סכום משוקלל, מערכת הנוירונים מחברת את המכפלות של הערכים והמשקולות הרלוונטיים. לדוגמה, נניח שהקלט הרלוונטי לנוירון מורכב מהפרטים הבאים:

ערך הקלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

נניח שהמעצב של רשת הנוירונים הזו בוחר את פונקציה sigmoid כפונקציית ההפעלה. במקרה הזה, הנוירון מחשב את הסיגמואיד -2.0, שהוא בערך 0.12. לכן, הנוירון מעביר 0.12 (במקום -2.0) לשכבה הבאה ברשת הנוירונים. האיור הבא ממחיש את החלק הרלוונטי בתהליך:

למידה פעילה

גישת אימון שבה האלגוריתם בוחר חלק מהנתונים שהוא לומד מהם. למידה פעילה חשובה במיוחד כשמשיגים דוגמאות מתויגות מועטות או יקרות. במקום לחפש בצורה עיוורת מגוון רחב של דוגמאות מתויגות, אלגוריתם של למידה פעילה מחפש באופן סלקטיבי את מגוון הדוגמאות שהוא צריך לצורך למידה.

AdaGrad

אלגוריתם מתוחכם של ירידה הדרגתית, שמשנה את ההדרגתיות של כל פרמטר, ומספק באופן יעיל לכל פרמטר קצב למידה בלתי תלוי. להסבר מלא, ראו מאמר זה של AdaGrad.

נציג

#rl

בלמידת חיזוק, הישות שמשתמשת במדיניות כדי למקסם את התשואה הצפויה מהמעבר בין מדינות בסביבה.

באופן כללי, סוכן הוא תוכנה שמתכננת לבצע סדרה של פעולות באופן עצמאי להשגת יעד מסוים, עם יכולת להסתגל לשינויים בסביבה. לדוגמה, סוכנים מבוססי LLM עשויים להשתמש ב-LLM כדי ליצור תוכנית, במקום להחיל מדיניות של חיזוק הלמידה.

גיבוש דפי אינטרנט לאשכולות

#clustering

ניתן לעיין באשכולות היררכיים.

זיהוי אנומליות

תהליך הזיהוי של חריגים חשודי טעות. לדוגמה, אם הממוצע של מאפיין מסוים הוא 100 עם סטיית תקן של 10, זיהוי האנומליות צריך לסמן את הערך 200 כחשוד.

AR

קיצור של Augmented Reality (מציאות רבודה).

שטח מתחת לעקומת ה-PR

ראו PR AUC (אזור מתחת לעקומת PR).

שטח מתחת לעקומת ה-ROC

למידע נוסף, אפשר לעיין בקטע AUC (אזור מתחת לעקומת ROC).

לגבי בינה מלאכותית,

מנגנון לא אנושי שמדגים מגוון רחב של פתרון בעיות, יצירתיות והסתגלות. לדוגמה, תוכנית שמדגימה בינה כללית מלאכותית יכולה לתרגם טקסט, לחבר סימפוניות וגם להצטיין במשחקים שעדיין לא הומצאו.

לגבי בינה מלאכותית,

#fundamentals

תוכנה לא אנושית או model שיכולים לפתור משימות מתוחכמות. לדוגמה, תוכנית או מודל שמתרגמים טקסט, או תוכנית או מודל שמזהים מחלות בתמונות רדיולוגיות, גם הם וגם מציגים בינה מלאכותית.

באופן רשמי, למידת מכונה היא תת-תחום של בינה מלאכותית. עם זאת, בשנים האחרונות, ארגונים מסוימים התחילו להשתמש במונחים בינה מלאכותית ולמידת מכונה במקביל.

תשומת הלב,

#language

מנגנון שנמצא בשימוש ברשת נוירונים שמציין את החשיבות של מילה מסוימת או של חלק מסוים ממילה. תשומת הלב דוחסת את כמות המידע שדרושה למודל כדי לחזות את האסימון/המילה הבאה. מנגנון תשומת לב אופייני יכול לכלול סכום משוקלל בקבוצת קלט, כאשר המשקל של כל קלט מחושב על ידי חלק אחר ברשת הנוירונים.

כדאי לקרוא גם את המונחים קשב עצמי וקשב עצמי עם מספר ראשים, שהם אבני הבניין של טרנספורמרים.

שיוך

#fairness

מילה נרדפת לפיצ'ר.

בהוגנות במסגרת למידת מכונה, מאפיינים מתייחסים לעיתים קרובות למאפיינים שקשורים לאנשים פרטיים.

דגימת מאפיינים

#df

טקטיקה לאימון יער החלטות שבו כל עץ החלטות לוקח בחשבון רק קבוצת משנה אקראית של תכונות אפשריות בזמן הלמידה של תנאי. באופן כללי, נדגמת קבוצת משנה שונה של תכונות לכל צומת. לעומת זאת, כשאימון עץ החלטות בלי דגימת מאפיינים, כל התכונות האפשריות מביאות בחשבון כל צומת.

AUC (אזור מתחת לעקומת ROC)

#fundamentals

מספר בין 0.0 ל-1.0 שמייצג את יכולת המודל סיווג בינארי להפריד סיווגים חיוביים ממחלקות שליליות. ככל שה-AUC קרוב יותר ל-1.0, כך היכולת של המודל להפריד בין כיתות טובה יותר.

לדוגמה, האיור הבא מציג מודל מסַווג שמפריד בצורה מושלמת בין סיווגים חיוביים (אליפסות ירוקות) למחלקות שליליות (מלבנים סגולים). למודל הזה, שבאופן לא מציאותי, יש AUC של 1.0:

ציר מספרים עם 8 דוגמאות חיוביות בצד אחד ו-9 דוגמאות שליליות בצד השני.

לעומת זאת, באיור הבא מוצגות התוצאות של מודל סיווג שהניב תוצאות אקראיות. מודל AUC של מודל זה הוא 0.5:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי.

כן, מספר AUC של המודל הקודם הוא 0.5 ולא 0.0.

רוב המודלים נמצאים במקום כלשהו בין שתי הקיצוניות האלה. למשל, המודל הבא מפריד במידה מסוימת בין חיוביים שליליים, ולכן יש לו AUC בין 0.5 ל-1.0:

ציר מספרים עם 6 דוגמאות חיוביות ו-6 דוגמאות שליליות.
רצף הדוגמאות הוא שלילי, שלילי, שלילי, שלילי, חיובי, שלילי, חיובי, חיובי, שלילי, חיובי, חיובי, חיובי.

AUC מתעלם מכל ערך שהגדרתם לסף סיווג. במקום זאת, מערכת AUC מביאה בחשבון את כל ערכי הסף האפשריים לסיווג.

ניתן ללחוץ על הסמל כדי לקבל מידע על הקשר בין עקומות AUC ו-ROC.

AUC מייצג את האזור מתחת לעקומת ROC. לדוגמה, עקומת ה-ROC של מודל שמפריד באופן מושלם בין תוצאות חיוביות לבין ערכים שליליים נראית כך:

AUC הוא האזור של האזור האפור באיור הקודם. במקרה החריג הזה, האזור הוא פשוט אורך האזור האפור (1.0) כפול הרוחב של האזור האפור (1.0). לכן, המכפלה של 1.0 ו-1.0 הניב ערך AUC של בדיוק 1.0, שהוא ציון AUC הגבוה ביותר האפשרי.

לעומת זאת, כך נראה עקומת ה-ROC עבור מסַווג שלא יכול להפריד בין סיווגים בכלל. השטח של האזור האפור הזה הוא 0.5.

עקומת ROC טיפוסית יותר נראית בערך כך:

לחשב את השטח מתחת לעקומה הזו באופן ידני יהיה קשה מאוד, ולכן תוכנית מחשבת בדרך כלל את רוב ערכי ה-AUC.

אפשר ללחוץ על הסמל כדי לעיין בהגדרה רשמית יותר של AUC.

AUC הוא ההסתברות ששיטת הסיווג תהיה בטוחה יותר שדוגמה חיובית שנבחרה באופן אקראי היא למעשה חיובית, מאשר שדוגמה שלילית שנבחרה באופן אקראי היא חיובית.

מציאות רבודה

#image

טכנולוגיה שמוסיפה תמונה ממוחשבת לעל העולם האמיתי של המשתמש, וכך מספקת תצוגה מורכבת.

מקודד אוטומטי

#language

#image

מערכת שלומדת לחלץ את המידע החשוב ביותר מהקלט. מקודדים אוטומטיים הם שילוב של מקודד ומפענח. מקודדים אוטומטיים מסתמכים על התהליך הבא שכולל שני שלבים:

המקודד ממפה את הקלט לפורמט עם ערך איבוד של מידות נמוכות (בינוני) (בדרך כלל).
המפענח בונה גרסת איבוד נתונים של הקלט המקורי על ידי מיפוי הפורמט בממדים הנמוכים יותר לפורמט הקלט המקורי עם ממדים גבוהים יותר.

המקודדים האוטומטיים מאומנים מקצה לקצה כי המפענח מנסה לשחזר בצורה מדויקת ככל האפשר את הקלט המקורי מפורמט הביניים של המקודד. מכיוון שפורמט הביניים קטן יותר (במידות נמוכות יותר) מהפורמט המקורי, המקודד האוטומטי נאלץ ללמוד איזה מידע בקלט הוא חיוני והפלט לא יהיה זהה לגמרי לקלט.

למשל:

אם נתוני הקלט הם גרפיים, העותק הלא מדויק יהיה דומה לגרפיקה המקורית, אבל יהיה שינוי קל. יכול להיות שהעותק הלא מדויק מסיר את הרעש מהגרפיקה המקורית או ממלא מספר פיקסלים חסרים.
אם נתוני הקלט הם טקסט, מקודד אוטומטי ייצור טקסט חדש שמחקה את הטקסט המקורי (אבל לא זהה לו).

מידע נוסף זמין גם במאמר מקודדים אוטומטיים משתנים.

הטייה אוטומטית

#fairness

כשמקבלי החלטות אנושיים מעדיפים המלצות שהתקבלו על ידי מערכת אוטומטית לקבלת החלטות, על פני מידע שהתקבל ללא אוטומציה, גם במקרה שמערכת קבלת ההחלטות האוטומטית גורמת לשגיאות.

AutoML

כל תהליך אוטומטי לפיתוח מודלים של למידת מכונה מודלים. AutoML יכול לבצע משימות כמו:

מחפשים את המודל המתאים ביותר.
כוונון היפר-פרמטרים.
להכין נתונים (כולל ביצוע הנדסת תכונות).
פורסים את המודל שנוצר.

AutoML הוא כלי שימושי למדעני נתונים כי הוא יכול לחסוך להם זמן ומאמצים בפיתוח צינורות עיבוד נתונים של למידת מכונה ולשפר את דיוק החיזוי. הוא שימושי גם למי שאינם מומחים, כי הוא הופך משימות מורכבות של למידת מכונה לנגישות יותר.

מודל רגרסיבי אוטומטי

#language

#image

#generativeAI

model שמסיק חיזוי על סמך החיזויים הקודמים שלו. לדוגמה, מודלים של שפה רגרסיביים אוטומטיים חוזים את האסימון הבא על סמך האסימונים שנחזתה קודם. כל מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמר הם רגרסיביים אוטומטית.

לעומת זאת, מודלים של תמונות המבוססים על GAN בדרך כלל לא רגרסיביים אוטומטית כי הם יוצרים תמונה במעבר אחד קדימה ולא באופן איטרטיבי בשלבים. עם זאת, חלק מהמודלים ליצירת תמונות הם רגרסיביים אוטומטית כי הם יוצרים תמונה בשלבים.

אובדן עזר

פונקציית הפסד – בשילוב עם פונקציית האובדן העיקרית של רשת נוירונים במודל, שעוזרת להאיץ את האימון באיטרציות מוקדמות יותר כאשר המשקולות מופעלות באופן אקראי.

פונקציות אובדן עזר דוחפות הדרגתיות אפקטיבית לשכבות הקודמות. כך ניתן ליצור איחוד במהלך האימון על ידי מאבק בבעיית ההדרגתיות של ההדרגתיות.

דיוק ממוצע

מדד לסיכום הביצועים של רצף תוצאות מדורגת. הדיוק הממוצע מחושב על סמך ממוצע ערכי הדיוק של כל תוצאה רלוונטית (כל תוצאה ברשימה המדורגת שבה הריקול עולה ביחס לתוצאה הקודמת).

ראו גם שטח מתחת לעקומת ה-PR.

תנאי יישור לציר

#df

בעץ החלטות, תנאי שכולל רק תכונה אחת. לדוגמה, אם אזור הוא מאפיין, אז התנאי הבא הוא יישור לציר:

area > 200

השוו בין מצב משופע.

B

הפצה לאחור

#fundamentals

האלגוריתם שמיישם ירידה הדרגתית ברשתות נוירונים.

אימון של רשת נוירונים כולל איטרציות רבות מהמחזור הבא של שני מעברים:

במהלך ההעברה קדימה, המערכת מעבדת אצווה של דוגמאות לחיזוי תפוקה. המערכת משווה כל חיזוי לכל ערך של תווית. ההבדל בין החיזוי לערך התווית הוא הפסד בדוגמה הזו. המערכת צוברת את האובדן של כל הדוגמאות כדי לחשב את סכום האובדן הכולל של המקבץ הנוכחי.
במהלך המעבר לאחור (ההפצה לאחור), המערכת מתאימה את המשקולות של כל הנוירונים בכל השכבות המוסתרות כדי להפחית את האובדן.

רשתות נוירונים מכילות בדרך כלל נוירונים רבים בשכבות נסתרות רבות. כל אחד מהנוירונים האלה תורם לאובדן הכולל בדרכים שונות. הפצה לאחור קובעת אם להגדיל או להקטין את המשקולות שחלות על נוירונים מסוימים.

קצב הלמידה הוא מכפיל שקובע באיזו מידה כל מעבר לאחור עולה או יורד כל משקל. קצב למידה גבוה יגדיל או יקטין כל משקל יותר מקצב למידה קטן.

במונחי החשבון, ההפצה לאחור מטמיעה את כלל השרשרת מהחשבון. כלומר, ההפצה לאחור מחשבת את הנגזרת החלקית של השגיאה עם כל פרמטר.

לפני שנים רבות, בעלי מקצוע בתחום למידת מכונה היו צריכים לכתוב קוד כדי להטמיע הפצה לאחור. ממשקי API מודרניים של למידת מכונה כמו TensorFlow מיישמים עכשיו הפצה לאחור. סוף סוף!

כבודה

#df

שיטה לאימון של הרכב שבו כל מודל מרכיב מודל מאמן על קבוצת משנה אקראית של דוגמאות אימון שנדגמו עם החלפה. לדוגמה, יער אקראי הוא אוסף של עצי החלטה שאומנו עם עבודת נשיאה.

המונח תיק נשיאה הוא קיצור של bootstrap agging.

שק מילים

#language

ייצוג המילים בביטוי או בקטע, ללא קשר לסדר שלהן. לדוגמה, "תיק מילים" מייצג את שלושת הביטויים הבאים באופן זהה:

הכלב קופץ
מקפץ את הכלב
כלב קופץ

כל מילה ממופה לאינדקס בוקטור sparse, שבו הווקטור יש אינדקס לכל מילה באוצר המילים. לדוגמה, הביטוי the dog bars ממופה לווקטור מאפיין עם ערכים לא אפס בשלושת האינדקסים שתואמים למילים the , dog ו-jumps. הערך שאינו אפס יכול להיות כל אחת מהאפשרויות הבאות:

A 1 כדי לציין נוכחות של מילה.
ספירה של מספר הפעמים שמילה מופיעה בתיק. לדוגמה, אם הביטוי היה הכלב החום הוא כלב עם פרווה חום ערמוני, גם חום ערמוני וגם כלב מיוצגים ב-2, ומילים אחרות מיוצגות כ-1.
ערך אחר כלשהו, כמו הלוגריתם של מספר הפעמים שמילה מופיעה בתיק.

ערך הבסיס

model שמשמש כנקודת השוואה להשוואת הביצועים של מודל אחר (בדרך כלל המודל המורכב יותר). לדוגמה, מודל של רגרסיה לוגיסטי יכול לשמש כבסיס טוב למודל עומק.

ביחס לבעיה מסוימת, ערכי הבסיס עוזרים למפתחי המודלים לכמת את הביצועים המינימליים הצפויים שמודל חדש צריך להשיג כדי שהמודל החדש יהיה שימושי.

אצווה

#fundamentals

קבוצת הדוגמאות שנעשה בהן שימוש באיטרציה אחת לאימון. גודל האצווה קובע את מספר הדוגמאות באצווה.

בקטע תקופה תוכלו לקרוא הסבר על האופן שבו אצווה קשורה לתקופה של זמן מערכת.

הסקת מסקנות באצווה

#TensorFlow

#GoogleCloud

תהליך הסקת של חיזויים על מספר דוגמאות ללא תוויות, המחולק לקבוצות משנה קטנות יותר ('אצווה').

הסקת מסקנות בכמות גדולה יכולה להשתמש בתכונות המקבילות של צ'יפים של מאיצים. כלומר, מספר מאיצים יכולים להסיק בו-זמנית תחזיות לגבי קבוצות שונות של דוגמאות ללא תוויות, וכך להגדיל משמעותית את מספר ההסקה לשנייה.

נירמול בכמות גדולה

נירמול של הקלט או הפלט של פונקציות ההפעלה בשכבה מוסתרת. נירמול בכמות גדולה יכול לספק את היתרונות הבאים:

שיפור היציבות של רשתות נוירונים באמצעות הגנה מפני משקולות חריגות.
להפעיל קצבי למידה גבוהים יותר, שיכולים לזרז את האימון.
מפחיתים את האפשרות התאמה יתר.

גודל אצווה

#fundamentals

מספר הדוגמאות באצווה. לדוגמה, אם גודל המקבץ הוא 100, המודל יעבד 100 דוגמאות לכל איטרציה.

אסטרטגיות נפוצות לגודל אצווה הן:

Stochastic Gradient Descent (SGD), שבו גודל הקבוצה הוא 1.
אצווה מלאה, שבה גודל הקבוצה הוא מספר הדוגמאות בכל קבוצת האימון. למשל, אם קבוצת האימון מכילה מיליון דוגמאות, גודל הקבוצה יהיה מיליון דוגמאות. אצווה מלאה היא בדרך כלל אסטרטגיה לא יעילה.
mini-batch שבו גודל האצווה הוא בדרך כלל בין 10 ל-1,000. בדרך כלל הגישה היעילה ביותר היא באמצעות 'מיני-אצווה'.

רשת נוירונים בייסיאנית

רשת נוירונים הסתברותית של אי-ודאות במשקלים ובפלט. מודל רגרסיה סטנדרטי של רשת נוירונים בדרך כלל מחזית ערך סקלרי. לדוגמה, מודל סטנדרטי חוזה מחיר בית של 853,000. לעומת זאת, רשת נוירונים בייסיאנית חוזה את התפלגות הערכים. לדוגמה, מודל בייסיאני חוזה מחיר בית של 853,000 עם סטיית תקן של 67,200.

רשת נוירונים בייסיאנית מסתמכת על משפט בייס כדי לחשב אי-ודאות במשקלים ובחיזויים. רשת נוירונים בייסיאנית יכולה להיות שימושית כשחשוב לכמת את אי-הוודאות, למשל במודלים שקשורים לתרופות. רשתות נוירונים בייסיאניות יכולות גם לעזור במניעת התאמת יתר.

אופטימיזציה בייסיאנית

מודל רגרסיה הסתברותי לביצוע אופטימיזציה של פונקציות אובייקטיביות יקרות מבחינה חישובית, באמצעות אופטימיזציה של חומר חלופי שמשמש לכמת אי-הוודאות באמצעות שיטת למידה בייסיאנית. מכיוון שהאופטימיזציה של בייסיאנית יקרה מאוד, בדרך כלל משתמשים בה כדי לבצע אופטימיזציה של משימות שיקרות להערכה ומכילות מעט פרמטרים, כמו בחירת היפר-פרמטרים.

משוואת בלמן

#rl

בלמידת חיזוק, הזהות הבאה מתמלאת בפונקציית ה-Q האופטימלית:

\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]

האלגוריתמים של למידת חיזוק מחילים את הזהות הזו כדי ליצור Q-learning באמצעות כלל העדכון הבא:

\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s',a') - Q(s,a) \right] \]

מעבר ללמידת החיזוק, למשוואת Bellman יש יישומים לתכנות דינמי. ראו הסבר על משוואת Bellman בוויקיפדיה.

BERT (ייצוגים דו-כיווניים של מקודד מטרנספורמרים)

#language

ארכיטקטורה של מודלים למצג שווא של טקסט. מודל BERT מאומן יכול לשמש כחלק ממודל גדול יותר לסיווג טקסטים או למשימות אחרות של למידת מכונה.

ל-BERT יש את המאפיינים הבאים:

שימוש בארכיטקטורה של טרנספורמר, ולכן הוא מסתמך על קשב עצמי.
משתמש בחלק המקודד של הטרנספורמר. התפקיד של המקודד הוא ליצור ייצוגי טקסט טובים במקום לבצע משימה ספציפית, כמו סיווג.
היא דו-כיוונית.
נעשה שימוש באנונימיזציה לצורך אימון לא מפוקח.

הווריאציות של BERT כוללות:

ALBERT, שהוא ראשי תיבות של A Light BERT.
LaBSE

לסקירה כללית של BERT, עיינו במאמר Open Sourcing BERT: State-of-Art-training for Natural Language Processing.

הטיה (אתיקה/הוגנות)

#fairness

#fundamentals

‫1. סטריאוטיפים, דעות קדומות או העדפה כלפי דברים מסוימים, אנשים או קבוצות על פני אחרים. ההטיות האלה יכולות להשפיע על איסוף ופירוש נתונים, על עיצוב המערכת ועל האינטראקציה של המשתמשים עם המערכת. דוגמאות לסוגים כאלה של הטיה:

‫2. שגיאה מערכתית שנוצרה באמצעות דגימה או תהליך דיווח. דוגמאות לסוגים כאלה של הטיה:

חשוב להבדיל בין מונח ההטיה במודלים של למידת מכונה או הטיה של חיזוי.

מונח של הטיה (מתמטיקה) או הטיה

#fundamentals

יירוט או היסט ממקור. הטיה היא פרמטר במודלים של למידת מכונה, שמסמל אחד או יותר מהמאפיינים הבאים:

b
w₀

לדוגמה, ההטיה היא הערך b בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

בקו דו-ממדי פשוט, ההטיה פירושה "חיתוך y". לדוגמה, ההטיה של הקו באיור הבא היא 2.

תרשים קו עם שיפוע 0.5 והטיה (חיתוך y) של 2.

קיימת הטיה כי לא כל המודלים מתחילים מהמקור (0,0). לדוגמה, נניח שכניסה לפארק שעשועים היא 2 אירו לכניסה, ועוד 0.5 אירו לכל שעה שבה לקוח שוהה. לכן, במודל שממפה את העלות הכוללת יש הטיה 2 כי העלות הנמוכה ביותר היא 2 אירו.

חשוב להבדיל בין דעות קדומות לבין הטיה והגינות או הטיה של חיזוי.

דו-כיווני

#language

מונח שמשמש לתיאור מערכת שמעריכה את הטקסט שגם קודם וגם עוקב אחרי קטע יעד בטקסט. לעומת זאת, מערכת חד-כיוונית מבצעת הערכה רק של הטקסט שקודם לקטע יעד בטקסט.

לדוגמה, נבחן מודל שפה מסכה שחייב לקבוע הסתברויות למילה או למילים שמייצגות את הקו התחתון בשאלה הבאה:

מה זה _____ איתך?

מודל שפה חד-כיווני צריך לבסס את ההסתברויות שלו רק על ההקשר שמספק המילים "מה", "הוא" ו-"the". לעומת זאת, מודל שפה דו-כיווני יכול לקבל הקשר גם מ'עם' ומ'את/ה', מה שיכול לעזור למודל ליצור חיזויים טובים יותר.

מודל שפה דו-כיווני

#language

מודל שפה שקובע את הסבירות לכך שאסימון נתון נמצא במיקום נתון בקטע טקסט על סמך הטקסט הקודם והעוקב.

Bigram

#seq

#language

N-gram שבו N=2.

סיווג בינארי

#fundamentals

סוג של משימת סיווג שחוזה אחד משני סיווגים בלעדיים:

לדוגמה, כל אחד מהמודלים הבאים של למידת מכונה מבצע סיווג בינארי:

מודל שקובע אם הודעות אימייל הן ספאם (הסיווג החיובי) או לא ספאם (הסיווג השלילי).
מודל להערכת תסמינים רפואיים כדי לקבוע אם אדם סובל ממחלה מסוימת (הסיווג החיובי) או אם הוא לא חולה את המחלה הזו (המחלקה השלילית).

ניגוד לסיווג מרובה-מחלקות.

אפשר לקרוא גם רגרסיה לוגיסטית וסף סיווג.

תנאי בינארי

#df

בעץ ההחלטות, תנאי שיש לו רק שתי תוצאות אפשריות, בדרך כלל כן או לא. לדוגמה, התנאי הבא הוא תנאי בינארי:

temperature >= 100

השוו בין תנאי לא בינארי.

binning

מילה נרדפת ליצירת קטגוריות.

BLEU (Bilingual Evaluation Substudy)

#language

ציון בין 0.0 ל-1.0, כולל, שמעיד על איכות התרגום בין שתי שפות אנושיות (לדוגמה: בין אנגלית לרוסית). ציון BLEU של 1.0 מציין תרגום מושלם; ציון BLEU: 0.0 מציין תרגום גרוע.

הגדלת

טכניקת למידת מכונה שמשלבת באופן חזרתי קבוצה של מסווגים פשוטים ולא מדויקים מאוד (שנקראים מסווגים 'חלשים') לסיווג עם רמת דיוק גבוהה (סיווג 'חזק') על ידי שקלול של הדוגמאות שהמודל מסווג כרגע באופן שגוי.

תיבה תוחמת (bounding box)

#image

בתמונה, הקואורדינטות (x, y) של מלבן מסביב לאזור עניין מסוים, כמו הכלב בתמונה למטה.

תמונה של כלב יושב על ספה. תיבה תוחמת ירוקה עם קואורדינטות בפינה השמאלית העליונה של (275, 1271) וקואורדינטות-ימין למטה של (2954, 2761) מקיפה את גופו של הכלב

שידור

הרחבת הצורה של אופרנד בפעולה מתמטית במטריצה למאפיינים שתואמים לפעולה הזו. לדוגמה, באלגברה לינארית חייבים להיות אותם מימדים של שתי האופרנדים בפעולת חיבור מטריצה. לכן אי אפשר להוסיף מטריצה של צורה (m, n) לווקטור באורך n. שידור מאפשר את הפעולה הזו על ידי הרחבה וירטואלית של הווקטור של האורך n למטריצה של צורה (m, n) על ידי שכפול של אותם הערכים במורד כל עמודה.

לדוגמה, בהתאם להגדרות הבאות, אלגברה לינארית אוסרת על השימוש ב-A+B כי ל-A ול-B יש מאפיינים שונים:

A = [[7, 10, 4],
     [13, 5, 9]]
B = [2]

עם זאת, השידור מאפשר את הפעולה A+B על ידי הרחבה וירטואלית של B אל:

 [[2, 2, 2],
  [2, 2, 2]]

לכן, A+B הוא עכשיו פעולה תקינה:

[[7, 10, 4],  +  [[2, 2, 2],  =  [[ 9, 12, 6],
 [13, 5, 9]]      [2, 2, 2]]      [15, 7, 11]]

למידע נוסף, ראו שידור ב-NumPy.

יצירת קטגוריות

#fundamentals

המרת מאפיין בודד למספר תכונות בינאריות שנקראות קטגוריות או bins, בדרך כלל לפי טווח ערכים. הפיצ'ר המחתוך הוא בדרך כלל פיצ'ר רציף.

לדוגמה, במקום לייצג את הטמפרטורה כתכונה אחת רציפה של נקודה צפה (floating-point), אפשר לקצץ טווחי טמפרטורות לקטגוריות נפרדות, כמו:

<= 10 מעלות צלזיוס תהיה הקטגוריה ה "קרה".
הערך של 11-24 מעלות צלזיוס הוא הקטגוריה ה "ממוזגת".
>= 25 מעלות צלזיוס תהיה הקטגוריה "חם".

המודל יתייחס לכל ערך באותה קטגוריה באופן זהה. לדוגמה, הערכים 13 ו-22 נמצאים שניהם בקטגוריה הממוזג, כך שהמודל מתייחס לשני הערכים באופן זהה.

לוחצים על הסמל כדי להציג הערות נוספות.

אם מייצגים טמפרטורה כתכונה רציפה, המודל מתייחס לטמפרטורה כמאפיין יחיד. אם מייצגים טמפרטורה כשלוש קטגוריות, המודל מתייחס לכל קטגוריה כמאפיין נפרד. כלומר, המודל יכול ללמוד קשרים נפרדים בין כל קטגוריה לתווית. לדוגמה, מודל רגרסיה ליניארית יכול ללמוד משקולות נפרדות לכל קטגוריה.

הגדלת מספר הקטגוריות הופכת את המודל למורכב יותר באמצעות הגדלת מספר הקשרים שהמודל צריך ללמוד. לדוגמה, הקטגוריות של הקור, הממוזג והחמימות הן בעצם שלוש תכונות נפרדות שמאפשרות למודל לאמן את המודל. אם תחליטו להוסיף עוד שתי קטגוריות--למשל, הקפאה או 'חם' – המודל יצטרך עכשיו לאמן חמש תכונות נפרדות.

איך יודעים כמה קטגוריות צריך ליצור, או מה הטווחים של כל קטגוריה? כדי לקבל תשובות יש בדרך כלל כמות קטנה של ניסויים.

C

שכבת כיול

התאמה אחרי החיזוי, בדרך כלל כדי להביא בחשבון את ההטיה של החיזוי. החיזויים וההסתברויות המותאמים צריכים להתאים להתפלגות של קבוצת תוויות שנמדדה.

יצירת מועמדים

#recsystems

הקבוצה הראשונית של ההמלצות שנבחרו על ידי מערכת המלצות. לדוגמה, נניח שיש חנות ספרים שמציעה 100,000 כותרים. שלב יצירת המועמד יוצר רשימה קטנה הרבה יותר של ספרים מתאימים למשתמש מסוים, למשל 500. אבל גם 500 ספרים הם הרבה יותר מדי מכדי להמליץ למשתמש. השלבים הבאים של מערכת המלצות (כמו ציון ודירוג מחדש) מצמצמים את 500 השלבים האלה לכדי קבוצת המלצות קטנה ומועילה הרבה יותר.

דגימות של מועמדים

אופטימיזציה בזמן אימון, שמחשבת הסתברות לכל התוויות החיוביות, באמצעות, למשל, softmax, אבל רק עבור מדגם אקראי של תוויות שליליות. לדוגמה, בדוגמה עם התווית ביגל ו-כלב, דגימות המועמדות מחשבת את ההסתברויות החזויות ואת מונחי האובדן התואמים של:

ביגל
כלב
תת-קבוצה אקראית של הסוגים השליליים שנותרו (לדוגמה: cat, lollipop ו-fence).

הרעיון הוא שהסיווגים השליליים יכולים ללמוד מחיזוקים שליליים בתדירות נמוכה יותר, כל עוד סיווגים חיוביים תמיד מקבלים חיזוק חיובי, וזה ניכר באופן אמפירי.

דגימת מועמדים יעילה יותר מבחינה חישובית מאשר אימון אלגוריתמים שמחשבים תחזיות של כל הסוגים השליליים, במיוחד כשמספר הסוגים השליליים גדול מאוד.

נתונים קטגוריים

#fundamentals

לתכונות עם קבוצה ספציפית של ערכים אפשריים. לדוגמה, שימו לב לתכונה קטגורית בשם traffic-light-state, שיכול להיות לה רק אחד משלושת הערכים האפשריים הבאים:

red
yellow
green

כשהמודל מייצג את traffic-light-state כתכונה קטגורית, הוא יכול ללמוד את ההשפעות השונות של red, green ו-yellow על התנהגות הנהגים.

תכונות קטגוריות נקראות לפעמים תכונות נפרדות.

השוו בין נתונים מספריים.

מודל שפה סיבתית

#language

מילה נרדפת למודל שפה חד-כיווני.

ראו מודל שפה דו-כיווני כדי להשוות בין גישות כיווניות שונות בבניית מודלים של שפות.

מרכז

#clustering

מרכז האשכול כפי שנקבע באמצעות אלגוריתם k-means או k-median. למשל, אם k הוא 3, אז האלגוריתם k-media או האלגוריתם k-median מוצא 3 צנטרואידים.

גיבוש דפי אינטרנט לאשכולות לפי מרכז

#clustering

קטגוריה של אלגוריתמים של קיבוץ נתונים באשכולות, שמארגנים נתונים באשכולות לא היררכיים. k-means הוא אלגוריתם הקיבוץ לאשכולות לפי צנטרואידים.

ביצוע ניגודיות עם אלגוריתמים של אשכולות היררכיים.

הנחיות בטכניקת שרשרת מחשבה

#language

#generativeAI

שיטה של הנדסת הנחיות שמעודדת מודל שפה גדול (LLM) להסביר את הנימוקים שלו, שלב אחרי שלב. לדוגמה, שימו לב להנחיה הבאה, ושימו לב במיוחד למשפט השני:

כמה כוחות g שווה נהג במכונית שנע בין 0 ל-96 ק"מ בשעה ב-7 שניות? בתשובה, מציגים את כל החישובים הרלוונטיים.

סביר להניח שהתשובה של ה-LLM:

הצגת רצף של נוסחאות בפיזיקה, והזנת הערכים 0, 60 ו-7 במקומות המתאימים.
הסבירו למה בחרו בה את הנוסחאות האלה ומה המשמעות של המשתנים השונים.

הנחיות בטכניקת שרשרת מחשבה מאלצות את ה-LLM לבצע את כל החישובים, ויכול להיות שתקבלו תשובה נכונה יותר. בנוסף, הנחיות בטכניקת שרשרת מחשבה מאפשרות למשתמש לבחון את השלבים של ה-LLM כדי לקבוע אם התשובה הגיונית.

צ'אט, צ'ט, צאט, צט

#language

#generativeAI

התוכן של שיח בין שתי פעימות עם מערכת למידת מכונה, בדרך כלל מודל שפה גדול (LLM). האינטראקציה הקודמת בצ'אט (מה הקלדת ואיך תגובת מודל השפה הגדול) הופכת להקשר של החלקים הבאים בצ'אט.

צ'אט בוט הוא אפליקציה של מודל שפה גדול (LLM).

נקודת ביקורת

נתונים שמתעדים את מצב הפרמטרים של המודל באיטרציה מסוימת של אימון. נקודות ביקורת מאפשרות לייצא משקולות של מודל או לבצע אימון בכמה סשנים. נקודות ביקורת (checkpoints) מאפשרות גם להמשיך באימון כדי להמשיך בשגיאות קודמות (לדוגמה, הפסקת עבודה).

אחרי כוונון עדין, נקודת ההתחלה של האימון של המודל החדש תהיה נקודת ביקורת ספציפית של המודל שעבר אימון מראש.

מחלקה

#fundamentals

קטגוריה שאליה תווית יכולה להשתייך. למשל:

במודל של סיווג בינארי שמזהה ספאם, שני הסוגים עשויים להיות ספאם ולא ספאם.
במודל סיווג רב-סיווגי שמזהה גזעים של כלבים, הטיפוסים יכולים להיות פודל, ביגל, פאג וכן הלאה.

מודל סיווג יוצר חיזוי של מחלקה. לעומת זאת, מודל רגרסיה חוזה מספר ולא מחלקה.

מודל סיווג.

#fundamentals

model שהחיזוי שלו הוא model. לדוגמה, המודלים הבאים הם מודלים של סיווג:

מודל שחוזה את השפה של משפט קלט (צרפתית? ספרדית? איטלקית?).
מודל שחוזה את זני העצים (מייפל? Oak? באובב?).
מודל שחוזה את המחלקה החיובית או השלילית במצב רפואי מסוים.

לעומת זאת, מודלים של רגרסיה חוזים מספרים ולא מחלקות.

יש שני סוגים נפוצים של מודלים של סיווג:

סף סיווג (classification threshold)

#fundamentals

בסיווג בינארי, מספר בין 0 ל-1 שממיר את הפלט הגולמי של מודל רגרסיה לוגיסטית לחיזוי של המחלקה החיובית או המחלקה השלילית. שימו לב שסף הסיווג הוא ערך שהאדם בוחר, ולא ערך שנבחר על ידי אימון המודל.

מודל רגרסיה לוגיסטי יוצר ערך גולמי בין 0 ל-1. לאחר מכן:

אם הערך הגולמי הזה גבוה מסף הסיווג, המערכת חזויה את המחלקה החיובית.
אם הערך הגולמי הזה נמוך מסף הסיווג, המערכת חזויה את המחלקה השלילית.

לדוגמה, נניח שסף הסיווג הוא 0.8. אם הערך הגולמי הוא 0.9, אז המודל חוזה את המחלקה החיובית. אם הערך הגולמי הוא 0.7, המודל חוזה את המחלקה השלילית.

בחירת הסף לסיווג משפיעה באופן משמעותי על מספר התוצאות החיוביות המוטעות ותוצאות שליליות כוזבות.

לוחצים על הסמל כדי להציג הערות נוספות.

ככל שמודלים או מערכי נתונים מתפתחים, לפעמים המהנדסים משנים גם את סף הסיווג. כשסף הסיווג משתנה, חיזויים לסיווגים חיוביים יכולים להפוך פתאום למחלקות שליליות ולהיפך.

לדוגמה, נבחן מודל לחיזוי מחלות בסיווג בינארי. נניח שכאשר המערכת פועלת בשנה הראשונה:

הערך הגולמי של מטופל מסוים הוא 0.95.
סף הסיווג הוא 0.94.

לכן, המערכת מאבחןת את הסיווג החיובי. (המטופל מתנשם, "אוי לא! אני חולה!")

לאחר שנה, ייתכן שהערכים נראים כך:

הערך הגולמי של אותו מטופל נשאר 0.95.
סף הסיווג משתנה ל-0.97.

לכן, המערכת מסווגת מחדש את המטופל כמחלקה שלילית. (יום שמח! אני לא חולה"). אותו מטופל. אבחנה שונה.

מערך נתונים עם איזון בכיתה

#fundamentals

מערך נתונים של בעיית סיווג שבה המספר הכולל של התוויות בכל מחלקה שונה באופן משמעותי. לדוגמה, נבחן מערך נתונים של סיווג בינארי ששתי התוויות שלו מחולקות באופן הבא:

1,000,000 תוויות שליליות
10 תוויות חיוביות

היחס בין תוויות שליליות לתוויות חיוביות הוא 100,000 ל-1, אז זהו מערך נתונים לא מאוזן בכיתה.

לעומת זאת, מערך הנתונים הבא לא לא מאוזן, כי היחס בין תוויות שליליות לתוויות חיוביות קרוב יחסית ל-1:

517 תוויות שליליות
483 תוויות חיוביות

אפשר גם לאזן בין מערכי נתונים מכמה מחלקות. לדוגמה, גם מערך הנתונים הבא של סיווג מרובה-מחלקות לא מאוזן, כי תווית אחת מכילה הרבה יותר דוגמאות משתי התוויות האחרות:

1,000,000 תוויות עם סיווג "ירוק"
200 תוויות עם סיווג "סגול"
350 תוויות עם סיווג "כתום"

ראו גם אנטרופיה, סיווג ראשי וסיווג מיעוט.

חיתוך

#fundamentals

שיטה לטיפול בחריגים חריגים באמצעות אחת מהפעולות הבאות או את שתיהן:

צריך להוריד את ערכי feature שחורגים מהסף המקסימלי.
להגדיל את הערכים של התכונות שנמוכים מהסף המינימלי עד לסף המינימלי.

לדוגמה, נניח שפחות מ-0.5% מהערכים של תכונה מסוימת נמצאים מחוץ לטווח של 40-60. במקרה כזה, אפשר לבצע את הפעולות הבאות:

צריך להצמיד את כל הערכים שחורגים מ-60 (הסף המקסימלי) כך שיהיו בדיוק 60.
צריך להצמיד את כל הערכים מתחת ל-40 (הסף המינימלי) כך שיהיו בדיוק 40.

חריגות חריגות עלולות לגרום נזק למודלים, ולפעמים לגרום למשקולות לגלוש במהלך האימון. ערכים חריגים מסוימים יכולים גם לקלל משמעותית מדדים כמו דיוק. ביצוע קליפים היא שיטה נפוצה להגבלת הנזק.

חיתוך Gradient מאלצת ערכים של הדרגתיות בטווח ייעודי במהלך האימון.

Cloud TPU

#TensorFlow

#GoogleCloud

מאיץ חומרה מיוחד שנועד להאיץ עומסי עבודה של למידת מכונה ב-Google Cloud.

קיבוץ לאשכולות

#clustering

דוגמאות קשורות לקיבוץ, במיוחד במהלך למידה בלתי מונחית. אחרי שמקבצים את כל הדוגמאות, אדם יכול לספק משמעות לכל אשכול.

קיימים הרבה אלגוריתמים של קיבוץ. לדוגמה, דוגמאות למצבי אלגוריתמים של k-כלומר על סמך הקרבה שלהם למרכז, כמו בתרשים הבא:

תרשים דו-ממדי שבו ציר ה-X מסומן ברוחב העץ ולציר ה-Y מקבלים תווית של גובה העץ. התרשים מכיל שני
מרכזים וכמה עשרות נקודות נתונים. הנקודות על הגרף מחולקות לקטגוריות לפי הקרבה ביניהן. כלומר, נקודות הנתונים שהכי קרובות למרכז אחד מסווגות כאשכול 1, והנקודות הקרובות ביותר למרכז השני מסווגות כאשכול 2.

לאחר מכן, חוקר אנושי יכול לבדוק את האשכולות, לדוגמה, לסמן את אשכול 1 כ "עצים ננסיים" ואת אשכול 2 כ "עצים בגודל מלא".

דוגמה נוספת: נבחן אלגוריתם של קיבוץ לפי המרחק של דוגמה מנקודת מרכז, שמוצג כך:

עשרות נקודות נתונים מסודרות במעגלים קונצנטריים, כמעט כמו חורים סביב המרכז של לוח חיצים. הטבעת הפנימית ביותר של נקודות נתונים מסווגת כאשכול 1, הטבעת האמצעית מסווגת כאשכול 2 והטבעת החיצונית ביותר כאשכול 3.

התאמה משותפת

כשנוירונים חוזים דפוסים בנתוני אימון על ידי הסתמכות כמעט רק על פלט של נוירונים ספציפיים אחרים, במקום להסתמך על התנהגות הרשת בכללותה. כשהדפוסים שגורמים להתאמה משותפת לא נמצאים בנתוני האימות, ההתאמה המשותפת גורמת להתאמה יתר. הסתגלות לנטישה מפחיתה את ההתאמה המשותפת, כי הנשירה מבטיחה שהנוירונים לא יכולים להסתמך רק על נוירונים ספציפיים אחרים.

סינון שיתופי

#recsystems

חיזויים לגבי תחומי העניין של משתמש אחד, על סמך תחומי העניין של משתמשים רבים אחרים. במערכות ההמלצות משתמשים בדרך כלל בסינון שיתופי.

סחף קונספט

שינוי בקשר בין תכונות לבין התווית. לאורך זמן, התנודות בקונספט מפחיתות את איכות המודל.

במהלך האימון, המודל לומד את הקשר בין התכונות לבין התוויות שלהן בערכת האימון. אם התוויות בערכת האימון הן שרתי proxy טובים בעולם האמיתי, המודל צריך להפיק חיזויים טובים מהעולם האמיתי. עם זאת, בגלל הבדלים בקונספטים, החיזויים של המודל נוטים לרדת עם הזמן.

לדוגמה, נבחן מודל סיווג בינארי שחוזה אם דגם מסוים של מכונית 'יעיל בדלק'. כלומר, התכונות יכולות להיות:

משקל הרכב
דחיסת מנוע
סוג השידור

כשהתווית היא:

חסכוני בדלק
לא חסכוני בדלק

עם זאת, המושג 'מכונית חסכונית בדלק' משתנה שוב ושוב. דגם של מכונית שסווג כיעיל בדלק בשנת 1994 יסומן כלא חסכוני בדלק בשנת 2024. מודל עם סחף קונספטים נוטה להפיק תחזיות פחות שימושיות לאורך זמן.

השוואה וניגוד לללא תחנות.

לוחצים על הסמל כדי להציג הערות נוספות.

כדי לפצות על סחף קונספט כלשהו, אימון מחדש של המודלים מהיר יותר מהקצב של סחף הקונספט. לדוגמה, אם סחף קונספט מפחית את דיוק המודל בשולי רווח משמעותיים כל חודשיים, כדאי לאמן מחדש את המודל בתדירות גבוהה יותר מדי חודשיים.

מצב

#df

בעץ החלטות, כל צומת שמעריך ביטוי. לדוגמה, החלק הבא בעץ ההחלטות מכיל שני תנאים:

עץ החלטות שמורכב משני תנאים: (x > 0) ו-(y > 0).

תנאי נקרא גם פיצול או בדיקה.

ניגודיות בין המצב עם עלה.

לעיונך:

קונבולציה

#language

הזיה היא מילה נרדפת.

מונחה הוא כנראה מדויק יותר מבחינה טכנית מאשר הזיה. עם זאת, תגובות לא תואמות נתונים הפכו לפופולריות לפני כולם.

הגדרות אישיות

התהליך של הקצאת ערכי המאפיין הראשוניים שמשמשים לאימון המודל, כולל:

בפרויקטים של למידת מכונה, אפשר להגדיר את התצורה באמצעות קובץ תצורה מיוחד או באמצעות ספריות הגדרות אישיות, כמו:

הטיית אישור

#fairness

הנטייה לחפש, לפרש, להעדיף ולהיזכר במידע באופן שמאשר את האמונות הקיימות או ההשערות הקיימות שלו. מפתחי למידת מכונה עשויים לאסוף בטעות נתונים או לתייג אותם בדרכים שמשפיעות על תוצאה שתומכת באמונות הקיימות שלהם. הטיית אישור היא סוג של הטיה מרומזת.

הטייה של הניסוי היא סוג של הטיית אישור, שבה הוא ממשיך לאמן מודלים עד שמאשרים השערה קיימת.

מטריצת בלבול

#fundamentals

טבלת NxN שמסכמת את מספר החיזויים הנכונים והשגויים שנוצרו במודל סיווג. לדוגמה, נבחן את מטריצת הבלבול הבאה למודל סיווג בינארי:

	גידול (לפי חיזוי)	ללא גידול (לפי חיזוי)
Tumor (ground truth)	18 (TP)	1 (FN)
לא-Tumor (אמת קרקע)	6 (FP)	452 (TN)

מטריצת הבלבול שלמעלה מראה את הדברים הבאים:

מתוך 19 החיזויים שבהם האמת האדמה הייתה Tumor, המודל סיווג את 18 בצורה נכונה וסיווג את 1 באופן שגוי.
מתוך 458 החיזויים שבהם האמת (ground tumor) הייתה לא-Tumor, המודל סיווג נכון את 452 והסיווג של 6 בטעות.

מטריצת הבלבול לבעיה של סיווג מרובה-מחלקות יכולה לעזור לכם לזהות דפוסים של טעויות. לדוגמה, נבחן את מטריצת הבלבול הבאה של מודל סיווג רב-סיווגי של 3 מחלקות, שמסווג שלושה סוגים שונים של קשתית העין (וירג'יניה, Versicolor ו-Setosa). כשאמת הבסיס הייתה וירג'יניה, מטריצת הבלבול מראה שלמודל היה סיכוי גבוה בהרבה לחזות בטעות את Versicolor מאשר סטוסה:

	סטוסה (לפי התחזית)	דרגת מלל (צפוי)	וירג'יניה (לפי החיזוי)
Setosa (ground truth)	88	12	0
Versicolor (ground truth)	6	141	7
וירג'יניה (האמת היבשתית)	2	27	109

דוגמה נוספת: מטריצת בלבול יכולה לגלות שמודל שמאומן לזהות ספרות בכתב יד נוטה לחזות בטעות 9 במקום 4, או לחזות בטעות את הערך 1 במקום 7.

מטריצות בלבול מכילות מספיק מידע לחישוב מגוון מדדי ביצועים, כולל דיוק ואחזור.

ניתוח של מחוז בחירה

#language

פיצול משפט למבנים דקדוקיים קטנים יותר ('מרכיבים'). חלק מאוחר יותר במערכת למידת המכונה, כמו מודל הבנת שפה טבעית (NLP), יכול לנתח את מרכיבים בקלות רבה יותר מאשר המשפט המקורי. לדוגמה, נבחן את המשפט הבא:

חבר שלי אימץ שני חתולים.

מנתח של מחוז בחירה יכול לחלק את המשפט הזה לשני המרכיבים הבאים:

חבר שלי הוא ביטוי של שם עצם.
אמץ שני חתולים הוא ביטוי של פועל.

ניתן לחלק את המרכיבים האלה לחלוקות משנה קטנות יותר. לדוגמה, הביטוי של פועל

אימץ שני חתולים

ניתן לחלק אותו לקבוצות משנה:

adopted הוא פועל.
שני חתולים הוא ביטוי נוסף של שם עצם.

הטמעת שפה לפי הקשר

#language

#generativeAI

הטמעה שמתקרבת ל "הבנה" של מילים וביטויים בדרכים שדוברים אנשים ילידיים יכולים לראות אותן. הטמעות של שפה לפי הקשר יכולות להבין תחביר, סמנטיקה והקשר מורכבים.

לדוגמה, כדאי לשקול הטמעות של המילה באנגלית cow. הטמעות ישנות יותר כמו word2vec יכולות לייצג מילים באנגלית כך שהמרחק במרחב ההטמעה מפרה לשור דומה למרחק בין ewe (כבשה נקבה) ל-ram (כבשה זכרה) או מנקבה לזכר. הטמעה של שפה לפי הקשר יכולה לקחת רחוק יותר, כי היא מזהה שדוברי אנגלית לפעמים משתמשים במילה פרה בתור פרה או שור.

חלון ההקשר

#language

#generativeAI

מספר האסימונים שהמודל יכול לעבד בהנחיה נתונה. ככל שחלון ההקשר גדול יותר, כך המודל יכול להשתמש ביותר מידע כדי לספק תשובות עקביות ועקביות להנחיה.

תכונה רציפה

#fundamentals

מאפיין נקודה צפה (floating-point) עם טווח אינסופי של ערכים אפשריים, כמו טמפרטורה או משקל.

ניגודיות עם תכונה נפרדת.

דגימת נוחות [ברבים: דגימות נוחוּת]

שימוש במערך נתונים שלא נאסף באופן מדעי כדי להריץ ניסויים מהירים. בשלב מאוחר יותר, חשוב לעבור למערך נתונים שנאסף באופן מדעי.

התכנסות

#fundamentals

מצב שאליו מגיעים כשערכי loss משתנים מעט מאוד או בכלל לא בכל איטרציה. לדוגמה, עקומת ההפסד הבאה מצביעה על המרה של כ-700 איטרציות:

עלילה קרטזית. ציר ה-X יאבד. ציר ה-Y הוא מספר החזרות האימון. האובדן גבוה מאוד בכמה החזרות הראשונות, אבל
יורד בצורה חדה. אחרי כ-100 חזרות, אובדן הנתונים עדיין
יורד אבל הרבה יותר הדרגתי. לאחר כ-700 חזרות,
האובדן נשאר קבוע.

המודל מתכנס כשאימון נוסף לא ישפר את המודל.

בלמידה עמוקה (Deep Learning), ערכי אובדן הנתונים נשארים לפעמים קבועים או כמעט באותה מידה באיטרציות רבות לפני שהם יורדים בסופו של דבר. במהלך תקופה ארוכה של ערכי הפסדים קבועים, יכול להיות שתקבלו באופן זמני תחושה שגויה של התכנסות.

למידע נוסף, כדאי לעיין בקטע עצירה מוקדמת.

פונקציית קמור

פונקציה שבה האזור מעל התרשים של הפונקציה הוא קבוצה קמורה. הפונקציה הקמורה האב טיפוסית בנויה בצורת האות U. לדוגמה, כל הפונקציות הבאות הן פונקציות קמורות:

עקומות בצורת U, שלכל אחת מהן יש נקודה מינימלית אחת.

לעומת זאת, הפונקציה הבאה אינה קמורה. שימו לב שהאזור שמעל התרשים לא מייצג קבוצת קמורות:

עקומה בצורת W עם שתי נקודות מינימום מקומיות שונות.

לפונקציה קמורה מחמירה יש בדיוק נקודת מינימום מקומית אחת, שהיא גם נקודת המינימום הגלובלית. הפונקציות הקלאסיות בצורת U הן פונקציות קמורות לחלוטין. אבל יש פונקציות קמורות (לדוגמה, קווים ישרים) שהן לא בצורת U.

ניתן ללחוץ על הסמל כדי לקבל מידע מעמיק יותר על המתמטיקה.

חלק גדול מפונקציות ההפסד הנפוצות, כולל הפונקציות הבאות, הן פונקציות קמורות:

הרבה וריאציות של ירידה הדרגתית מובטחת לאיתור נקודה שקרובה למינימום של פונקציה קמורה מחמירה. באופן דומה, לווריאציות רבות של ירידה הדרגתית אקראית יש סבירות גבוהה (אבל לא ערובה) למצוא נקודה שקרובה למינימום של פונקציה קמורה מחמירה.

הסכום של שתי פונקציות קמורות (לדוגמה, הפסד ₂ L + הרגולריזציה של L₁) הוא פונקציית קמורה.

מודלים עמוקים הם אף פעם לא פונקציות קמורות. מדהים לדעת שאלגוריתמים שנועדו לאופטימיזציה קמורה נוטים למצוא פתרונות טובים במידה סבירה ברשתות עמוקות, למרות שלא מובטח שהפתרונות האלה יהיו ערך מינימום גלובלי.

אופטימיזציה של קמורות

תהליך השימוש בטכניקות מתמטיות כמו ירידה הדרגתית כדי למצוא את הערך המינימלי של פונקציה קמורה. הרבה מחקר בלמידת מכונה התמקד בניסוח של בעיות שונות כבעיות אופטימיזציה קמורות, ובפתרון הבעיות האלה באופן יעיל יותר.

הפרטים המלאים זמינים במאמר: בויד ו-ונדנברג, אופטימיזציה קמור.

קבוצה קמורה

קבוצת משנה של המרחב האאוקלידי, כך שהקו שעובר בין שתי נקודות בקבוצת המשנה נשאר במלואו בתוך קבוצת המשנה. לדוגמה, שתי הצורות הבאות הן קבוצות קמורות:

איור אחד של מלבן. איור נוסף של אליפסה.

לעומת זאת, שתי הצורות הבאות הן לא קבוצות קמורות:

איור אחד של תרשים עוגה שחסרה בו פרוסה.
איור נוסף של פוליגון לא סדיר.

קונבולציה

#image

במתמטיקה, במילים קלילות, שילוב של שתי פונקציות. בלמידת מכונה, קונבולציה משלבת את המסנן המסומם עם מטריצת הקלט כדי לאמן משקולות.

המונח 'קבולציה' בלמידת מכונה הוא בדרך כלל דרך קצרה להתייחס לפעולה קונבולוציה או לשכבה קונבולוציה.

בלי קונבולציות, האלגוריתם של למידת המכונה צריך ללמוד משקל נפרד לכל תא בטנסור גדול. לדוגמה, אימון של אלגוריתם של למידת מכונה על תמונות בגודל 2K x 2K ייאלץ למצוא 4 מיליון משקולות נפרדות. בזכות קונבולוציות, אלגוריתם של למידת מכונה צריך למצוא משקלים לכל תא רק במסנן המעורבלים, וכך לצמצם משמעותית את הזיכרון שדרוש לאימון המודל. כשמשתמשים במסנן קונבולוציה, הוא פשוט משוכפל בין תאים כך שכל אחד מהם מוכפל במסנן.

מסנן קונבולוציה

#image

אחד משני הגורמים בפעולה קונבולציה. (השחקן השני הוא פרוסה ממטריצת קלט). מסנן קונבולוציה הוא מטריצה שיש לה דירוג זהה לזה של מטריצת הקלט, אבל צורה קטנה יותר. לדוגמה, בהינתן מטריצת קלט של 28x28, המסנן יכול להיות כל מטריצה דו-ממדית קטנה מ-28x28.

במניפולציה מצולמת, כל התאים בפילטר קונבולוציה מוגדרים בדרך כלל לתבנית קבועה של 1 ואפס. בלמידת מכונה, בדרך כלל המקור של מסננים קונבולוציה הוא מספרים אקראיים, והרשת מאמנים את הערכים האידאליים.

שכבת קונבולוציה

#image

שכבה של רשת נוירונים עמוקה שבה מסנן קונבולוציה עובר לאורך מטריצת קלט. לדוגמה, שימו לב למסנן הערוך הבא: 3x3:

מטריצה בגודל 3x3 עם הערכים הבאים: [[0,1,0], [1,0,1], [0,1,0]]

האנימציה הבאה מציגה שכבה קונבולוציה שמורכבת מ-9 פעולות קונבולוציה שכוללות מטריצת הקלט 5x5. שימו לב שכל פעולה מתקפלת פועלת על פרוסה אחרת בגודל 3x3 במטריצת הקלט. המטריצה 3x3 שמתקבלת (בצד ימין) מורכבת מהתוצאות של 9 הפעולות המעורבות:

אנימציה שמוצגות בה שתי מטריצות. המטריצה הראשונה היא המטריצה 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195],
המטריצה השנייה היא מטריצה 3x3:
[[181,303,618], [115,338,605], [169,351,560]].
כדי לחשב את המטריצה השנייה, מחילים את המסנן
[[0, 1, 0], [1, 0, 1], [0, 1, 0]] על קבוצות משנה שונות של 3x3 במטריצה של 5x5.

רשת עצבית מתקפלת

#image

רשת נוירונים שבה לפחות שכבה אחת היא שכבה קונבולוציה. רשת עצבית מתקפלת טיפוסית מורכבת משילוב כלשהו של השכבות הבאות:

רשתות נוירונים מלאכותיות השיגו הצלחה רבה בסוגים מסוימים של בעיות, כמו זיהוי תמונות.

פעולה קונבולציה

#image

הפעולה המתמטית הבאה בשני שלבים:

הכפלה מבחינת הרכיבים של המסנן המסומם ופרוסה של מטריצת קלט. (לפרוסה של מטריצת הקלט יש דירוג וגודל זהים לאלו של המסנן הקונבולוציה).
סיכום של כל הערכים במטריצת המוצרים שמתקבלת.

לדוגמה, נבחן את מטריצת הקלט הבאה בגודל 5x5:

מטריצת 5x5: [[128,97,53,201,198], [35,22,25,200,195],
[37,24,28,197,182], [33,28,92,195,170], [319],1079]

עכשיו נניח את המסנן המסתורי הבא בגודל 2x2:

מטריצה 2x2: [[1, 0], [0, 1]]

כל פעולה קונבולציה כוללת פרוסה אחת בגודל 2x2 מתוך מטריצת הקלט. לדוגמה, נניח שאנחנו משתמשים בפלח בגודל 2x2 בפינה השמאלית העליונה של מטריצת הקלט. פעולת הקונבולוציה על הפלח הזה נראית כך:

מחילים את המסנן המתקפל [[1, 0], [0, 1]] על הקטע
2x2 השמאלי העליון של מטריצת הקלט, שהוא [[128,97], [35,22]].
הפילטר המורכב משאיר את 128 ו-22 ללא שינוי, אבל מאפס את מספר 97 ו-35. כתוצאה מכך, פעולת הקונבולוציה מניבה את הערך 150 (128+22).

שכבה מעורפלת מורכבת מסדרה של פעולות קונבולוציה, שכל אחת מהן פועלת על חלק אחר במטריצת הקלט.

עלות

מילה נרדפת להפסד.

אימון משותף

הגישה של למידה מונחית למחצה שימושית במיוחד כשכל התנאים הבאים מתקיימים:

היחס בין דוגמאות ללא תווית לבין דוגמאות עם תוויות במערך הנתונים הוא גבוה.
זוהי בעיית סיווג (בינארית או מספר קטגוריות).
מערך הנתונים מכיל שתי קבוצות שונות של תכונות חיזוי שאינן תלויות אחת בשנייה ומשלימות.

אימון משותף למעשה מגביר אותות עצמאיים לאות חזק יותר. לדוגמה, נבחן מודל סיווג שמסווג רכבים משומשים כטובים או גרועים. קבוצה אחת של תכונות חיזוי עשויה להתמקד במאפיינים מצטברים כמו השנה, היצרן והדגם של הרכב. קבוצה נוספת של תכונות חיזוי עשויה להתמקד בהיסטוריית הנהיגה של הבעלים הקודם ובהיסטוריית התחזוקה של הרכב.

המאמר העיקרי בנושא אימון משותף הוא שילוב של נתונים מתויגים ונתונים לא מתויגים עם אימון משותף של Blum ו-Mitchell.

הוגנות מנוגדת

#fairness

מדד הוגנות שבודק אם המסווג מניב את אותה תוצאה עבור אדם פרטי אחד כמו במקרה של אדם פרטי אחר שזהה לנכס הראשון, מלבד לגבי מאפיין רגיש אחד או יותר. הערכת מסווג להוגנות מנוגדת היא אחת הדרכים לזיהוי מקורות פוטנציאליים של הטיה במודל.

אפשר לקרוא את המאמר כאשר עולמות מתנגשים: שילוב של הנחות נגדיות שונות בהוגנות" לדיון מפורט יותר על הוגנות נגדית.

הטיית הכיסוי

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

פריחה מקרוסלת

#language

משפט או ביטוי עם משמעות לא ברורה. פריחת הנוער היא בעיה משמעותית בהבנת השפה הטבעית. לדוגמה, הכותרת Red Tape Holds Up מלבן עומד היא פריחה כי מודל NLU יכול לפרש את הכותרת באופן מילולי או לפי תיאור.

לוחצים על הסמל כדי להציג הערות נוספות.

רק כדי להבהיר את הכותרת המסתורית:

סרט אדום יכול להתייחס לאחת מהאפשרויות הבאות:
- דבק
- בירוקרטיה מוגזמת
המונח Holds Up יכול להתייחס לאחת מהאפשרויות הבאות:
- תמיכה מבנית
- עיכובים

מבקר

#rl

מילה נרדפת ל-Deep Q-Network.

חוצה אנטרופיה

הכללה של אובדן יומן לבעיות בסיווג רב-מחלקות. קרוס-אנטרופיה מכמתת את ההבדל בין שתי התפלגויות הסתברות. ראו גם מורכבות.

אימות צולב

מנגנון להערכת ההשפעה של model על ההכללה של נתונים חדשים על ידי בדיקת המודל מול קבוצת משנה אחת או יותר של נתונים לא חופפים, שלא הוכנסו מmodel.

פונקציית התפלגות מצטברת (CDF)

פונקציה שמגדירה את התדירות של הדגימות קטנה מערך היעד או שווה לו. לדוגמה, נבחן התפלגות נורמלית של ערכים מתמשכים. CDF אומר שכ-50% מהדגימות צריכות להיות קטנות מהממוצע או שווים לו, ושכ-84% מהדגימות צריכות להיות קטנות מסטיית תקן אחת או שווה לה.

D

ניתוח נתונים

קבלת הבנה של הנתונים על ידי התחשבות בדגימות, במדידה ובהצגה חזותית. ניתוח נתונים יכול להיות שימושי במיוחד כשמתקבלים מערך נתונים בפעם הראשונה, לפני שבונים את model הראשון. הוא גם חיוני בהבנת ניסויים ובניפוי באגים בבעיות במערכת.

הגדלת נתונים

#image

הגדלה מלאכותית של הטווח והמספר של דוגמאות האימון על ידי שינוי הדוגמאות הקיימות ליצירת דוגמאות נוספות. לדוגמה, תמונות הן אחת מהתכונות שלכם, אבל מערך הנתונים לא מכיל מספיק דוגמאות של תמונות כדי שהמודל יוכל ללמוד שיוכים מועילים. באופן אידיאלי, כדאי להוסיף למערך הנתונים מספיק תמונות עם תוויות כדי לאפשר למודל לאמן כראוי. אם זה לא אפשרי, אפשר להשתמש בהרחבת נתונים כדי לסובב, למתוח ולשקף כל תמונה כדי ליצור וריאנטים רבים של התמונה המקורית, וכך להניב מספיק נתונים מתויגים כדי לאפשר אימון מצוין.

DataFrame

#fundamentals

סוג נתונים פופולרי של פנדות לייצוג מערכי נתונים בזיכרון.

DataFrame מקביל לטבלה או לגיליון אלקטרוני. לכל עמודה ב-DataFrame יש שם (כותרת), וכל שורה מזוהה באמצעות מספר ייחודי.

כל עמודה ב-DataFrame בנויה כמו מערך דו-ממדי, אבל אפשר להקצות לכל עמודה סוג נתונים משלה.

תוכלו לעיין גם בדף העזר הרשמי שלpandas.DataFrame.

מקביליות של נתונים

שיטה להגדלה של האימון או הסקת מסקנות שיוצרת רפליקה של מודל שלם למספר מכשירים, ולאחר מכן מעבירה קבוצת משנה של נתוני הקלט לכל מכשיר. מקבילות של נתונים יכולה לאפשר אימון והסקת מסקנות בגדלים גדולים מאוד של חבילות. עם זאת, במקבילות נתונים, המודל צריך להיות קטן מספיק כדי להתאים לכל המכשירים.

מקביליות של נתונים בדרך כלל מאיצה את האימון וההסקה.

ניתן לעיין גם במודל מקבילה.

מערך נתונים או מערך נתונים

#fundamentals

אוסף של נתונים גולמיים, לרוב (אבל לא רק) שמסודרים באחד מהפורמטים הבאים:

גיליון אלקטרוני
קובץ בפורמט CSV (ערכים המופרדים בפסיקים)

Dataset API (tf.data)

#TensorFlow

ממשק API ברמה גבוהה של TensorFlow לקריאת נתונים ולהפיכתם לצורה שנדרשת לאלגוריתם של למידת מכונה. אובייקט tf.data.Dataset מייצג רצף של רכיבים, שבו כל רכיב מכיל חיישן אחד או יותר. אובייקט tf.data.Iterator מספק גישה לרכיבים של Dataset.

לפרטים נוספים על Dataset API, ראו tf.data: Build צינורות עיבוד נתונים של TensorFlow במדריך למתכנת של TensorFlow.

גבול החלטה

המפריד בין מחלקות שנלמדו על ידי מודל במחלקה בינארית או בבעיות סיווג מרובות מחלקות. לדוגמה, בתמונה הבאה שמייצגת בעיית סיווג בינארית, גבולות ההחלטה הם הגבול בין המחלקה הכתומה למחלקה הכחולה:

גבול מוגדר היטב בין מחלקה אחת לאחרת.

יער החלטה

#df

מודל שנוצר מכמה עצי החלטות. יער ההחלטות יוצר חיזוי על ידי צבירת החיזויים של עצי ההחלטות שלו. סוגים פופולריים של יערות החלטה כוללים יערות אקראיים ועצים מוגדלים הדרגתיים.

סף לקבלת החלטה

ערך סף לסיווג – מילה נרדפת.

עץ ההחלטות

#df

מודל של למידה בפיקוח שמורכב מקבוצה של conditions וconditions שמסודרים בהיררכיה. לדוגמה, זהו עץ ההחלטות:

עץ החלטות שמורכב מארבעה תנאים
שמסודרים בהיררכיה, ומובילים לחמישה עלים.

מפענח

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג מעובד, דחוס או פנימי לייצוג גולמי, דל או חיצוני יותר.

לרוב, מפענחים הם רכיב במודל גדול יותר, ולעיתים קרובות הם מותאמים למקודד.

במשימות של רצף לרצף, המפענח מתחיל במצב הפנימי שהמקודד יצר כדי לחזות את הרצף הבא.

ההגדרה של מפענח בתוך הארכיטקטורה של הטרנספורמר מופיעה במאמר טרנספורמר.

מודל עמוק

#fundamentals

רשת נוירונים שמכילה יותר משכבה מוסתרת אחת.

מודל עומק נקרא גם רשת נוירונים עמוקה.

השוו עם מודל רחב.

של רשת עצבית עמוקה

מילה נרדפת למודל עומק.

Deep Q-Network (DQN)

#rl

ב-Q-learning, רשת נוירונים עמוקה שחוזה פונקציות Q.

Critic היא שם נרדף ל-Deep Q-Network.

שוויון דמוגרפי

#fairness

מדד הוגנות שמתקיימים אם תוצאות הסיווג של המודל לא תלויות במאפיין רגיש נתון.

לדוגמה, אם גם תושבי ליליפוטם וגם תושבי ברודינגנאגיה מגישים בקשה לאוניברסיטת גלודובדוב, תושג שוויון דמוגרפי אם אחוז האנשים שלומדים מהליליפוטים יהיה זהה לאחוז אחוזי הקבלה של תושבי ברודינג, גם אם בממוצע קבוצה אחת לא מתאימה יותר מהשנייה.

ניתן להשוות בין סיכויים שווים ושוויון הזדמנויות, שמאפשרים סיווג מצטבר בהתאם למאפיינים רגישים, אבל לא מאפשרים תוצאות סיווג של תוויות ground truth מסוימות שתלויות במאפיינים רגישים. במאמר המאבק באפליה באמצעות למידת מכונה חכמה יותר אפשר לראות תצוגה חזותית שמפרטת את היתרונות והחסרונות של ביצוע אופטימיזציה לשוויון דמוגרפי.

ניקוי רעשים

#language

גישה נפוצה ללמידה בפיקוח עצמי שבה:

רעש נוסף באופן מלאכותי למערך הנתונים.
model מנסה להסיר את הרעש.

ביטול "הפרעות" מאפשר ללמוד מדוגמאות ללא תוויות. מערך הנתונים המקורי משמש בתור היעד או התווית, וגם את הנתונים עם הרעש בתור הקלט.

בחלק מהמודלים של שפה התממה משתמשים בביטול רעשים באופן הבא:

הוספה של רעש למשפט ללא תווית מתבצעת באופן מלאכותי באמצעות אנונימיזציה של חלק מהאסימונים.
המודל מנסה לחזות את האסימונים המקוריים.

רכיב דחוס

#fundamentals

תכונה שבה רוב הערכים או כולם הם לא אפס, בדרך כלל חיישן של ערכים בנקודה צפה (floating-point). לדוגמה, ה-Tensor, 10 האלמנטים הבאים צפוף כי 9 מהערכים שלו הם לא אפס:

ניגודיות עם תכונה מצומצמת.

שכבה צפופה

מילה נרדפת לשכבה מקושרת.

עומק

#fundamentals

הסכום של הפריטים הבאים ברשת נוירונים:

מספר השכבות המוסתרות
מספר שכבות הפלט, שהוא בדרך כלל 1
מספר שכבות ההטמעה

לדוגמה, לרשת נוירונים עם חמש שכבות מוסתרות ושכבת פלט אחת, העומק הוא 6.

שימו לב ששכבת הקלט לא משפיעה על העומק.

רשת עצבית מתקפלת (קונבולציה) נפרדת בעומק (sepCNN)

#image

ארכיטקטורה של רשת עצבית מתקפלת שמבוססת על Inception, אבל שבה מודולים של InceptionResNetV2 מוחלפים בקיפולים (שאפשר להפריד ביניהם לעומק). נקרא גם Xception.

קונבולציה מתרחבת בדרגה גבוהה (המופיעה גם בקונבולוציה ניתנת להפרדה) יוצרת קונבולציה תלת-ממדית רגילה לשתי פעולות קונבולציה נפרדות, שהן יעילות יותר מבחינה חישובית: הראשונה היא קונבולציה עמוקה, בעומק 1 (n [ n \ 1) ואחר כך עקומה, עם עובי 1 בעובי 1, ואז נקודה השנייה.

מידע נוסף זמין במאמר Xception: למידה עמוקה (Deep Learning) עם קונבולוציות בלמידה עמוקה (Depthwise depthwise Conolutions).

תווית נגזרת

מילה נרדפת לתווית לשרת proxy.

מכשיר

#TensorFlow

#GoogleCloud

מונח עמוס מדי עם שתי ההגדרות האפשריות הבאות:

קטגוריית חומרה שיכולה להריץ סשן של TensorFlow, כולל מעבדי CPU, מעבדי GPU ומעבדי TPU.
כשמאמנים מודל למידת מכונה באמצעות צ'יפים של מאיצים (מעבדי GPU או מעבדי TPU), החלק במערכת שמבצע בפועל מניפולציה על כלי כוונון והטמעות. המכשיר פועל על צ'יפים של מאיץ. לעומת זאת, המארח בדרך כלל פועל על מעבד (CPU).

פרטיות דיפרנציאלית

בלמידת מכונה, גישה של אנונימיזציה כדי להגן על מידע אישי רגיש (למשל, מידע אישי של אדם פרטי) שכלול בקבוצת האימון של המודל, מפני חשיפה. הגישה הזו מבטיחה שmodel לא ילמד או יזכור הרבה על אדם מסוים. הדרך לעשות זאת היא באמצעות דגימה והוספת רעש במהלך אימון המודל, כדי לטשטש נקודות נתונים ספציפיות, כדי לצמצם את הסיכון לחשיפת נתוני אימון רגישים.

פרטיות דיפרנציאלית משמשת גם מחוץ ללמידת מכונה. לדוגמה, מדעני נתונים משתמשים לפעמים בפרטיות דיפרנציאלית כדי להגן על הפרטיות של המשתמשים כשהם מחשבים סטטיסטיקות שימוש במוצרים לקבוצות דמוגרפיות שונות.

צמצום מאפיינים

הפחתת מספר המאפיינים שמשמשים לייצוג תכונה מסוימת בווקטור של מאפיין, בדרך כלל על ידי המרה לוקטור הטמעה.

מימדים

המונח עמוס מדי באחת מההגדרות הבאות:

מספר רמות הקואורדינטות בחיישן. לדוגמה:
- לסקלר יש אפס מימדים. לדוגמה, ["Hello"].
- לווקטור יש מאפיין אחד. לדוגמה, [3, 5, 7, 11].
- למטריצה יש שני מימדים. לדוגמה, [[2, 4, 18], [5, 7, 14]].
אפשר לציין באופן ייחודי תא מסוים בווקטור חד-ממדי עם קואורדינטה אחת, ואתם צריכים שתי קואורדינטות כדי לציין באופן ייחודי תא מסוים במטריצה דו-ממדית.
מספר הרשומות בוקטור מאפיין.
מספר הרכיבים בשכבת הטמעה.

הנחיות ישירות

#language

#generativeAI

מילה נרדפת להנחיות מאפס (zero-shot)..

פיצ'ר בדיד

#fundamentals

תכונה עם קבוצה מוגבלת של ערכים אפשריים. לדוגמה, תכונה שהערכים שלה יכולים להיות רק בעל חיים, ירק או מינרל, היא תכונה נפרדת (או קטגורית).

ניגודיות עם תכונה רציפה.

מודל דיסקרימינטיבי

model שחוזה model מקבוצה של model אחת או יותר. באופן רשמי יותר, מודלים דיסקרימינטיביים מגדירים את ההסתברות המותנית של פלט בהינתן התכונות והמשקולות. כלומר:

p(output | features, weights)

לדוגמה, מודל שחוזה אם אימייל הוא ספאם מתכונות ומשקולות, הוא מודל דיסקרימינטיבי.

הרוב המכריע של מודלים של למידה בפיקוח, כולל מודלים של סיווג ורגרסיה, הם מודלים דיסקרימינטיביים.

ביצוע ניגוד למודל גנרטיבי.

מבדילה

מערכת שקובעת אם דוגמאות הן אמיתיות או מזויפות.

לחלופין, תת-המערכת בתוך רשת אווירית גנרטיבית שקובעת אם הדוגמאות שנוצרו על ידי המחולל הן אמיתיות או מזויפות.

השפעה שונה

#fairness

קבלת החלטות לגבי אנשים שמשפיעים באופן לא פרופורציונלי על קבוצות משנה שונות של אוכלוסייה. בדרך כלל מדובר במצבים שבהם תהליך קבלת החלטות באמצעות אלגוריתם פוגע בקבוצות משנה מסוימות או מועיל יותר מאחרות.

לדוגמה, נניח שלאלגוריתם שקובע אם יש לליליפוטם יש אפשרות לקבל הלוואה קטנה לבית יש סיכוי גבוה יותר שהוא יסווג אותו בתור 'לא כשיר' אם הכתובת למשלוח דואר מכילה מיקוד מסוים. אם לליליפוטים ביג-אנד-אנדים יש סיכוי גבוה יותר שיהיו להם כתובות אימייל עם המיקוד הזה, מאשר לליפוטנטים הקטנה-אנדיאנית, לאלגוריתם הזה תהיה השפעה שונה.

לעומת זאת, לטיפול נפרד, שמתמקד בפערים שנובעים כאשר מאפיינים של תתי-קבוצות הם קלט מפורש לתהליך קבלת החלטות באמצעות אלגוריתם.

טיפול שונה

#fairness

פירוק המאפיינים הרגישים של הנושאים בתהליך קבלת החלטות אלגוריתמי, כך שיטופלו תתי-קבוצות שונות של אנשים באופן שונה.

לדוגמה, נבחן אלגוריתם כדי לקבוע את הזכאות שלהם להלוואה מיניאטורית לבית על סמך הנתונים שהם סיפקו בבקשת ההלוואה. אם האלגוריתם משתמש בשיוך של ליליפוטי כקלט Big-Endian או Little-Endian כקלט, הוא מקבל יחס שונה מזה של המימד הזה.

ניתן להשוות בין השפעה שונה, שמתמקדת בפערים בהשפעות החברתיות של החלטות אלגוריתמיות על תת-קבוצות, בלי קשר לקבוצות המשנה האלה בתור קלט למודל.

זיקוק

#generativeAI

תהליך הצמצום של הגודל של model אחד (שנקרא model) למודל קטן יותר (שנקרא model) שמחקה את החיזויים של המודל המקורי בצורה מהימנה ככל האפשר. תהליך הפיזור שימושי כי למודל הקטן יותר יש שני יתרונות מרכזיים על פני המודל הגדול יותר (המורה):

זמן הסקת מסקנות מהיר יותר
הפחתה של צריכת הזיכרון והאנרגיה

עם זאת, בדרך כלל החיזויים של התלמיד/ה לא טובים כמו החיזויים של המורה.

פיזור מאמן את המודל של התלמידים למזער את פונקציית אובדן, על סמך ההבדל בין הפלט בין הפלטים של החיזויים של המודלים של התלמידים והמורים.

השוו והבדילו בין זיקוק למונחים הבאים:

distribution

התדירות והטווח של ערכים שונים ב-feature או ב-label. ההתפלגות מייצגת את הסבירות של ערך מסוים.

התמונה הבאה מציגה היסטוגרמות של שתי הפצות שונות:

בצד שמאל, התפלגות העושר לפי חוק הכוח לעומת מספר האנשים שמחזיקים בעושר הזה.
מצד ימין, התפלגות נורמלית של הגובה לעומת מספר האנשים שמחזיקים את הגובה הזה.

שתי היסטוגרמות. בהיסטוגרמה אחת מוצגת התפלגות של חוק הכוח עם
עושר על ציר ה-X ומספר האנשים שהעשירו אותם על
ציר ה-Y. לרוב האנשים יש עושר קטן מאוד, ומעט אנשים
יש עושר רב. ההיסטוגרמה השנייה מציגה התפלגות נורמלית
עם גובה על ציר ה-X ומספר האנשים עם הגובה הזה
על ציר ה-Y. רוב האנשים מקובצים במקום כלשהו ליד הממוצע.

אם תבינו את ההתפלגות של כל תכונה ותווית, תוכלו לקבוע איך לנרמל ערכים ולזהות חריגים חשודי טעות.

הביטוי out of grouping מתייחס לערך שלא מופיע במערך הנתונים או לערך שהוא נדיר מאוד. לדוגמה, תמונה של כוכב הלכת שבתאי תיחשב כלא הפצה עבור מערך נתונים שמכיל תמונות של חתולים.

אשכולות מחלקים

#clustering

ניתן לעיין באשכולות היררכיים.

הפחתת מידע

#image

מונח של עומס יתר יכול להיות אחת מהאפשרויות הבאות:

הפחתת כמות המידע בתכונה כדי לאמן מודל ביעילות רבה יותר. לדוגמה, לפני אימון של מודל לזיהוי תמונות, מצמצמים את הדגימה של תמונות ברזולוציה גבוהה לפורמט ברזולוציה נמוכה יותר.
אימון לגבי אחוז נמוך באופן לא פרופורציונלי של דוגמאות לכיתות שמיוצגות יותר מדי, כדי לשפר את אימון המודלים בנושא כיתות שסובלות מחוסר ייצוג. לדוגמה, במערך נתונים לא מאוזן, המודלים נוטים ללמוד הרבה על סיווג הרוב ולא מספיק על סיווג מיעוט. דגימה קטנה יותר עוזרת לאזן את כמות האימון של רוב כיתות מיעוט.

נפסל/ה

#rl

קיצור של Deep Q-Network (רשת כזו).

הרגולריזציה של נטישה

סוג של ארגון שמועיל לאימון רשתות נוירונים. הרגולריזציה של נטישה מסירה בחירה אקראית של מספר קבוע של היחידות בשכבת הרשת, בשלב אחד של מעבר הדרגתי. ככל שיותר יחידות נוטשים, כך ההתאמה הרגולרית חזקה יותר. הפעולה הזו מקבילה לאימון הרשת כדי לחקות מערך גדול באופן אקספוננציאלי של רשתות קטנות יותר. לפרטים מלאים ראו עזיבה: דרך פשוטה למנוע התאמה של רשתות נוירונים בין רשתות נוירונים לבין התאמת יתר.

דינמי

#fundamentals

פעולה שבוצעה בתדירות גבוהה או ברציפות. המונחים דינמיים ואונליין הם מילים נרדפות בלמידת מכונה. בהמשך מפורטים שימושים נפוצים בלמידת מכונה ובאונליין:

מודל דינמי (או מודל אונליין) הוא מודל שמאומן מחדש לעיתים קרובות או באופן מתמשך.
אימון דינמי (או הדרכה אונליין) הוא תהליך האימון לעיתים קרובות או מתמשך.
הסקה דינמית (או הֶקֵּשׁ אונליין) הוא התהליך של יצירת חיזויים על פי דרישה.

מודל דינמי

#fundamentals

model שעובר אימון מחדש לעיתים קרובות (אולי אפילו באופן רציף). מודל דינמי הוא מודל 'למידה לכל החיים' שמתאים את עצמו לנתונים שמתפתחים כל הזמן. מודל דינמי נקרא גם מודל אונליין.

השוו עם המודל הסטטי.

E

ביצוע נחוש

#TensorFlow

סביבת תכנות של TensorFlow שבה operations פועלות באופן מיידי. לעומת זאת, פעולות שנקראות ביצוע תרשים לא עובדות עד שמתבצעת הערכה שלהן באופן מפורש. ביצוע רציף הוא ממשק חיוני, בדומה לקוד ברוב שפות התכנות. בדרך כלל קל יותר לנפות באגים בתוכניות ביצוע משוערות מאשר בתוכניות ביצוע של תרשימים.

עצירה מוקדמת

#fundamentals

שיטה להסדרת האימון שכוללת סיום של האימון לפני שההפסד של האימון מסתיים. בשלב מוקדם של עצירה, אתם מפסיקים באופן מכוון את האימון של המודל כשהאובדן של מערך נתונים של אימות מתחיל לגדול. כלומר, כשההכללה משתפרת.

לוחצים על הסמל כדי להציג הערות נוספות.

עצירה מוקדמת עשויה להיראות כאילו היא לא הגיונית. אחרי הכול, אם אומרים למודל להפסיק את האימון כשהאובדן עדיין יורד, זה נראה כמו לומר לשף להפסיק לבשל לפני שהקינוח נאפה במלואו. עם זאת, אימון מודל ארוך מדי עלול לגרום להתאמת יתר של המודל. כלומר, אם אימון של המודל ארוך מדי, יכול להיות שהוא יתאים לנתוני האימון עד כדי כך שהמודל לא מייצר תחזיות טובות לגבי דוגמאות חדשות.

המרחק של כדור הארץ (EMD)

מדד של הדמיון היחסי בין שתי הפצות. ככל שהמרחק של תנועה בכדור הארץ נמוך יותר, ההתפלגויות דומות יותר.

עריכת המרחק

#language

מדידה של הדמיון בין שתי מחרוזות טקסט. בלמידת מכונה, עריכת המרחק היא שימושית כי היא פשוטה לחישוב, וזו דרך יעילה להשוות בין שתי מחרוזות שידועות כדומות או למצוא מחרוזות דומות למחרוזת נתונה.

יש כמה הגדרות של מרחק עריכה, כל אחת משתמשת בפעולות שונות של מחרוזת. לדוגמה, המרחק של Levenshtein מביא בחשבון את פעולות המחיקה, ההוספה וההחלפה המינימליות ביותר.

לדוגמה, המרחק של לבנשטיין בין המילים 'לב' ל'חיצים' הוא 3, כי שלוש פעולות העריכה הבאות הן השינויים הכי קטנים שעוזרים להפוך מילה אחת לשנייה:

לב ← deart (מחליפים את 'h' ב-'d')
deart ← dart (Delete "e")
חץ ← הטלת חיצים (insert "s")

סימון Einsum

סימון יעיל שמתאר את האופן שבו אפשר לשלב שני טנזטורים. כדי לשלב את הטנסטורים, מכפילים את הרכיבים של טנזור אחד ברכיבים של הטנסור השני ואז מסכמים את המכפלות. בסימון ניכוי מס במקור משתמשים בסמלים כדי לזהות את הצירים של כל טנזור, ואותם סמלים מסודרים מחדש כדי לציין את הצורה של הארגומנט החדש שנוצר.

NumPy מספק הטמעה נפוצה של Einsum.

שכבת הטמעה

#language

#fundamentals

שכבה מוסתרת מיוחדת שמבצעת אימון על פיצ'ר קטגורית עם ממדים גבוהים כדי ללמוד בהדרגה מהו וקטור ההטמעה של ממדים נמוכים יותר. שכבת ההטמעה מאפשרת לרשת נוירונים לאמן ביעילות רבה יותר מאשר אימונים רק על שימוש בתכונה קטגורית בעלת ממדים גבוהים.

לדוגמה, Google Earth תומך כרגע בכ-73,000 זני עצים. נניח שמין עץ הוא תכונה במודל, כך ששכבת הקלט של המודל כוללת וקטור לוהט אחד באורך של 73,000 רכיבים. לדוגמה, אולי baobab מיוצגת בערך כך:

מערך של 73,000 רכיבים. 6,232 הרכיבים הראשונים שומרים את הערך
0. הרכיב הבא מכיל את הערך 1. 66,767 הרכיבים האחרונים מכילים
את הערך אפס.

מערך של 73,000 רכיבים הוא ארוך מאוד. אם לא מוסיפים למודל שכבת הטמעה, האימון יגזול זמן רב בגלל הכפלה של 72,999 אפסים. נניח ששכבת ההטמעה צריכה לכלול 12 מאפיינים. כתוצאה מכך, שכבת ההטמעה תלמד בהדרגה מהו וקטור הטמעה חדש לכל סוג של עץ.

במצבים מסוימים, גיבוב הוא חלופה סבירה לשכבת הטמעה.

שטח הטמעה

#language

המרחב הווקטורי הדו-ממדי שאליו ממופים מרחב וקטורי גבוה יותר. במקרה האידיאלי, מרחב ההטמעה מכיל מבנה שמוביל לתוצאות מתמטיות משמעותיות. לדוגמה, במרחב הטמעה אידיאלי, חיבור וחיסור של הטמעות יכולות לפתור משימות של אנלוגיה מילולית.

מכפלת הנקודות של שתי הטמעות הוא מדד של הדמיון ביניהן.

וקטור הטמעה

#language

באופן כללי, מערך של מספרים נקודתיים (floating-point) הלקוח מכל שכבה נסתרת שמתארת את הקלט באותה שכבה נסתרת. לעיתים קרובות, וקטור הטמעה הוא מערך של מספרים בנקודה צפה (floating-point) שמאומן בשכבת הטמעה. לדוגמה, נניח ששכבת הטמעה חייבת ללמוד על וקטור הטמעה לכל אחד מ-73,000 מינים של עצים בכדור הארץ. אולי המערך הבא הוא וקטור ההטמעה של עץ באובב:

מערך של 12 רכיבים, שבכל אחד מהם יש מספר נקודה צפה (floating-point) בין 0.0 ל-1.0.

וקטור הטמעה הוא לא קבוצה של מספרים אקראיים. שכבת הטמעה קובעת את הערכים האלה באמצעות אימון, בדומה לאופן שבו רשת נוירונים לומדת משקולות אחרות במהלך אימון. כל רכיב במערך הוא דירוג לאורך מאפיין מסוים של מין עצים. איזה רכיב מייצג את סוג העצים האופייני לו? קשה מאוד לבני אדם לקבוע זאת.

החלק המתמטי המיוחד בווקטור הטמעה הוא שלפריטים דומים יש קבוצות דומות של מספרים עם נקודה צפה (floating-point). לדוגמה, למיני עצים דומים יש קבוצה דומה יותר של מספרי נקודות צפות מאשר למיני עצים שונים. עצי סקוויה וסקויה הם מינים קשורים של עצים, ולכן יהיה להם קבוצה דומה יותר של מספרים צפים מאשר עצי סקוויה ועצי קוקוס. המספרים בווקטור ההטמעה ישתנו בכל פעם שתאמנו מחדש את המודל, גם אם תאמנו מחדש את המודל עם קלט זהה.

פונקציית ההתפלגות האמפירית המצטברת (eCDF או EDF)

פונקציית התפלגות מצטברת שמבוססת על מדידות אמפיריות ממערך נתונים אמיתי. הערך של הפונקציה בכל נקודה לאורך ציר ה-X הוא חלק מהתצפיות במערך הנתונים ששווה לערך שצוין או קטן ממנו.

צמצום סיכונים אמפירי (ERM)

בחירת הפונקציה שמפחיתה את האובדן בערכת האימון. השוואה בין צמצום סיכונים מבני.

מקודד

#language

באופן כללי, כל מערכת למידת מכונה שממירה מייצוג גולמי, דל או חיצוני לייצוג פנימי מעובד, צפוף או פנימי יותר.

בדרך כלל מקודדים הם רכיב במודל גדול יותר, והרבה פעמים הם מותאמים למפענח. חלק מהטרנספורמרים מקשרים מקודדים למפענחים, אבל טרנספורמרים אחרים משתמשים רק במקודד או רק במפענח.

חלק מהמערכות משתמשות בפלט של המקודד כקלט לרשת סיווג או רגרסיה.

במשימות של רצף לרצף, המקודד לוקח רצף קלט ומחזיר מצב פנימי (וקטור). לאחר מכן, המפענח משתמש במצב הפנימי הזה כדי לחזות את הרצף הבא.

ההגדרה של מקודד בארכיטקטורה של טרנספורמרים מופיעה במאמר טרנספורמר.

אנסמבל

אוסף של מודלים שאומנו בנפרד, והתחזיות שלהם מחושבות כממוצע או כנתונים מצטברים. במקרים רבים, תמהיל מייצר חיזויים טובים יותר מאשר מודל אחד. לדוגמה, יער אקראי הוא מערך שבנוי מכמה עצי החלטה. שימו לב שלא כל יערות ההחלטות הם מורכבים.

אנטרופיה

#df

ב תורת המידע, תיאור עד כמה לא צפויה התפלגות ההסתברות, לחלופין, האנטרופיה מוגדרת גם ככמות המידע שמכילה כל דוגמה. בהתפלגות יש את האנטרופיה הגבוהה ביותר האפשרית אם יש סבירות שווה לכל הערכים של משתנה אקראי.

האנטרופיה של קבוצה עם שני הערכים האפשריים 0 ו-1 (לדוגמה, התוויות בבעיה של סיווג בינארי) מכילה את הנוסחה הבאה:

H = -p יומן p - q יומן q = -p יומן p - (1-p) * יומן (1-p)

איפה:

H היא האנטרופיה.
p הוא השבר של דוגמאות מסוג '1'.
q הוא החלק מתוך הדוגמאות "0". שימו לב ש-q = (1 - p)
log הוא בדרך כלל יומן₂. במקרה הזה, יחידת האנטרופיה היא קצת יותר.

לדוגמה, נניח את הדברים הבאים:

100 דוגמאות מכילות את הערך '1'
300 דוגמאות מכילות את הערך '0'

לכן, ערך האנטרופיה הוא:

p = 0.25
q = 0.75
H = (-0.25)log₂(0.25) - (0.75)log₂(0.75) = 0.81 סיביות לכל דוגמה

אם הקבוצה מאוזנת לחלוטין (לדוגמה, 200 '0' ו-200 '1'), האנטרופיה תהיה של 1.0 ביט בכל דוגמה. ככל שקבוצה הופכת לא מאוזנת, האנטרופיה שלה נעה לכיוון 0.0.

בעצי ההחלטות, האנטרופיה עוזרת לנסח איסוף מידע כדי לעזור למפצל לבחור את התנאים במהלך הצמיחה של עץ החלטות בנוגע לסיווג.

השוו בין אנטרופיה עם:

gini impurity
פונקציית אובדן נתונים ב-Cross-entropy

אנטרופיה נקראת בדרך כלל 'אנטרופיה של שנון'.

environment

#rl

בלמידת חיזוק, העולם שמכיל את הסוכן ומאפשר לו לצפות במצב של אותו עולם. לדוגמה, העולם המיוצג יכול להיות משחק כמו שחמט, או עולם פיזי כמו מבוך. כשהסוכן מחיל פעולה על הסביבה, הסביבה עוברת בין מצבים.

פרק

#rl

בלמידת חיזוק, כל אחד מהניסיונות החוזרים של הסוכן ללמוד סביבה.

תקופה של זמן מערכת

#fundamentals

מעבר אימון מלא לאורך כל קבוצת האימון, למשל שכל דוגמה מעובדת פעם אחת.

תקופה של זמן מערכת מייצגת איטרציות לאימון של N/גודל אצוות, כאשר N הוא המספר הכולל של הדוגמאות.

לדוגמה, נניח את הדברים הבאים:

מערך הנתונים כולל 1,000 דוגמאות.
גודל הקבוצה הוא 50 דוגמאות.

לכן בתקופה מסוימת נדרשים 20 איטרציות:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

המדיניות בנושא אלגוריתם חמדן אפסילון

#rl

בלמידת חיזוק, מדיניות שמבוססת על מדיניות אקראית עם הסתברות של אפסילון, או עם מדיניות של אלגוריתם חמדן, במקרים אחרים. לדוגמה, אם אפסילון הוא 0.9, המדיניות פועלת לפי מדיניות אקראית ב-90% מהפעמים, והמדיניות בנושא חמדנות ב-10% מהמקרים.

בפרקים רצופים, האלגוריתם מפחית את הערך של אפסילון כדי לעבור ממדיניות אקראית לציות למדיניות של חמדנות. על ידי שינוי המדיניות, הנציג בוחן קודם את הסביבה באופן אקראי ואז מנצל בחמדנות את התוצאות של ניתוח אקראי.

שוויון הזדמנויות

#fairness

מדד הוגנות כדי לבדוק אם מודל חוזה את התוצאה הרצויה באופן שווה לכל הערכים של מאפיין רגיש. במילים אחרות, אם התוצאה הרצויה של מודל היא הסיווג החיובי, המטרה תהיה שהשיעור החיובי האמיתי יהיה זהה בכל הקבוצות.

שוויון הזדמנויות קשור לסיכויים שווה, ולכן שני השיעורים החיוביים האמיתיים והשיעורים החיוביים השגויים זהים בכל הקבוצות.

נניח שאוניברסיטת גלודובדריב מודה גם לליליפוטים וגם לבני ברודינגנאגיאן בתוכנית מתמטיקה קפדנית. בתי הספר התיכון לליליפוטם מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, ורוב הסטודנטים עומדים בקריטריונים להשתתפות בתוכנית האוניברסיטה. בתי ספר התיכון לבני ברודינג לא מציעים בכלל שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות מהתלמידים כשירים. ניתן לקבל שוויון הזדמנויות עבור התווית המועדפת של 'מותרת' ביחס ללאום (ליליפוטי או ברודינגנאגי) אם יש סיכוי שווה להתקבל על סטודנטים מוסמכים, בין אם הם ליליפוטיים או ברודינגנגים.

לדוגמה, נניח ש-100 ליליפוטים ו-100 ליליפוטים ו-100 אנשי ברודינגנאגינאים מגישים בקשה לאוניברסיטת גלודובדוב, והחלטות קבלה מתקבלות כך:

טבלה 1. מועמדים ל-Liliputian (90% זכאים)

	כשיר	לא מתאים
אושר	45	3
נדחה	45	7
סה"כ	90	‏10
אחוז התלמידים שקיבלו את ההסמכה: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות: 7/10 = 70% האחוז הכולל של סטודנטים מליליפוטים שהתקבלו: (45+3)/100 = 48%

טבלה 2. מועמדי Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
אושר	5	9
נדחה	5	81
סה"כ	‏10	90
אחוז הסטודנטים שקיבלו הסמכה: 5/10 = 50% אחוז הסטודנטים שלא עומדים בקריטריונים נדחו: 81/90 = 90% האחוז הכולל של סטודנטים מברודנגנג שהתקבלו: (5+9)/100 = 14%

הדוגמאות שלמעלה הן שוויון הזדמנות לקבל תלמידים מוסמכים, כי לליליפוטים ולתושבי ברודינגנאים מוסמכים יש סיכוי של 50% להתקבל.

למרות ששוויון ההזדמנות מתקיים, שני המדדים הבאים של הוגנות לא מתקיימים:

שוויון דמוגרפי: סטודנטים ליליפוטים וברודינגנגים מקבלים לאוניברסיטה בשיעורים שונים. 48% מהסטודנטים מליליפוטים מתקבלים, אבל רק 14% מהסטודנטים מברודנגנגים מתקבלים.
סיכויים שווה: אמנם יש סיכוי גבוה יותר להתקבל לתוכנית סטודנטים בליפוטם וסטודנטים ברמת ברודינג, אבל ההגבלה הנוספת שלפיה גם לליליפוטים לא מוסמכים וגם לסטודנטים ברודינגנאגיה יש סיכוי זהה להידחות לא מתקיימת. לליליפוטים לא מוסמכים יש שיעור דחיות של 70%, ואילו שיעור הדחיות של סטודנטים שלא עומדים בדרישות הם 90%.

למידע מפורט יותר על שוויון הזדמנויות, ראו שוויון הזדמנויות בלמידה בפיקוח. בנוסף, כדאי לעיין במאמר "ההגנה על אפליה באמצעות למידת מכונה חכמה יותר" כדי להציג תצוגה חזותית שמפרטת את האיזונים בתהליך אופטימיזציה להשגת שוויון הזדמנויות.

סיכויים שווים

#fairness

מדד של הוגנות, שלפיו המודל יכול לחזות תוצאות באופן שווה בכל הערכים של מאפיין רגיש, תוך התייחסות גם לסיווג החיובי וגם ל-סיווג שלילי – לא רק לקטגוריה אחת או לקטגוריה אחרת באופן בלעדי. במילים אחרות, גם השיעור החיובי האמיתי וגם השיעור השלילי השגוי צריכים להיות זהים בכל הקבוצות.

סיכויים שווים קשורים לשוויון ההזדמנויות, שמתמקד רק בשיעורי השגיאות ברמה אחת (חיובית או שלילית).

לדוגמה, נניח שאוניברסיטת גלואבדאבדריב מקדמת גם תושבי ליליפוטים וגם ברובינגנגים לתוכנית מתמטיקה קפדנית. בתי הספר התיכוניים של ליליפוטם מציעים תוכנית לימודים מקיפה של שיעורי מתמטיקה, והרוב המכריע של התלמידים זכאים להשתתף בתוכנית האוניברסיטה. בבתי ספר תיכון של ברודינגנגים לא מציעים בכלל שיעורי מתמטיקה, וכתוצאה מכך, הרבה פחות מהתלמידים מתאימים להם. הסיכויים שוויוניים מתקבלים בתנאי שאין חשיבות לכך שהמועמד הוא ליליפוטי או ברובדינג, אם הוא עומד בדרישות, יש סיכוי שווה להתקבל לתוכנית. אם מגיש הבקשה לא עומד בדרישות, יש סיכוי שווה להידחות.

נניח ש-100 ליליפוטים ו-100 אנשי ברובדינג פונים לאוניברסיטת גלובדובדריב, והחלטות לגבי קבלה מתקבלות כך:

טבלה 3. מועמדים ל-Liliputian (90% זכאים)

	כשיר	לא מתאים
אושר	45	2
נדחה	45	8
סה"כ	90	‏10
אחוז התלמידים שקיבלו את ההסמכה: 45/90 = 50% אחוז התלמידים שלא עומדים בדרישות? 80%= 8/10 האחוז הכולל של סטודנטים מליליפוטים שהתקבלו: (45+2)/100 = 47%

טבלה 4. מועמדי Brobdingnagian (10% זכאים):

	כשיר	לא מתאים
אושר	5	18
נדחה	5	72
סה"כ	‏10	90
אחוז הסטודנטים שקיבלו הסמכה: 5/10 = 50% אחוז התלמידים שלא עומדים בקריטריונים נדחו: 72/90 = 80% האחוז הכולל של סטודנטים מברודנגנג שהתקבלו: (5+18)/100 = 23%

הסיכויים השווים מתקיימים כי לתלמידים ליליפוטיים וברודינגנגים מוסמכים יש סיכוי של 50% להתקבל, ולליליפוטיאן ולברובדנגנאגי יש סיכוי של 80% להידחות.

סיכויים שוויוניים מוגדרים באופן רשמי בסעיף "שוויון הזדמנות בלמידה בפיקוח". כך: "החיזוי ביחס לסיכויים שוויוניים ביחס למאפיין המוגן A ותוצאה Y אם results ו-A הם עצמאיים, מותנים ב-Y".

מעריך

#TensorFlow

ממשק API של TensorFlow שהוצא משימוש. צריך להשתמש ב-tf.keras במקום ב-Metrics.

הערכה

תהליך מדידת האיכות של החיזויים של מודל למידת מכונה. כשמפתחים מודל, בדרך כלל מחילים מדדי הערכה לא רק על קבוצת האימון, אלא גם על קבוצת אימות וקבוצת בדיקה. תוכלו גם להשתמש במדדי הערכה כדי להשוות בין מודלים שונים.

דוגמה

#fundamentals

הערכים של שורה אחת של features ואולי גם תווית. הדוגמאות בקטגוריה למידה מונחית מתחלקות לשתי קטגוריות כלליות:

דוגמה עם תווית מורכבת ממאפיין אחד או יותר ומתווית. במהלך האימון נעשה שימוש בדוגמאות מסומנות בתוויות.
דוגמה ללא תווית כוללת תכונה אחת או יותר, אבל ללא תווית. בתהליך ההסקה נעשה שימוש בדוגמאות ללא תוויות.

לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני המבחנים של התלמידים. לפניכם שלוש דוגמאות לתוויות:

תכונות			לייבל
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	טוב
19	34	1020	מצוינת
18	92	1012	גרועה

הנה שלוש דוגמאות לא מסומנות:

טמפרטורה	לחות	לחץ
12	62	1014
21	47	1017
19	41	1021

השורה של מערך נתונים היא בדרך כלל המקור הגולמי של דוגמה. כלומר, הדוגמה בדרך כלל מורכבת מקבוצת משנה של העמודות במערך הנתונים. בנוסף, התכונות שבדוגמה יכולות לכלול גם תכונות סינתטיות, כמו הצלבות פיצ'רים.

שידור חוזר של החוויה

#rl

בלמידת חיזוק, שיטת DQN שמשמשת לצמצום מתאמים של זמן בנתוני האימון. הסוכן מאחסן את מעברי המצבים במאגר נתונים זמני להפעלה מחדש, ולאחר מכן הדגימות עובר ממאגר הנתונים הזמני של השידור החוזר ליצירת נתוני אימון.

הטיה של עורך הניסוי

#fairness

מידע נוסף זמין בקטע הטיית אישור.

בעיה של הדרגתי מתפוצץ

#seq

הנטייה של הדרגתיות ברשתות נוירונים עמוקות (במיוחד רשתות נוירונים חוזרות) להפוך לתלולים באופן מפתיע (גבוה). הדרגתיות תלולים גורמת לעיתים קרובות לעדכונים גדולים מאוד למשקולות של כל צומת ברשת נוירונים עמוקה.

מודלים שסובלים מבעיית ההדרגתיות המתפוצצת הופכים לקשה או בלתי אפשרי לאמן. חיתוך באמצעות Gradient יכול לפתור את הבעיה הזו.

ניתן להשוות לבעיה נעלמת של הדרגתי.

נ

F₁

מדד סיווג בינארי של 'נכס-על' שמתבסס גם על דיוק וגם על אחזור. זאת הנוסחה:

$$F{_1} = \frac{\text{2 * precision * recall}} {\text{precision + recall}}$$

לדוגמה, בהינתן המשפט הבא:

דיוק = 0.6
ריקול = 0.4

$$F{_1} = \frac{\text{2 * 0.6 * 0.4}} {\text{0.6 + 0.4}} = 0.48$$

כשהדיוק והזכירה די דומים (כמו בדוגמה הקודמת), F₁ קרוב לממוצע שלהם. אם יש הבדל משמעותי בין הדיוק והזכירה, המקש F₁ קרוב יותר לערך הנמוך יותר. למשל:

דיוק = 0.9
ריקול = 0.1

$$F{_1} = \frac{\text{2 * 0.9 * 0.1}} {\text{0.9 + 0.1}} = 0.18$$

מגבלה על הוגנות

#fairness

החלת אילוץ על אלגוריתם כדי להבטיח התאמה של הגדרה אחת או יותר של הוגנות. דוגמאות למגבלות הוגנות:

עיבוד לאחר עיבוד הפלט של המודל.
שינוי של פונקציית הפסד כדי לכלול קנס על הפרה של מדד הוגנות.
הוספה ישירה של מגבלה מתמטית לבעיית אופטימיזציה.

מדד הוגנות

#fairness

הגדרה מתמטית של 'הוגנות' הניתנת למדידה. דוגמאות למדדים נפוצים של הוגנות:

יש הרבה מדדים של הוגנות שאין ביניהם חפיפה. אפשר לראות חוסר תאימות של מדדי הוגנות.

false negative (FN)

#fundamentals

דוגמה שבה המודל חוזים בטעות את המחלקה השלילית. לדוגמה, המודל מסיק שהודעת אימייל מסוימת היא לא ספאם (הסיווג השלילי), אבל הודעת האימייל בפועל היא ספאם.

שיעור FALSE שלילי

היחס של הדוגמאות החיוביות בפועל שעבורן המודל חזה בטעות את המחלקה השלילית. הנוסחה הבאה מחשבת את השיעור השלילי השגוי:

$$\text{false negative rate} = \frac{\text{false negatives}}{\text{false negatives} + \text{true positives}}$$

תוצאה חיובית כוזבת (FP)

#fundamentals

דוגמה שבה המודל חוזים בטעות את המחלקה החיובית. לדוגמה, המודל חוזים שהודעת אימייל מסוימת היא ספאם (הסיווג החיובי), אבל הודעת האימייל הזו למעשה לא ספאם.

שיעור חיובי שווא (FPR)

#fundamentals

היחס של הדוגמאות השליליות בפועל שעבורן המודל חזה בטעות את המחלקה החיובית. הנוסחה הבאה מחשבת את השיעור החיובי השגוי:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

השיעור החיובי השגוי הוא ציר ה-X בעקומת ROC.

מאפיין

#fundamentals

משתנה קלט למודל למידת מכונה. דוגמה כוללת תכונה אחת או יותר. לדוגמה, נניח שאתם מאמנים מודל כדי לקבוע את ההשפעה של תנאי מזג האוויר על ציוני המבחנים של התלמידים. בטבלה הבאה מוצגות שלוש דוגמאות, וכל אחת מהן כוללת שלוש תכונות ותווית אחת:

תכונות			לייבל
טמפרטורה	לחות	לחץ	ציון הבדיקה
15	47	998	92
19	34	1020	84
18	92	1012	87

השוו בין באמצעות תווית.

צלב פיצ'רים

#fundamentals

תכונה סינתטית שנוצרה באמצעות תכונות קטגוריות או קטגוריות 'חוצות'.

לדוגמה, נבחן מודל 'חיזוי מצבי רוח' שמייצג את הטמפרטורה באחת מארבע הקטגוריות הבאות:

freezing
chilly
temperate
warm

הוא מייצג את מהירות הרוח באחת משלוש הקטגוריות הבאות:

still
light
windy

בלי הצלבות של מאפיינים, המודל הלינארי עובר אימון בנפרד לכל אחת משבע הקטגוריות השונות שקדמו לו. כך המודל מתאמן על freezing, למשל, בנפרד מהאימון על windy, למשל.

לחלופין, תוכלו ליצור מאפיין להשוואה בין הטמפרטורה ומהירות הרוח. לתכונה הסינתטית הזו יש את 12 הערכים האפשריים הבאים:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

בזכות הצלבות, המודל יכול ללמוד את ההבדלים במצבי הרוח בין יום freezing-windy ליום freezing-still.

אם יוצרים תכונה סינתטית משתי תכונות שבכל אחת מהן יש הרבה קטגוריות שונות, להצלב של התכונות שתתקבל תהיה מספר עצום של שילובים אפשריים. לדוגמה, אם למאפיין אחד יש 1,000 קטגוריות ולתכונה השנייה יש 2,000 קטגוריות, ב-method של המאפיין שמתקבל יש 2,000,000 קטגוריות.

באופן רשמי, צלב הוא מכפלה קרטזית.

הצלבות פיצ'רים משמשות בעיקר במודלים ליניאריים, ורק לעיתים רחוקות משתמשים בהן ברשתות נוירונים.

הנדסת פיצ'רים (feature engineering)

#fundamentals

#TensorFlow

תהליך שכולל את השלבים הבאים:

להחליט אילו תכונות יכולות להועיל לאימון המודל.
המרת נתונים גולמיים ממערך הנתונים לגרסאות יעילות של התכונות האלה.

לדוגמה, תוכלו להחליט ש-temperature היא תכונה שימושית. לאחר מכן תוכלו להתנסות ביצירת קטגוריות כדי לבצע אופטימיזציה של מה שהמודל יכול ללמוד מטווחים שונים של temperature.

הנדסת פיצ'רים נקראת לפעמים חילוץ פיצ'רים או פיצ'ר.

אפשר ללחוץ על הסמל כדי לראות הערות נוספות לגבי TensorFlow.

ב-TensorFlow, בדרך כלל המשמעות של הנדסת פיצ'רים היא המרה של רשומות גולמיות של קובצי יומן למאגרי פרוטוקולים של tf.Example. ראו גם tf.Transform.

חילוץ פיצ'רים

המונח עמוס מדי באחת מההגדרות הבאות:

אחזור ייצוגים של תכונות ביניים שמחושבים על ידי ערכים של מודל ללא פיקוח או מודל שעבר אימון מראש (למשל, ערכים של שכבה מוסתרת ברשת נוירונים) לשימוש במודל אחר כקלט.
מילה נרדפת להנדסת תכונות.

חשיבות התכונות

#df

מילה נרדפת לחשיבות משתנה.

קבוצת פיצ'רים

#fundamentals

קבוצת התכונות שלפיהן מתבצע אימון המודל של למידת המכונה. לדוגמה, המיקוד, גודל הנכס ומצב הנכס יכולים להוות קבוצת תכונות פשוטה למודל שחוזה את מחירי הדיור.

מפרט תכונות

#TensorFlow

מיועד לחילוץ נתוני תכונות ממאגר הפרוטוקולים tf.Example. מכיוון שמאגר הנתונים הזמני של tf.Example הוא רק קונטיינר של נתונים, צריך לציין את הפרטים הבאים:

הנתונים לחילוץ (כלומר, המפתחות של התכונות)
סוג הנתונים (לדוגמה: מספר ממשי (float) או int)
האורך (קבוע או משתנה)

וקטור מאפיינים

#fundamentals

המערך של ערכי feature שכוללים דוגמה. הווקטור המאפיין הוא קלט במהלך האימון ובמהלך הסקה. לדוגמה, הווקטור המאפיין של מודל עם שתי תכונות נפרדות עשוי להיות:

[0.92, 0.56]

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט אחת.
שכבת הקלט מכילה שני צמתים, אחד שמכיל את הערך 0.92 והשני מכיל את הערך 0.56.

כל דוגמה מספקת ערכים שונים לווקטור המאפיין, ולכן הווקטור של המאפיין בדוגמה הבאה יכול להיות משהו כמו:

[0.73, 0.49]

הנדסת פיצ'רים (feature engineering) קובעת איך לייצג תכונות בווקטור המאפיין. לדוגמה, תכונה בינארית קטגורית עם חמישה ערכים אפשריים עשויה להיות מיוצגת באמצעות קידוד חד-פעמי (one-hot). במקרה כזה, החלק של וקטור המאפיין בדוגמה מסוימת יכלול ארבעה אפסים ו-1.0 יחיד במיקום השלישי, באופן הבא:

[0.0, 0.0, 1.0, 0.0, 0.0]

דוגמה נוספת, נניח שהמודל שלך מורכב משלוש תכונות:

תכונה בינארית קטגורית עם חמישה ערכים אפשריים שמיוצגים בקידוד חד-פעמי. לדוגמה: [0.0, 1.0, 0.0, 0.0, 0.0]
עוד תכונה בינארית קטגורית עם שלושה ערכים אפשריים שמיוצגים בקידוד חד-פעמי; לדוגמה: [0.0, 0.0, 1.0]
רכיב נקודה צפה (floating-point). לדוגמה: 8.3.

במקרה הזה, הווקטור המאפיין של כל דוגמה מיוצג על ידי תשעה ערכים. בהתאם לערכים לדוגמה ברשימה שלמעלה, הווקטור של המאפיין יהיה:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

פיצ'ר

התהליך של חילוץ תכונות ממקור קלט, כמו מסמך או סרטון, ומיפוי התכונות האלה לוקטור פיצ'רים.

חלק ממומחי למידת המכונה משתמשים בפיצ'ר כמילה נרדפת להנדסת פיצ'רים (feature engineering) או לחילוץ פיצ'רים.

למידה משותפת (Federated)

גישה של למידת מכונה מבוזרת שמאמנים מודלים של למידת מכונה באמצעות דוגמאות מבוזרות שנמצאות במכשירים כמו סמארטפונים. בלמידה משותפת, קבוצת משנה של מכשירים מורידה את המודל הנוכחי משרת תיאום מרכזי. המכשירים משתמשים בדוגמאות שמאוחסנות במכשירים כדי לבצע שיפורים במודל. לאחר מכן המכשירים מעלים את שיפורי המודל (אבל לא את דוגמאות האימון) לשרת התיאום, שם הם נצברים יחד עם עדכונים אחרים כדי ליצור מודל גלובלי משופר. אחרי הצבירה, אין יותר צורך בעדכוני המודל שמחושבים על ידי מכשירים, ואפשר למחוק אותם.

מכיוון שדוגמאות האימון אף פעם לא מועלות, הלמידה המשותפת פועלת לפי עקרונות הפרטיות של איסוף נתונים ממוקד והגבלה על איסוף המידע.

במדריך הזה תוכלו לקרוא מידע נוסף על למידה משותפת.

לולאת משוב

#fundamentals

בלמידת מכונה, מצב שבו החיזויים של המודל משפיעים על נתוני האימון של אותו מודל או של מודל אחר. לדוגמה, מודל שממליץ על סרטים ישפיע על הסרטים שאנשים יראו, וזה ישפיע על המודלים הבאים של המלצות על סרטים.

רשת זרימה קדימה (FFN)

רשת נוירונים ללא חיבורים מחזוריים או רקורסיביים. לדוגמה, רשתות נוירונים עמוקות מסורתיות הן רשתות נוירונים מלאכותיות. השוואה לרשתות נוירונים חוזרות, שהן מחזוריות.

למידה מכמה דוגמאות

גישה של למידת מכונה, שלרוב משמשת לסיווג אובייקטים, שנועדה לאמן מסווגים יעילים על סמך מספר קטן של דוגמאות אימון בלבד.

למידע נוסף, אפשר לקרוא על למידה מדוגמה אחת ולמידה ללא צילום (zero-shot)..

הנחיות מכמה דוגמאות

#language

#generativeAI

הנחיה שמכילה יותר מדוגמה אחת ('מעט'), שממחישה איך מודל השפה הגדול (LLM) צריך להגיב. לדוגמה, ההנחיה הארוכה הבאה מכילה שתי דוגמאות שמראות איך מודל שפה גדול (LLM) עונה על שאילתה.

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`צרפת: EUR`	דוגמה אחת.
`בריטניה: GBP`	דוגמה נוספת.
`הודו:`	השאילתה עצמה.

יצירת הנחיות מכמה דוגמאות בדרך כלל מניבה תוצאות רצויות יותר מאשר יצירת הנחיות מאפס ויצירת הנחיות מדוגמה אחת. עם זאת, כדי ליצור הנחיות מכמה דוגמאות צריך הנחיה ארוכה יותר.

הנחיה עם כמה דוגמאות (Few-shot) היא סוג של למידה בכמה דוגמאות, שמיושמת בלמידה מבוססת-הנחיות.

כינור

#language

ספריית הגדרות המבוססת על Python, שמגדירה את הערכים של פונקציות ומחלקות ללא קוד או תשתית פולשניים. במקרה של Pax – ובסיסי קוד אחרים של למידת מכונה – הפונקציות והמחלקות האלה מייצגות מודלים ו-training היפר-פרמטרים.

Fiddle מניח שבסיסי קוד של למידת מכונה מחולקים בדרך כלל ל:

קוד הספרייה, שמגדיר את השכבות ואת כלי האופטימיזציה.
קוד 'דבק' של מערך הנתונים, שקורא לספריות ומחבר את כל הרכיבים יחד.

Fiddle מתעד את מבנה הקריאה של קוד החיבור בצורה שלא נבדקת ולא ניתנת לשינוי.

כוונון עדין

#language

#image

#generativeAI

מעבר אימון נוסף שספציפי למשימה, בוצע על מודל שעבר אימון מראש כדי לצמצם את הפרמטרים לתרחיש ספציפי לדוגמה. לדוגמה, רצף האימון המלא של מודלים גדולים של שפה (LLM) הוא:

אימון מראש: אימון מודל שפה גדול על מערך נתונים כללי נרחב, כמו כל דפי ויקיפדיה באנגלית.
כוונון עדין: מאמנים את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו מענה לשאילתות רפואיות. בדרך כלל כוונון עדין כולל מאות או אלפי דוגמאות שמתמקדות במשימה הספציפית.

דוגמה נוספת, רצף האימון המלא של מודל תמונה גדול הוא:

אימון מראש: אימון מודל תמונה גדול על מערך נתונים כללי נרחב של תמונה, כמו כל התמונות ב-Wikimedia Commons.
כוונון: מאמנים את המודל שעבר אימון מראש לבצע משימה ספציפית, כמו יצירת תמונות של אורקות.

כוונון עדין יכול לכלול כל שילוב של השיטות הבאות:

שינוי כל הפרמטרים הקיימים של המודל שעבר אימון מראש. פעולה זו נקראת לפעמים כוונון עדין.
שינוי רק חלק מהפרמטרים הקיימים של המודל שעבר אימון מראש (בדרך כלל השכבות הקרובות ביותר לשכבת הפלט), תוך שמירה על שאר הפרמטרים הקיימים ללא שינוי (בדרך כלל השכבות הקרובות ביותר לשכבת הקלט). למידע נוסף, אפשר לקרוא על כוונון יעיל בפרמטרים.
הוספת שכבות נוספות, בדרך כלל מעל השכבות הקיימות הקרובות ביותר לשכבת הפלט.

כוונון עדין הוא סוג של למידת העברה. לכן, כוונון עדין עשוי להשתמש בפונקציית אובדן, או בסוג מודל שונה מזה שמשמש לאימון המודל שעבר אימון מראש. לדוגמה, תוכלו לכוונן מודל של תמונות גדולות שעבר אימון מראש כדי ליצור מודל רגרסיה שיחזיר את מספר הציפורים בתמונת קלט.

השוו בין כוונון עדין בעזרת המונחים הבאים:

פשתן

#language

ספרייה בקוד פתוח עם ביצועים גבוהים ללמידה עמוקה (Deep Learning) המבוססת על JAX. Flax מספקת פונקציות לאימון רשתות נוירונים וגם שיטות להערכת הביצועים.

פלקספורמר

#language

ספריית בקוד פתוח של Transformer, שנבנתה על Flax, ומיועדת בעיקר לעיבוד שפה טבעית (NLP) ולמחקר רב-אופני.

מחיקת השער

#seq

החלק בתא זיכרון לטווח קצר שמווסת את זרימת המידע בתא. המערכת שוכחת את השערים ושומרת על ההקשר באמצעות החלטה איזה מידע למחוק ממצב התא.

softmax מלא

מילה נרדפת ל-softmax.

השוו לדגימת מועמדים.

שכבה מחוברת

שכבה מוסתרת שבה כל צומת מחובר לכל הצומת בשכבה המוסתרת הבאה.

שכבה שמחוברת באופן מלא נקראת גם שכבה צפופה.

טרנספורמציה של פונקציה

פונקציה שמקבלת פונקציה כקלט ומחזירה כפלט פונקציה שעברה טרנספורמציה. JAX משתמש בטרנספורמציות של פונקציות.

G

GAN

קיצור של generative Adversarial Network (רשת נגד למידה גנרטיבית).

הכללה

#fundamentals

היכולת של המודל לבצע חיזויים נכונים על נתונים חדשים שלא נצפו בעבר. מודל שאפשר ליצור כללי הוא המודל ההפוך למודל שמבצעים התאמות.

לוחצים על הסמל כדי להציג הערות נוספות.

מאמנים מודל על הדוגמאות שניתנות בערכת האימון. כתוצאה מכך, המודל לומד את הייחודיות של הנתונים בקבוצת האימון. בעיקרון, הכללה שואלת אם המודל יכול להפיק חיזויים טובים לגבי דוגמאות שלא בקבוצת האימון.

כדי לעודד הכללה, הסדרת הנתונים עוזרת למודל לאמן בדיוק את הנתונים בערכת האימון.

עקומת הכללה

#fundamentals

תרשים של הפסד אימון והפסד באימות כפונקציה של מספר איטרציות.

עקומת הכללה יכולה לעזור לזהות התאמה אפשרית. לדוגמה, עקומת ההכללה הבאה מצביעה על התאמת יתר כי האובדן של האימות בסופו של דבר הופך להיות גבוה יותר באופן משמעותי מאובדן האימון.

גרף קרטזי שבו ציר ה-Y מסומן בתווית 'הפסד' וציר ה-X מסומן בתווית איטרציות. יופיעו שתי תרשימים. בתרשים אחד אפשר לראות את
אובדן האימון והשני מציג את אובדן האימות.
שתי התוכניות מתחילים בצורה דומה, אבל בסופו של דבר שיעור האובדן באימון יורד הרבה יותר נמוך מההפסד באימות.

מודל ליניארי כללי

הכללה של מודלים של רגרסיה של ריבועים פחות, שמבוססים על רעש גאוסיאני, לסוגי מודלים אחרים על סמך סוגים אחרים של רעש, כמו רעש פואסון או רעש קטגורי. דוגמאות למודלים ליניאריים כלליים:

רגרסיה לוגיסטית
רגרסיה רב-שלבית
רגרסיה של ריבועים לפחות

אפשר למצוא את הפרמטרים של מודל ליניארי כללי באמצעות אופטימיזציה קדומה.

מודלים ליניאריים כלליים מייצגים את המאפיינים הבאים:

החיזוי הממוצע של מודל הרגרסיה האופטימלי של הריבועים הפחותים שווה לתווית הממוצעת בנתוני האימון.
ההסתברות הממוצעת שחזויה לפי מודל הרגרסיה הלוגיסטית האופטימלית שווה לתווית הממוצעת בנתוני האימון.

הכוח של מודל ליניארי כללי מוגבל על ידי התכונות שלו. בניגוד למודל עומק, מודל ליניארי כללי לא יכול "ללמוד תכונות חדשות".

רשת למידה חישובית גנרטיבית (GAN)

מערכת ליצירת נתונים חדשים שבהם מחולל יוצר נתונים וכלי להבחנה קובע אם הנתונים שנוצרו תקפים או לא חוקיים.

בינה מלאכותית גנרטיבית

#language

#image

#generativeAI

תחום מתפתח ומהנה ללא הגדרה רשמית. עם זאת, רוב המומחים מסכימים שמודלים של בינה מלאכותית גנרטיבית יכולים ליצור (ליצור) תוכן שכולל את כל הסוגים הבאים:

מורכב
קוהרנטית
מקורית

לדוגמה, מודל של בינה מלאכותית גנרטיבית יכול ליצור תמונות או מאמרים מתוחכמים.

גם כמה טכנולוגיות קודמות, כולל LSTM וRNN, יכולות ליצור תוכן מקורי וקוהרנטי. חלק מהמומחים מתייחסים לטכנולוגיות הקודמות האלה כאל בינה מלאכותית גנרטיבית, ויש אחרים שמרגישים ש-AI גנרטיבי אמיתי דורש פלט מורכב יותר ממה שהטכנולוגיות הקודמות יכולות לייצר.

השוו בין למידת מכונה חזויה.

מודל גנרטיבי

בפועל, מודל שעושה אחת מהפעולות הבאות:

יוצר (יוצר) דוגמאות חדשות ממערך הנתונים לאימון. לדוגמה, מודל גנרטיבי יכול ליצור שירה אחרי אימון על מערך נתונים של שירים. הקטגוריה הזו כוללת גם את החלק של המחולל מרשת נגד תוכנות זדוניות גנרטיבית.
ההגדרה קובעת את הסבירות שדוגמה חדשה תגיע מקבוצת האימון או שנוצרה מאותו מנגנון שיצר את קבוצת האימון. לדוגמה, אחרי אימון על מערך נתונים שמורכב ממשפטים באנגלית, מודל גנרטיבי יכול לקבוע את ההסתברות שקלט חדש הוא משפט תקף באנגלית.

מודל גנרטיבי יכול להבחין באופן תיאורטי את ההתפלגות של דוגמאות או תכונות מסוימות במערך נתונים. כלומר:

p(examples)

מודלים של למידה בלתי מונחית הם גנרטיביים.

השוו בין מודלים מפלה.

מחולל

תת-המערכת בתוך רשת גנרטיבית שיוצרת דוגמאות חדשות.

סתירה עם מודל מפלה.

טוהר ג'יני

#df

מדד שדומה ל-entropy. מפצלים משתמשים בערכים שנגזרים מטוהר ג'יני או מאנטרופיה כדי להרכיב תנאים לסיווג עצי החלטה. איסוף מידע נגזר מאנטרופיה. אין מונח מקביל ומקובל באופן אוניברסלי למדד שנגזר מחוסר תקינות של ג'יני

זיהום ג'יני נקרא גם מדד ג'יני, או פשוט gini.

ניתן ללחוץ על הסמל כדי לקבל פרטים מתמטיים על בוהק של ג'יני.

זיהום ג'יני (Gini) הוא ההסתברות לסיווג שגוי של קטע נתונים חדש שנלקח מאותה התפלגות. מידת הטוהר של הג'יני (gini) של קבוצה עם שני הערכים האפשריים 0 ו-1 (למשל, התוויות בבעיה של סיווג בינארי) מחושבת לפי הנוסחה הבאה:

I = 1 - (p² + q²) = 1 - (p² + (1-p)²)

איפה:

I הוא הטוהר הג'יני
p הוא השבר של דוגמאות מסוג '1'.
q הוא החלק מתוך הדוגמאות "0". שימו לב ש-q = 1-p

לדוגמה, נבחן את מערך הנתונים הבא:

100 תוויות (0.25 במערך הנתונים) מכילות את הערך 1
300 תוויות (0.75 במערך הנתונים) מכילות את הערך 0

לכן, הטוהר של הג'יני הוא:

p = 0.25
q = 0.75
I = 1 - (0.25² + 0.75²) = 0.375

כתוצאה מכך, לתווית אקראית מאותו מערך נתונים יש סיכוי של 37.5% לקבל סיווג שגוי, וסיכוי של 62.5% לסיווג נכון.

תווית מאוזנת לחלוטין (לדוגמה, 200 '0' ו-'1' עם 200 יחידות) תהיה בוהק של 0.5. לתווית לא מאוזנת מאוד תהיה טוהר ג'יני שקרוב ל-0.0.

מערך נתונים ברמת הזהב

קבוצת נתונים שנאספו באופן ידני ומתעדים אמת קרקע. צוותים יכולים להשתמש במערך נתונים אחד או יותר כדי להעריך את איכות המודל.

חלק ממערכי הנתונים המוזהבים מתעדים תת-דומיינים שונים של אמת קרקע. לדוגמה, מערך נתונים זהוב לסיווג תמונות עשוי לתעד את תנאי התאורה ואת רזולוציית התמונה.

GPT (טרנספורמר גנרטיבי שעבר אימון מראש)

#language

משפחה של מודלים גדולים של שפה (LLM) שמבוססים על טרנספורמר שפותחה על ידי OpenAI.

וריאציות של GPT יכולות לחול על כמה שיטות, כולל:

יצירת תמונות (לדוגמה, ImageGPT)
יצירת טקסט לתמונה (למשל, DALL-E).

הדרגתי

הווקטור של נגזרות חלקיות ביחס לכל המשתנים הבלתי תלויים. בלמידת מכונה, השיפוע הוא הווקטור של נגזרות חלקיות של פונקציית המודל. ההדרגתיות מצביעה על כיוון העלייה התלולה ביותר.

הצטברות הדרגתית

שיטת הפצה לאחור שמעדכנת את הפרמטרים רק פעם אחת בכל תקופה, ולא פעם אחת בכל איטרציה. לאחר העיבוד של כל מיני-אצווה, הצטברות הדרגתית פשוט מעדכנת את הסכום הכולל של הדרגתיות. לאחר מכן, לאחר עיבוד המיני-אצווה האחרון בתקופה האחרונה, המערכת מעדכנת את הפרמטרים על סמך המספר הכולל של כל השינויים ההדרגתיים.

צבירה הדרגתית שימושית כשגודל האצווה גדול מאוד בהשוואה לנפח הזיכרון הזמין לאימון. כשהזיכרון הוא בעיה, הנטייה הטבעית היא להקטין את כמות הקבצים. עם זאת, צמצום הכמות של האצווה בהפצה חוזרת רגילה מגדיל את מספר העדכונים של הפרמטרים. צבירה הדרגתית מאפשרת למודל להימנע מבעיות בזיכרון אבל להמשיך לאמן ביעילות.

עצים מוגברים הדרגתיים (החלטה) (GBT)

#df

סוג של יער החלטות שבו:

האימון מבוסס על הגדלה הדרגתית של התוכן.
המודל החלש הוא עץ החלטות.

הגדלה הדרגתית

#df

אלגוריתם אימון שבו מודלים חלשים מאומנים לשפר באופן איטרטיבי את האיכות של מודל חזק (לצמצם את האובדן). לדוגמה, מודל חלש יכול להיות מודל לינארי או מודל של עץ החלטות קטן. המודל החזקה הופך לסכום של כל המודלים החלשים שאימנו קודם לכן.

בשיטה הפשוטה ביותר של הגדלת הדרגתיות, בכל איטרציה מודל חלש עובר אימון כדי לחזות את שיפוע האובדן של המודל החזקה. לאחר מכן, הפלט של המודל החזקה מתעדכן על ידי חיסור ההדרגתיות החזויה, בדומה לירידה הדרגתית.

$$F_{0} = 0$$ $$F_{i+1} = F_i - \xi f_i $$

איפה:

$F_{0}$ הוא המודל החזקה מתחיל.
$F_{i+1}$ הוא המודל החזקה הבא.
$F_{i}$ הוא המודל החזקה הנוכחי.
$\xi$ הוא ערך בין 0.0 ל-1.0 שנקרא shrinkage, והוא מקביל לקצב הלמידה בירידה הדרגתית.
$f_{i}$ הוא המודל החלש שאומן לחזות את שיפוע ההפסד של $F_{i}$.

וריאציות מודרניות של הגדלת הדרגתיות כוללות גם את הנגזרת השנייה (הסיאנית) של אובדן בחישוב שלהם.

עצי החלטה בדרך כלל משמשים כמודלים חלשים של הגדלה הדרגתית. ראו עצים מוגברים הדרגתיים (החלטה).

חיתוך הדרגתי

#seq

מנגנון נפוץ לצמצום בעיית הדרגתיות מתפוצצת על ידי הגבלה מלאכותית (החלקה) של הערך המקסימלי של הדרגתיות כשמשתמשים בירידה הדרגתית כדי לאמן מודל.

ירידה הדרגתית

#fundamentals

שיטה מתמטית לצמצום הפסד. תהליך הירידה ההדרגתי משנה באופן חזרתי את המשקולות ואת הטיות, וכך מוצא בהדרגה את השילוב הטוב ביותר כדי למזער את האובדן.

תהליך הירידה ההדרגתי הוא ישן יותר – הרבה, הרבה יותר ישן – מלמידת מכונה.

תרשים

#TensorFlow

ב-TensorFlow, מפרט מחשוב. הצמתים בתרשים מייצגים פעולות. הקצוות מכוונים ומייצגים העברה של התוצאה של פעולה (Tensor) כאופרנד לפעולה אחרת. אפשר להשתמש ב-TensorBoard כדי להציג תרשים באופן חזותי.

ביצוע תרשים

#TensorFlow

סביבת תכנות של TensorFlow שבה התוכנה יוצרת קודם תרשים ואז מפעילה את כל התרשים או חלק ממנו. הרצת התרשים היא מצב הביצוע שמוגדר כברירת מחדל ב-TensorFlow 1.x.

השוו בין ביצוע eene.

המדיניות בנושא אלגוריתם חמדן

#rl

בלמידת חיזוק, מדיניות שבוחרת תמיד את הפעולה עם ההחזר הגבוה ביותר הצפוי.

אמת קרקע

#fundamentals

מציאות.

מה שקרה בפועל.

לדוגמה, נבחן מודל של סיווג בינארי שחוזה אם תלמיד בשנה הראשונה באוניברסיטה יסיים את הלימודים בתוך 6 שנים. האמת לגבי המודל הזה היא אם התלמיד סיים את הלימודים בתוך שש שנים או לא.

לוחצים על הסמל כדי להציג הערות נוספות.

אנחנו מעריכים את איכות המודל מול האמת. עם זאת, האמת היסודית לא תמיד מלאה, ובאמת נכונה. לדוגמה, נבחן את הדוגמאות הבאות לפגמים אפשריים לאמת קרקע:

בדוגמה של סיום הלימודים, האם אנחנו בטוחים שרשומות הסיום של כל תלמיד/ה תמיד נכונות? האם ניהול הרשומות של האוניברסיטה לא תקין?
נניח שהתווית היא ערך של נקודה צפה (floating-point) שנמדד באמצעות מכשירים (למשל, ברומטרים). איך אנחנו יכולים להיות בטוחים שכל מכשיר מכויל באופן זהה, או שכל מדידה בוצעה באותן נסיבות?
אם התווית היא עניין של דעה אנושית, איך אנחנו יכולים להיות בטוחים שכל מדרג אנושי מעריך אירועים באותו אופן? כדי לשפר את העקביות, לפעמים מתערבים מדרגים אנושיים של מומחים.

הטיית שיוך בקבוצה

#fairness

בהנחה שמה שקורה לאדם פרטי, נכון גם לכל מי שנמצא בקבוצה. אם משתמשים בדגימת נוחות לאיסוף נתונים, אפשר להחמיר את ההשפעות של הטיות בשיוך קבוצתי. במדגם לא מייצג, ניתן להוסיף קרדיטים שלא משקפים את המציאות.

ראו גם הטיה והומוגניות של קבוצה מחוץ לקבוצה והטיה בתוך הקבוצה.

H

הזיה

#language

יצירת פלט שנראה הגיוני אבל למעשה שגוי על ידי מודל בינה מלאכותית גנרטיבית, שמתייעץ לכאורה לגבי העולם האמיתי. לדוגמה, מודל של בינה מלאכותית גנרטיבית שטוען שברק אובמה מת ב-1865 הוא הזות.

גיבוב (hashing)

בלמידת מכונה, מנגנון לחלוקה לקטגוריות של נתונים קטגוריים, במיוחד כשמספר הקטגוריות גדול, אבל מספר הקטגוריות שמופיעות בפועל במערך הנתונים קטן יחסית.

לדוגמה, ב-Earth יש כ-73,000 זני עצים. אפשר לייצג כל אחד מ-73,000 מינים של עצים ב-73,000 קטגוריות קטגוריות נפרדות. לחלופין, אם רק 200 מסוגי העצים האלה מופיעים בפועל במערך נתונים, אפשר להשתמש בגיבוב (hashing) כדי לחלק את זני העצים ל-500 קטגוריות אולי.

קטגוריה אחת יכולה להכיל מספר מינים של עצים. לדוגמה, גיבוב (hashing) עלול להוביל לאותה קטגוריה: באובב ומייפל אדום – שני מינים שונים מבחינה גנטית. בכל מקרה, גיבוב (hashing) עדיין הוא דרך טובה למפות קבוצות גדולות של קטגוריות למספר הקטגוריות שנבחר. הגיבוב הופך תכונה שמכילה מספר גדול של ערכים אפשריים למספר קטן הרבה יותר של ערכים, על ידי קיבוץ ערכים באופן דטרמיני.

היוריסטיקה

פתרון פשוט ויעיל לבעיה. לדוגמה, "באמצעות היוריסטיקה השגנו דיוק של 86%. כשעברנו לרשת נוירונים עמוקה, הדיוק עלה ל-98%".

שכבה נסתרת

#fundamentals

שכבה ברשת נוירונים בין שכבת הקלט (התכונות) לבין שכבת הפלט (החיזוי). כל שכבה מוסתרת מורכבת מנוירונים אחד או יותר. לדוגמה, רשת הנוירונים הבאה מכילה שתי שכבות נסתרות, הראשונה עם שלוש נוירונים והשנייה עם שני נוירונים:

רשת נוירונים עמוקה מכילה יותר משכבה מוסתרת אחת. לדוגמה, האיור שלמעלה הוא רשת נוירונים עמוקה כי המודל מכיל שתי שכבות נסתרות.

אשכולות היררכיים

#clustering

קטגוריה של אלגוריתמים של אשכולות שיוצרים עץ של אשכולות. אשכולות היררכיים מתאימים מאוד לנתונים היררכיים, כמו טקסונומיות בוטניות. יש שני סוגים של אלגוריתמים של אשכולות היררכיים:

אשכולות אגרגטיביים משייכים כל דוגמה לאשכול משלה, וממזגים באופן איטרטיבי את האשכולות הקרובים ביותר כדי ליצור עץ היררכי.
קיבוץ לאשכולות לפי מקבץ קודם את כל הדוגמאות לאשכול אחד, ואז מחלק את האשכול באופן חזרתי לעץ היררכי.

השוו בין אשכולות מבוססי מרכז.

אובדן צירים

משפחה של loss משמשת לסיווג, שנועדה לדאוג לכך שגבול ההחלטה יהיה רחוק ככל האפשר מכל דוגמה לאימון, וכך למקסם את המרווח בין הדוגמאות לגבולות. מכונות KSVM משתמשות באובדן ציר (או בפונקציה קשורה, כמו אובדן צירים מרובעים). בסיווג בינארי, הפונקציה של אובדן צירים מוגדרת כך:

$$\text{loss} = \text{max}(0, 1 - (y * y'))$$

כאשר y הוא התווית האמיתית, -1 או +1, ו-y' הוא הפלט הגולמי של מודל המסווג:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

כתוצאה מכך, תרשים של אובדן צירים לעומת (y * y') נראה כך:

תרשים קרטזי שמורכב משני קטעי קו מחוברים. קטע
השורה הראשונה מתחיל ב-(3, 4) ומסתיים ב-(1, 0). קטע הקו השני
מתחיל ב-(1, 0) וממשיך ללא הגבלת זמן עם שיפוע
של 0.

הטיה היסטורית

#fairness

סוג של הטיה שכבר קיימת בעולם ונחשפה למערך נתונים. ההטיות האלה נוטים לשקף סטריאוטיפים תרבותיים קיימים, אי שוויון דמוגרפי ודעות קדומות כנגד קבוצות חברתיות מסוימות.

לדוגמה, כדאי להשתמש במודל סיווג שחוזה אם מועמד להלוואה יקבל את ברירת המחדל של ההלוואה, שעבר אימון על נתונים היסטוריים של ברירת מחדל להלוואות משנות ה-80 של המאה ה-20, מהבנקים המקומיים, ובשתי קהילות שונות. אם מועמדים בעבר מקהילה א' היו בעלי סבירות גבוהה פי 6 למלא הלוואות בהשוואה למועמדים מקהילה ב', יכול להיות שהמודל ילמד הטיה היסטורית והסיכוי שהמודל יאשר הלוואות בקהילה א' היה נמוך יותר, גם אם התנאים ההיסטוריים שהובילו לשיעורי ברירת המחדל הגבוהים של הקהילה לא היו רלוונטיים יותר.

נתוני החזקה לצורך משפטי

דוגמאות שלא נעשה בהן שימוש מכוון ('לא בוטלה') במהלך האימון. מערך הנתונים של האימות ומערך הנתונים לבדיקה הם דוגמאות לנתוני השהיה. נתוני החזקה לצורך משפטי עוזרים להעריך את יכולת המודל ליצור הכללות על נתונים שאינם הנתונים שעליהם הוא אומן. האובדן של קבוצת ההפסדים מספק הערכה טובה יותר של האובדן במערך נתונים שלא נצפה מאשר ההפסד בקבוצת האימון.

מארח

#TensorFlow

#GoogleCloud

כשמאמנים מודל למידת מכונה באמצעות צ'יפים של מאיץ (מעבדי GPU או מעבדי TPU), החלק במערכת ששולט בשני הפריטים הבאים:

התהליך הכולל של הקוד.
חילוץ וטרנספורמציה של צינור עיבוד הנתונים.

המארח פועל בדרך כלל במעבד (CPU) ולא בצ'יפ מאיץ. המכשיר מבצע שינויים במרכזי האימון שבצ'יפים של המאיץ.

היפר-פרמטר

#fundamentals

המשתנים שאתם או שירות כוונון היפר-פרמטרים מתאימים במהלך רציפות עוקבות של אימון מודל. לדוגמה, קצב למידה הוא היפר-פרמטר. אפשר להגדיר את קצב הלמידה ל-0.01 לפני סשן אימון אחד. אם תגיעו למסקנה ש-0.01 גבוה מדי, תוכלו לשנות את קצב הלמידה ל-0.003 בסשן האימון הבא.

לעומת זאת, פרמטרים הם המשקלים השונים וההטיות השונות שהמודל לומד במהלך האימון.

היפר-מטוס

תחום שמפריד בין רווח לשני תת-מרחבים. לדוגמה, קו הוא היפר-מישור בשני ממדים ומישור הוא היפר-מישור בשלושה ממדים. בלמידת מכונה, בדרך כלל, היפר-מישור הוא הגבול שמפריד בין מרחב רב-ממדי. מכונות וקטוריות לתמיכה בליבה (kernel) משתמשות בהיפר-מישורים כדי להפריד בין סיווגים חיוביים לסיווגים שליליים, בדרך כלל במרחב עם מידות גבוהות.

I

כלומר

קיצור של הפצה עצמאית וזהה.

זיהוי תמונות, זיהוי תמונה

#image

תהליך שמסווג אובייקטים, תבניות או מושגים בתמונה. זיהוי תמונות נקרא גם סיווג תמונות.

למידע נוסף, ראו ML Practicum: סיווג תמונות.

מערך נתונים לא מאוזן

מילה נרדפת למערך נתונים עם איזון בכיתה.

הטיה מרומזת

#fairness

יצירת שיוך או הנחה באופן אוטומטי על סמך מודלים של מוחות וזיכרונות. הטיה מרומזת יכולה להשפיע על:

איך נאספים ומסווגים נתונים?
איך מערכות למידת מכונה תוכננו ומפתחים.

לדוגמה, כאשר בונים מסַווג לזיהוי תמונות מהחתונה, מהנדס יכול להשתמש בנוכחות של שמלה לבנה בתמונה. יחד עם זאת, שמלות לבנות נהוגות רק בתקופות מסוימות ובתרבויות מסוימות.

ראו גם הטיית אישור.

יישום

חישובים של הערך בצורה קצרה

חוסר תאימות של מדדי הוגנות

#fairness

הרעיון שכמה מושגים של הוגנות אינם תואמים זה לזה, ואי אפשר למלא אותם בו-זמנית. כתוצאה מכך, אין מדד אוניברסלי אחד לכמת את ההוגנות שאפשר להחיל על כל הבעיות בלמידת מכונה.

אומנם הפעולה הזאת יכולה להיראות מיישמת, אבל חוסר התאמה של מדדי הוגנות לא מרמז על כך שמאמצים להוגנות לא מניבים תוצאות. במקום זאת, נראה שיש להגדיר הוגנות לפי הקשר לבעיה נתונה בלמידת מכונה, במטרה למנוע פגיעה ספציפית בתרחישים לדוגמה שלה.

לדיון מפורט יותר בנושא הזה אפשר לקרוא את המאמר "האפשרות (ה שאפשר) של הוגנות".

למידה בהקשר

#language

#generativeAI

מילה נרדפת להנחיות מכמה דוגמאות.

מופצת באופן עצמאי וזהה (i.d)

#fundamentals

נתונים הנובעים מהתפלגות שלא משתנה, וכשכל ערך שמשורטט לא תלוי בערכים שנשלפו בעבר. Ii.d. הוא הגז האידיאלי של למידת מכונה – מבנה מתמטי שימושי, שכמעט אף פעם לא נמצא בדיוק בעולם האמיתי. לדוגמה, התפלגות המבקרים בדף אינטרנט עשויה להיות כלומר במהלך פרק זמן קצר. כלומר, ההתפלגות לא משתנה במהלך חלון הזמן הקצר הזה, ובדרך כלל ביקור של אדם אחד תלוי בביקור של אדם אחר. עם זאת, אם מרחיבים את חלון הזמן, עשויים להופיע הבדלים עונתיים בין המבקרים בדף האינטרנט.

ניתן לעיין גם במאמר לא תחנה.

הוגנות אישית

#fairness

מדד של הוגנות שבודק אם אנשים דומים מסווגים באופן דומה. לדוגמה, יכול להיות שבאקדמיה של ברודינגכדי לעמוד בדרישות הוגנות, לוודא ששני תלמידים בעלי ציונים זהים וציוני בחינות סטנדרטיים צפויים לקבל את כולם במידה שווה.

חשוב לשים לב שההוגנות האישית מסתמכת אך ורק על האופן שבו מגדירים 'דמיון' (במקרה הזה, הציונים וציוני המבחן), ויש סיכון של יצירת בעיות חדשות הוגנות אם במדדי הדמיון מפספסים מידע חשוב (למשל, סדר הפרטים של התלמידים).

ראו "יושרה באמצעות מוּדעוּת" לדיון מפורט יותר לגבי הוגנות אינדיבידואלית.

הֶקֵּשׁ,

#fundamentals

בלמידת מכונה, תהליך יצירת תחזיות על ידי החלת מודל מאומן על דוגמאות ללא תווית.

להשערה יש משמעות שונה מעט בסטטיסטיקה. למידע נוסף, אפשר לעיין ב מאמר בוויקיפדיה על מסקנות סטטיסטיות.

נתיב ההסקה

#df

בעץ ההחלטות, במהלך הסקה, המסלול דוגמה מסוימת לוקח מהרמה הבסיסית (root) אל תנאים אחרים, שמסתיים בעל. לדוגמה, בעץ ההחלטות הבא, החיצים העבים יותר מייצגים את נתיב ההסקה של דוגמה עם ערכי המאפיינים הבאים:

x = 7
y = 12
z = -3

נתיב ההֶקֵּשׁ באיור הבא עובר בין שלושה תנאים לפני הגעה לעה (Zeta).

עץ החלטות שמורכב מארבעה תנאים וחמישה עלים.
התנאי הבסיסי הוא (x > 0). מכיוון שהתשובה היא 'כן',
נתיב ההסקה עובר מהשורש לתנאי הבא (y > 0).
מכיוון שהתשובה היא 'כן', נתיב ההסקה עובר
לתנאי הבא (z > 0). מכיוון שהתשובה היא 'לא', נתיב ההסקה
עובר לצומת הטרמינל שלו, שהוא העלה (Zeta).

שלושת החיצים העבים מראים את נתיב ההסקה.

איסוף מידע

#df

ביערות החלטות, ההפרש בין אנטרופיה של צומת לבין הסכום המשוקלל (לפי מספר הדוגמאות) של האנטרופיה של צומתי הצאצאים שלו. האנטרופיה של הצומת היא האנטרופיה של הדוגמאות באותו צומת.

לדוגמה, נבחן את ערכי האנטרופיה הבאים:

האנטרופיה של צומת ההורה = 0.6
אנטרופיה של צומת צאצא אחד עם 16 דוגמאות רלוונטיות = 0.2
ב-צומת צאצא אחר עם 24 דוגמאות רלוונטיות = 0.1

לכן 40% מהדוגמאות נמצאות בצומת צאצא אחד ו-60% נמצאות בצומת צאצא אחר. לכן:

סכום האנטרופיה המשוקללת של צומתי צאצא = (0.4 * 0.2) + (0.6 * 0.1) = 0.14

כלומר, כמות המידע שמתקבלת היא:

השגת מידע = אנטרופיה של צומת הורה – סכום אנטרופיה משוקלל של צומתי צאצא
רווח מידע = 0.6 - 0.14 = 0.46

רוב הפיצולים רוצים ליצור תנאים שממקסמים את קבלת המידע.

הטיה בתוך הקבוצה

#fairness

הצגת חלקיות על הקבוצה של עצמך או על המאפיינים שלו. אם בודקים או מדרגים כוללים חברים, בני משפחה או עמיתים של מפתח למידת המכונה, הטיה בתוך הקבוצה עשויה לשלול את תוקף בדיקת המוצרים או את מערך הנתונים.

הטיה בתוך קבוצה היא סוג של הטיה בשיוך קבוצתי. ראו גם הטיה והומוגניות של קבוצה מחוץ לקבוצה.

מחולל קלט

מנגנון שבאמצעותו הנתונים נטענים לרשת נוירונים.

אפשר להתייחס למחולל קלט כרכיב שאחראי לעיבוד נתונים גולמיים לטנזטורים שעוברים איטרציה כדי ליצור קבוצות לאימון, להערכה ולהסקת מסקנות.

שכבת קלט

#fundamentals

השכבה של רשת נוירונים שבה שמור וקטור המאפיין. כלומר, שכבת הקלט מספקת דוגמאות לאימון או להסקה. לדוגמה, שכבת הקלט ברשת הנוירונים הבאה מורכבת משתי תכונות:

ארבע שכבות: שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

תנאי מוגדר

#df

בעץ החלטות, תנאי שבודק אם יש פריט אחד בקבוצת פריטים. לדוגמה, הדוגמה הבאה היא תנאי מוגדר:

  house-style in [tudor, colonial, cape]

במהלך ההסקה, אם הערך של התכונה בסגנון בית הוא tudor או colonial או cape, התנאי הזה יהיה 'כן'. אם הערך של המאפיין 'סגנון בית' הוא משהו אחר (למשל, ranch), התנאי הזה מקבל את הערך No.

תנאים קבועים בדרך כלל מובילים לעצי קבלת החלטות יעילים יותר מאשר תנאים שבודקים תכונות של קידוד בקידוד חם אחד.

מכונה

example מילה נרדפת.

כוונון לפי הוראות

#generativeAI

סוג של כוונון עדין שמשפר את היכולת של מודל בינה מלאכותית גנרטיבית לפעול לפי ההוראות. כוונון של הוראות כולל אימון של המודל לפי סדרה של הנחיות להוראה, שבדרך כלל כוללות מגוון רחב של משימות. לאחר מכן, המודל שמכוונן לפי הוראות נוטה ליצור תשובות מועילות להנחיות מאפס במגוון משימות.

השוו והבדילו עם:

בינה מלאכותית

#fundamentals

היכולת להסביר או להציג לאדם מודל של למידת מכונה במונחים מובנים.

למשל, רוב המודלים של רגרסיה ליניארית ניתנות להבנה גבוהה. (כל מה שצריך לעשות הוא לבדוק את המשקולות לכל מאפיין). גם ביערות החלטה ניתן להבין בצורה משמעותית. עם זאת, חלק מהמודלים דורשים המחשה מתוחכמת כדי שיהיה אפשר לפרש את התוכן.

תוכלו להשתמש בכלי לפירוש הנתונים (LIT) כדי לפרש מודלים של למידת מכונה.

הסכם בין המדרגים

מדידה של התדירות שבה מדרגים אנושיים מסכימים כשהם מבצעים משימה. אם המדרגים לא מסכימים, ייתכן שצריך לשפר את הוראות המשימה. נקרא גם הסכם בין המשתמשים שהוספו הערות או אמינות בין המדרגים. ראו גם Kappa של קרן, שהוא אחד המדידות הפופולריות ביותר של הסכמים בין תעריפים.

הצטלבות דרך איחוד (IoU)

#image

הצטלבות של שתי קבוצות חלקי האיחוד שלהן. במשימות זיהוי תמונות של למידת מכונה, IoU משמש למדידת הדיוק של התיבה התוחמת של המודל ביחס לתיבה התוחמת ground-truth. במקרה הזה, ה-IoU של שתי התיבות הוא היחס בין האזור החופף לשטח הכולל, והערכים שלו נעשים בין 0 (ללא חפיפה בין התיבה החזויה לבין התיבה התוחמת עם הקרקע החזויה) ל-1 (החיזוי של התיבה התוחמת והתיבה התוחמת של חוקי הקרקע יש את אותן הקואורדינטות בדיוק).

למשל, בתמונה הבאה:

התיבה התוחמת החזויה (הקואורדינטות המפרידות בין המיקום שבו המודל חוזים את טבלת הלילה בציור) מתוארת בסגול.
התיבה התוחמת בקרקע (הקואורדינטות המפרידות את המיקום של שולחן הלילה בציור) מתוארת בירוק.

ציור של ואן גוך ב'חדר השינה של וינסנט בארל', עם שתי
תיבות מחוברות שונות מסביב לשולחן הלילה שליד המיטה. התיבה התוחמת בזמן אמת (בירוק) שמקיפה את שולחן הלילה בצורה מושלמת. התיבה התוחמת החזויה (בסגול) מקוזזת ב-50% כלפי מטה ומצד ימין
של התיבה התוחמת בקרקע. היא תוחמת את הרבעון הימני התחתון של טבלת הלילה, אבל מפספסת את שאר הטבלה.

כאן, נקודת החיתוך של התיבות התוחמות לחיזוי ואמת הקרקע (מתחת לשמאל) הוא 1, והאיחוד של התיבות התוחמות לחיזוי ואמת הקרקע (מתחת מימין) הוא 7, כך שה-IoU הוא $\frac{1}{7}$.

אותה תמונה כמו שלמעלה, אבל כל תיבה תוחמת מחולקת לארבעה
רבעונים. יש בסה"כ שבעה רבעונים, כי הריביע התחתון
הימני של התיבה התוחמת מהקרקע והריבוע השמאלי העליון של התיבה התוחמת החזויה חופפים זה לזה. הקטע
החופף הזה (מודגש בירוק) מייצג את הצומת, ויש לו שטח של 1.

IoU

קיצור של intersection over union.

מטריצת פריטים

#recsystems

במערכות ההמלצות, מטריצה של וקטורים של הטמעה שנוצרה על ידי פירוק לגורמים של מטריצות, וכוללת אותות לטנטיים לגבי כל פריט. כל שורה במטריצת הפריטים מכילה את הערך של מאפיין סמוי אחד לכל הפריטים. לדוגמה, נבחן מערכת המלצות על סרטים. כל עמודה במטריצת הפריטים מייצגת סרט אחד. האותות הסמויים עשויים לייצג ז'אנרים, או שאולי יהיה קשה יותר לפרש אותות שכרוכים באינטראקציות מורכבות בין הז'אנר, הכוכבים, גיל הסרט או גורמים אחרים.

במטריצת הפריטים יש אותו מספר עמודות כמו במטריצת היעד שמפולחים לגורמים. לדוגמה, בהינתן מערכת המלצות לסרטים שמעריכה 10,000 כותרים של סרטים, מטריצת הפריטים תכלול 10,000 עמודות.

פריטים

#recsystems

במערכת המלצות, הישויות שמומלצות על ידי המערכת. לדוגמה, סרטונים הם הפריטים שמומלצים בחנות סרטונים, ואילו ספרים הם הפריטים שמומלצים על ידי חנות ספרים.

איטרציה

#fundamentals

עדכון יחיד של הפרמטרים של מודל – המשקלים והטיות של המודל – במהלך אימון. גודל האצווה קובע כמה דוגמאות המודל מעבד באיטרציה אחת. למשל, אם גודל האצווה הוא 20, אז המודל מעבד 20 דוגמאות לפני התאמת הפרמטרים.

כשמאמנים רשת נוירונים, איטרציה אחת כוללת את שני המעברים הבאים:

מעבר קדימה כדי להעריך הפסד באצווה אחת.
העברה לאחור (הפצה לאחור) לשינוי הפרמטרים של המודל על סמך ההפסד וקצב הלמידה.

J

JAX

ספריית מחשוב של מחשוב שמשלבת את XLA (Accelerated Linear Algebra) ומיועדת באופן אוטומטי למחשוב מספרי בעל ביצועים גבוהים. JAX מספק API פשוט וחזק לכתיבת קוד מספרי מואץ עם טרנספורמציות קומפוזביליות. JAX מספק תכונות כמו:

grad (הבחנה אוטומטית)
jit (אוסף 'בדיוק בזמן')
vmap (חלוקה אוטומטית לווקטורים או קיבוץ)
pmap (טעינה מקבילה)

JAX היא שפה להבעה ולחיבור של טרנספורמציות של קוד מספרי. הטרנספורמציות האלה אנלוגיות, אבל בהיקף נרחב הרבה יותר, לספריית NumPy של Python. (למעשה, ספריית .numpy של JAX היא מקבילה מבחינה פונקציונלית, אבל גרסה משוכתבת לחלוטין של ספריית Python NumPy).

JAX מתאים במיוחד להאצת משימות רבות של למידת מכונה על ידי הפיכת המודלים והנתונים לצורה שמתאימה במקבילות בין GPU וצ'יפים של מאיץ TPU.

ספריות Flax , Optax ו-Pax והרבה ספריות נוספות מבוססות על התשתית של JAX.

K

Keras

API פופולרי ללמידת מכונה של Python. Keras פועלת במספר מסגרות של למידה עמוקה (Deep Learning), כולל TensorFlow, שזמינה בתור tf.keras.

מכונות וקטורים לתמיכה בליבה (KSVMs)

אלגוריתם סיווג שמטרתו למקסם את השוליים בין ערכים חיוביים וסיווגים שליליים על ידי מיפוי וקטורים של נתוני קלט למרחב עם ממדים גבוהים יותר. לדוגמה, נבחן בעיית סיווג שבה במערך הנתונים של הקלט יש מאה מאפיינים. כדי להגדיל את השוליים בין סיווגים חיוביים ושליליים, KSVM יכולה למפות באופן פנימי את המאפיינים האלה למרחב עם מיליון מאפיינים. מכונות KSVM משתמשות בפונקציית אובדן שנקראת אובדן ציר.

נקודות מפתח

#image

הקואורדינטות של ישויות מסוימות בתמונה. לדוגמה, עבור מודל של זיהוי תמונות שמפריד בין מינים של פרחים, נקודות מפתח יכולות להיות המרכז של כל עלה כותרת, גזע, אבקן וכן הלאה.

אימות פי K-F

אלגוריתם לחיזוי היכולת של המודל לבצע הכללה לנתונים חדשים. הערך k בקיפול k מייצג את מספר הקבוצות שוות שאליהן מחלקים את הדוגמאות של מערך נתונים. כלומר, מאמנים ובודקים את המודל k פעמים. בכל סבב של אימון ובדיקות, קבוצת הבדיקה היא קבוצה שונה, וכל הקבוצות הנותרות הופכות לקבוצת האימון. לאחר K סבבים של אימון ובדיקה, מחשבים את הממוצע ואת סטיית התקן של מדדי הבדיקה שנבחרו.

למשל, נניח שמערך הנתונים מכיל 120 דוגמאות. נניח גם שאתם מחליטים להגדיר את k ל-4. לכן אחרי שמארגנים את הדוגמאות באופן אקראי, מחלקים את מערך הנתונים לארבע קבוצות שוות של 30 דוגמאות ועורכים ארבעה סבבי אימון/בדיקה:

מערך נתונים מחולק לארבע קבוצות שוות של דוגמאות. בסבב 1, שלוש הקבוצות הראשונות משמשות לאימון והקבוצה האחרונה משמשת לבדיקה. בסבב 2, שתי הקבוצות הראשונות והקבוצה האחרונה משמשות לאימון, והקבוצה השלישית משמשת לבדיקה. בסבב 3, הקבוצה הראשונה ושתי הקבוצות האחרונות משמשות לאימון, והקבוצה השנייה משמשת לבדיקה.
בסבב 4, הקבוצה הראשונה משמשת לבדיקה ושלוש הקבוצות האחרונות משמשות לאימון.

לדוגמה, Mean Squared Error (MSE) יכול להיות המדד המשמעותי ביותר למודל רגרסיה לינארי. לכן אפשר למצוא את הממוצע ואת סטיית התקן של ה-MSE בכל ארבעת הסיבובים.

K-כלומר

#clustering

אלגוריתם פופולרי של אשכולות שמקבץ דוגמאות בלמידה לא מונחית. המשמעות של אלגוריתם k-הוא בעצם את הדברים הבאים:

הוא קובע באופן איטרטיבי את נקודות המרכז (k) הטובות ביותר (שנקראות מרכזים).
מקצה כל דוגמה למרכז הסוג הקרוב ביותר. הדוגמאות הקרובות ביותר לאותו מרכז שייכות לאותה קבוצה.

האלגוריתם k-כלומר בוחר מיקומים מרכזיים כדי לצמצם את הריבוע המצטבר של המרחקים מכל דוגמה למיקום המרכזי שלה.

לדוגמה, נבחן את התרשים הבא של גובה הכלב ורוחב הכלב:

תרשים קרטזי עם כמה עשרות נקודות נתונים.

אם k=3, האלגוריתם k-כלומר יקבע שלושה מרכזים. כל דוגמה מוקצית למרכז העיר הקרוב ביותר, ומייצרות שלוש קבוצות:

אותה עלילה קרטזית כמו באיור הקודם, למעט
שנוספו בה שלושה מרכזים.
נקודות הנתונים הקודמות מקובצות לשלוש קבוצות נפרדות,
כשכל קבוצה מייצגת את הנתונים הכי קרובים למרכז
מסוים.

נניח שיצרן רוצה לקבוע את המידות האידיאליות לסוודרים קטנים, בינוניים וגדולים לכלבים. שלושת המרכזים מזהים את הגובה הממוצע והרוחב הממוצע של כל כלב באשכול הזה. לכן, סביר להניח שהיצרן יבסס את מידות סוודרים על שלושת המרכזים האלה. שימו לב שהמרכז של האשכול הוא בדרך כלל לא דוגמה באשכול.

באיורים הקודמים רואים k-כלומר לדוגמאות עם שתי תכונות בלבד (גובה ורוחב). שימו לב ש-k-יכול לקבץ דוגמאות בין תכונות רבות.

חציון K

#clustering

אלגוריתם של קיבוץ באשכולות שקשור מאוד ל-k-means. ההבדל בפועל בין שני התרחישים הוא:

כלומר, מרכזים נקבעים על ידי מזעור הריבועים של המרחק בין המועמד במרכז לבין כל אחת מהדוגמאות שלו.
בחציון k, צנטרואידים נקבעים על ידי מזעור המרחק בין המועמד הריכוזי לבין כל אחת מהדוגמאות שלו.

שימו לב שההגדרות של מרחק שונות גם הן:

k-פירושו של המרחק האוקלידי מהמרכז עד לדוגמה. (בשני ממדים, המשמעות של המרחק האוקלידיאני היא שימוש במשפט פיתגורס כדי לחשב את היתר.) לדוגמה, המרחק k-בין (2,2) ל-(5,-2) יהיה:

$$ {\text{Euclidean distance}} = {\sqrt {(2-5)^2 + (2--2)^2}} = 5 $$

k-median מסתמך על המרחק של מנהטן מהמרכז כדי להציג דוגמה. המרחק הזה הוא הסכום של ההפרשים המוחלטים בכל מימד. לדוגמה, המרחק החציוני k בין (2,2) ל-(5,-2) יהיה:

$$ {\text{Manhattan distance}} = \lvert 2-5 \rvert + \lvert 2--2 \rvert = 7 $$

L

תקינה₀

#fundamentals

סוג של סידור שמערער על המספר הכולל של משקולות שאינם אפס במודל. לדוגמה, על מודל עם 11 משקולות שאינן אפס יוטלו סנקציות על מודל דומה, עם 10 משקולות שהן לא אפס.

הרגולריזציה של L₀ נקראת לפעמים regularization L0-norm.

לוחצים על הסמל כדי להציג הערות נוספות.

במודלים גדולים, רנדומיזציה מסוג L₀ היא בדרך כלל לא פרקטית, כי רגולריזציה מסוג L₀ הופכת את האימון לבעיית אופטימיזציה בקמור.

הפסד ₁

#fundamentals

פונקציית הפסד שמחשבת את הערך המוחלט של ההפרש בין ערכי label בפועל לבין הערכים שמודל חוזים. לדוגמה, כך חישוב של הפסד _{L₁ באצווה של חמש דוגמאות:}

הערך בפועל של דוגמה	הערך החזוי של המודל	הערך המוחלט של דלתא
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = הפסד ₁ L

אובדן ₁ פחות רגיש לחריגים חשודי טעות מאשר הפסד _L₂.

Mean Absolute Error הוא אובדן ממוצע של L₁ לכל דוגמה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

תקינה₁

#fundamentals

סוג של regularization שמענישה משקולות ביחס לסכום הערך המוחלט של המשקולות. הרגולריזציה ₁ עוזרת להגביר את המשקולות של תכונות לא רלוונטיות או שכמעט לא רלוונטיות ל-0 בדיוק. תכונה עם משקל של 0 מוסרת מהמודל.

השוו עם L₂ רגולריזציה.

אובדן ₂ L

#fundamentals

פונקציית הפסד שמחשבת את הריבוע של ההפרש בין ערכי label בפועל לבין הערכים שמודל חוזים. לדוגמה, כך חישוב של הפסד _L2 באצווה של חמש דוגמאות:

הערך בפועל של דוגמה	הערך החזוי של המודל	ריבוע דלתא
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = הפסד ₂ L

בגלל ספירת הקולות, הפסדי ה-L₂ מגבירים את ההשפעה של חריגים חשודי טעות. כלומר, L₂ אובדן תגובה חזק יותר לחיזויים גרועים מאשר L₁ הפסד אחד לדוגמה, הפסד L₁ בקבוצה הקודמת יהיה 8 ולא 16. שימו לב שיוצא מן הכלל אחד מביא בחשבון 9 מתוך ה-16.

מודלים של רגרסיה בדרך כלל משתמשים באובדן L₂ כפונקציית הפסד.

השגיאה הממוצעת בריבוע היא אובדן הממוצע של L₂ לדוגמה. הפסד ריבועי הוא שם נוסף להפסד של L₂.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

תקינה₂

#fundamentals

סוג של סידור מחדש שמעניש משקולות ביחס לסכום הריבועים של המשקולות. הרגולריזציה של L₂ עוזרת לעודד משקלים חריגים (עם ערכים חיוביים או שליליים גבוהים) שקרובים ל-0 אבל לא בדיוק 0. תכונות עם ערכים קרובים מאוד ל-0 נשארות במודל, אבל לא משפיעות על התחזית של המודל באופן משמעותי.

₂ הרגולריזציה תמיד משפרת את הכללה במודלים לינאריים.

השוו עם L₁ רגיל.

label

#fundamentals

ב-למידת מכונה בפיקוח, החלק של ה"תשובה" או של ה "תוצאה" מדוגמה.

כל דוגמה עם תווית מורכבת מתכונה אחת או יותר ותווית. לדוגמה, במערך נתונים של זיהוי ספאם, התווית תכיל להיות 'ספאם' או 'לא ספאם'. במערך נתונים של גשם, התווית עשויה להיות כמות הגשם שירד בתקופה מסוימת.

דוגמה עם תווית

#fundamentals

דוגמה שכוללת תכונות אחת או יותר ותווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות לתוויות ממודל של הערכת בית, כאשר לכל אחת מהן יש שלוש תכונות ותווית אחת:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית	מחיר הבית (תווית)
3	2	15	345,000$
2	1	72	179,000$
4	2	34	392,000$

בלמידת מכונה בפיקוח, מודלים מאמנים על דוגמאות מתויגות ויוצרים תחזיות לגבי דוגמאות ללא תוויות.

יש להשוות בין דוגמאות עם תוויות לדוגמאות ללא תווית.

דליפת תווית

פגם בעיצוב של המודל, שבו פיצ'ר הוא שרת proxy לתווית. לדוגמה, כדאי להשתמש במודל סיווג בינארי שחוזה אם לקוח פוטנציאלי ירכוש מוצר מסוים. נניח שאחת מהתכונות של המודל היא ערך בוליאני בשם SpokeToCustomerAgent. בנוסף, נניח שסוכן הלקוח מוקצה רק אחרי שהלקוח הפוטנציאלי רכש בפועל את המוצר. במהלך האימון, המודל ילמד במהירות על הקשר בין SpokeToCustomerAgent לתווית.

למבדה

#fundamentals

מילה נרדפת לשיעור הנורמליזציה.

Lambda הוא מונח עמוס מדי. כאן מתמקדים בהגדרת המונח בארגון.

LaMDA (מודל שפה לאפליקציות דיאלוג)

#language

מודל שפה גדול (LLM) שמבוסס על טרנספורמר שפותח על ידי Google כדי ללמוד על מערך נתונים גדול של דיאלוג, שיכול ליצור תשובות ריאליסטיות בשיחות.

LaMDA: טכנולוגיית השיחות פורצת הדרך שלנו מספקת סקירה כללית.

ציוני דרך

#image

מילה נרדפת לנקודות מפתח.

מודל שפה

#language

model שמעריך את הסבירות לכך שmodel או רצף של אסימונים ברצף ארוך יותר.

לוחצים על הסמל כדי להציג הערות נוספות.

גם מודלים רבים שמעריכים טקסט הם לא אינטואיטיביים, אבל הם לא מודלים של שפה. לדוגמה, מודלים של סיווג טקסט ומודלים של ניתוח סנטימנטים הם לא מודלים של שפה.

מודל שפה גדול (LLM)

#language

מונח לא רשמי שאין לו הגדרה מחמירה, ובדרך כלל משמעותו מודל שפה שיש בו מספר גבוה של פרמטרים. חלק ממודלים גדולים של שפה (LLM) מכילים יותר מ-100 מיליארד פרמטרים.

לוחצים על הסמל כדי להציג הערות נוספות.

אולי תהיתם מתי מודל שפה הופך גדול מספיק כדי לקרוא לו מודל שפה גדול. בשלב הזה, אין שורה מוסכמת שמגדירה את מספר הפרמטרים.

רוב המודלים הגדולים של השפה (למשל, GPT) מבוססים על הארכיטקטורה של טרנספורמר.

מרחב לטנטי

#language

מילה נרדפת להטמעת המרחב.

שכבה

#fundamentals

קבוצה של נוירונים ברשת נוירונים. קיימים שלושה סוגים נפוצים של שכבות:

שכבת הקלט, שמספקת ערכים לכל התכונות.
שכבה מוסתרת אחת או יותר, שבה מוצאים קשרים לא ליניאריים בין התכונות לבין התווית.
שכבת הפלט, שמספקת את החיזוי.

לדוגמה, באיור הבא מוצגת רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת:

רשת נוירונים עם שכבת קלט אחת, שתי שכבות מוסתרות ושכבת פלט אחת. שכבת הקלט מורכבת משתי מאפיינים. השכבה הסמויה הראשונה מורכבת משלושה נוירונים והשכבה השנייה מורכבת משני נוירונים. שכבת הפלט מורכבת מצומת אחד.

ב-TensorFlow, שכבות הן גם פונקציות Python שמקבלות Tensors ואפשרויות הגדרה כקלט, ומייצרות tensors אחרים כפלט.

Layers API (tf.layers)

#TensorFlow

ממשק API של TensorFlow ליצירת רשת נוירונים עמוקה כהרכב של שכבות. ה-Layers API מאפשר ליצור סוגים שונים של שכבות, כמו:

tf.layers.Dense בשכבה שמחוברת באופן מלא.
tf.layers.Conv2D לשכבה קונבולוציה.

ה-Layers API פועל בהתאם למוסכמות ה-API של שכבות Keras. כלומר, מעבר לקידומת שונה, לכל הפונקציות ב-Layers API יש את אותם השמות והחתימות כמו המקבילות ב-Keraslayers API.

עלה

#df

כל נקודת קצה בעץ החלטות. בניגוד לתנאי, עלה לא מבצע בדיקה. במקום זאת, עלה הוא חיזוי אפשרי. עלה הוא גם הצומת הטרמינל של נתיב ההסקה.

לדוגמה, עץ ההחלטות הבא מכיל שלושה עלים:

עץ החלטות עם שני תנאים שמובילים לשלושה עלים.

כלי לחיזוי למידה (LIT)

כלי אינטראקטיבי להבנת מודלים ולהמחשה חזותית של נתונים.

אפשר להשתמש ב-LIT בקוד פתוח כדי לפרש מודלים או כדי להמחיש טקסט, תמונה ונתוני טבלאי.

קצב למידה

#fundamentals

מספר עם נקודה צפה (floating-point) שמציין לאלגוריתם הירידה ההדרגתית את מידת ההתאמה של המשקולות וההטיות בכל איטרציה. לדוגמה, קצב למידה של 0.3 ישנה את המשקולות וההטיות, פי 3, יותר מאשר קצב למידה של 0.1.

קצב הלמידה הוא היפר-פרמטר מפתח. אם קצב הלמידה יהיה נמוך מדי, האימון יימשך יותר מדי זמן. אם הגדרתם את קצב הלמידה גבוה מדי, בירידה ההדרגתית יש בדרך כלל בעיה להגיע לאיחוד.

יש ללחוץ על הסמל כדי לקבל הסבר מתמטי יותר.

במהלך כל איטרציה, האלגוריתם לירידה הדרגתית מכפיל את קצב הלמידה בהדרגתיות. המוצר שמתקבל נקרא שלב הדרגתי.

רגרסיה של ריבועים לפחות

מודל רגרסיה לינארי שאומן על ידי צמצום של L₂ אובדן.

ליניארי

#fundamentals

קשר בין שני משתנים או יותר שאפשר לייצג אך ורק באמצעות חיבור וכפל.

התרשים של קשר ליניארי הוא קו.

השוו ל-לא לינארי.

מודל לינארי

#fundamentals

model שמקצה model אחד לכל model ליצירת model. (מודלים לינאריים גם כוללים הטיה). לעומת זאת, הקשר בין תכונות לחיזויים במודלים עמוקים הוא בדרך כלל לא לינארי.

בדרך כלל קל יותר לאמן מודלים לינאריים והם מתורגמים יותר ממודלים עמוקים. עם זאת, מודלים עמוקים יכולים ללמוד על קשרים מורכבים בין תכונות.

רגרסיה לינארית ורגרסיה לוגיסטית הם שני סוגים של מודלים ליניאריים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

מודל ליניארי מבוסס על הנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

איפה:

y' הוא החיזוי הגולמי. (בסוגים מסוימים של מודלים ליניאריים, החיזוי הגולמי הזה ישתנה עוד יותר. לדוגמה, ראו רגרסיה לוגיסטית).
b הוא ההטיה.
w הוא משקל, כך ש-w₁ הוא המשקל של התכונה הראשונה, w₂ הוא המשקל של הישות השנייה, וכן הלאה.
x הוא feature, כך ש-x₁ הוא הערך של התכונה הראשונה, x₂ הוא הערך של התכונה השנייה וכן הלאה.

לדוגמה, נניח שמודל ליניארי לשלוש תכונות לומד את ההטיות והמשקולות הבאות:

b = 7
w₁ = -2.5
w₂ = -1.2
w₃ = 1.4

לכן, בהינתן שלוש תכונות (x₁, x₂ ו-x₃), המודל הלינארי משתמש במשוואה הבאה כדי ליצור כל חיזוי:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

נניח שדוגמה מסוימת מכילה את הערכים הבאים:

x₁ = 4
x₂ = -10
x₃ = 5

כשמחברים את הערכים האלה לנוסחה, נוצר חיזוי לדוגמה הזו:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

מודלים לינאריים כוללים לא רק מודלים שמשתמשים רק במשוואה לינארית כדי לבצע תחזיות, אלא גם קבוצה רחבה יותר של מודלים המשתמשים במשוואה לינארית רק כרכיב אחד בנוסחה שיוצרת תחזיות. לדוגמה, רגרסיה לוגיסטית לאחר העיבוד של החיזוי הגולמי (y) כדי ליצור ערך חיזוי סופי בין 0 ל-1, באופן בלעדי.

רגרסיה ליניארית

#fundamentals

סוג של מודל למידת מכונה שבו מתקיימים שני התנאים הבאים:

המודל הוא מודל לינארי.
החיזוי הוא ערך בנקודה צפה (floating-point). (זהו החלק של הרגרסיה של רגרסיה ליניארית).

בצעו השוואה בין רגרסיה ליניארית לבין רגרסיה לוגיסטית. בנוסף, השוו בין רגרסיה לבין סיווג.

LIT

קיצור של Learning preability Tool (LIT), שקודם לכן היה הכלי לפירוש השפה.

מודל שפה גדול (LLM)

#language

קיצור של large language model (מודל שפה גדול).

רגרסיה לוגיסטית

#fundamentals

סוג של מודל רגרסיה שחוזה הסתברות. למודלים של רגרסיה לוגיסטית יש את המאפיינים הבאים:

התווית היא קטגורית. המונח רגרסיה לוגיסטית בדרך כלל מתייחס לרגרסיה לוגיסטית בינארית, כלומר למודל שמחשב הסתברויות לתוויות עם שני ערכים אפשריים. רגרסיה לוגיסטית ריבוינומית היא וריאנט פחות נפוץ, שמחשב את הסתברויות לתוויות עם יותר משני ערכים אפשריים.
פונקציית האובדן במהלך האימון היא מחיקת יומנים. (אפשר למקם במקביל מספר יחידות של אובדן יומנים עבור תוויות עם יותר משני ערכים אפשריים).
למודל יש ארכיטקטורה ליניארית, ולא רשת נוירונים עמוקה. עם זאת, שאר ההגדרה הזו רלוונטית גם למודלים עמוקים שחוזים הסתברויות לתוויות קטגוריות.

לדוגמה, נבחן מודל רגרסיה לוגיסטי שמחשב את ההסתברות שאימייל קלט הוא ספאם או לא ספאם. במהלך ההסקה, נניח שהמודל חוזה את הערך 0.72. לכן המודל מבצע הערכה של:

סיכוי של 72% שהאימייל הוא ספאם.
סיכוי של 28% שהודעת האימייל היא לא ספאם.

מודל רגרסיה לוגיסטי מבוסס על ארכיטקטורת שני שלבים:

המודל יוצר חיזוי גולמי (y) על ידי החלת פונקציה לינארית של תכונות הקלט.
המודל משתמש בחיזוי הגולמי כקלט לפונקצייתsigmoid, שממירה את החיזוי הגולמי לערך בין 0 ל-1, לא כולל.

בדומה לכל מודל רגרסיה, מודל רגרסיה לוגיסטי חוזה מספר. עם זאת, המספר הזה בדרך כלל הופך לחלק ממודל סיווג בינארי באופן הבא:

אם המספר החזוי הוא גדול מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה החיובית.
אם המספר החזוי נמוך מסף הסיווג, מודל הסיווג הבינארי חוזה את המחלקה השלילית.

פונקציות הלוג'יט

הווקטור של תחזיות גולמיות (לא מנורמלות) שמודל סיווג יוצר, ובדרך כלל מועבר לפונקציית נירמול. אם המודל פותר בעיה של סיווג מרובה-מחלקות, פונקציות הלוג'יט בדרך כלל הופכות לקלט של הפונקציה softmax. בשלב הבא, הפונקציה softmax יוצרת וקטור של הסתברויות (מנורמלות) עם ערך אחד לכל מחלקה אפשרית.

אובדן תיעוד

#fundamentals

פונקציית ההפסד שמשמשת ברגרסיה לוגיסטית בינארית.

צריך ללחוץ על הסמל כדי לראות את החשבון.

הנוסחה הבאה מחשבת 'אובדן יומן':

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

איפה:

$(x,y)\in D$ הוא מערך הנתונים שמכיל דוגמאות רבות עם תוויות, שהן $(x,y)$ זוגות.
$y$ הוא התווית בדוגמה עם תווית. מכיוון שזו רגרסיה לוגיסטית, כל ערך של $y$ חייב להיות 0 או 1.
$y'$ הוא הערך החזוי (בין 0 ל-1, לא כולל), בהינתן קבוצת התכונות ב- $x$.

סיכויים לרישום ביומן

#fundamentals

הלוגריתם של הסיכויים לאירוע מסוים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

אם האירוע הוא הסתברות בינארית, הסיכויים מתייחסים ליחס בין ההסתברות להצלחה (p) להסתברות לכישלון (1-p). לדוגמה, נניח שלאירוע מסוים יש הסתברות של 90% להצלחה ו-10% הסתברות לכישלון. במקרה כזה, הסבירות מחושבת כך:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

סיכויי היומן הם פשוט הלוגריתם של הסיכויים. לפי המוסכמה, "לוגריתם" מתייחס ללוגריתם טבעי, אבל לוגריתם יכול להיות כל בסיס שגדול מ-1. לאור המוסכמה, הסיכויים לתרחישי היומן של הדוגמה שלנו הם:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

הפונקציה Log-odds היא ההופכי של הפונקציהsigmoid.

זיכרון ארוך לטווח קצר (LSTM)

#seq

סוג של תא ברשת נוירונים חוזרת שמשמש לעיבוד סדרות של נתונים באפליקציות כמו זיהוי כתב יד, תרגום מכונה וכיתובי תמונות. רכיבי LSTM מטפלים בבעיית ההדרגתיות הנעלמת שמתרחשת בזמן אימון RNN עקב רצפי נתונים ארוכים. לשם כך, אנחנו שומרים על ההיסטוריה במצב זיכרון פנימי, על סמך קלט והקשר חדשים מהתאים הקודמים ברשת ה-RNN.

LoRA

#language

#generativeAI

קיצור של Adaptability בדירוג נמוך.

הפסד

#fundamentals

במהלך האימון של מודל בפיקוח, מדד שמציין את המרחק של החיזוי של המודל מהתווית שלו.

פונקציית הפסד מחשבת את אובדן.

אתר אגרגטור למחירי הפסדים

סוג של אלגוריתם למידת מכונה שמשפר את הביצועים של מודל על ידי שילוב החיזויים של מספר מודלים ושימוש בחיזויים האלה ליצירת חיזוי יחיד. כתוצאה מכך, אתר אגרגטור של הפסדים יכול לצמצם את השונות של החיזויים ולשפר את הדיוק של החיזויים.

עקומת הפסד

#fundamentals

תרשים של הפסד כפונקציה של מספר איטרציות לאימון. בתרשים הבא מוצגת עקומת הפסדים טיפוסית:

גרף קרטזי של הפסד לעומת איטרציות לאימון, שמראה ירידה מהירה בהפסדים באיטרציות הראשוניות, ואחריה ירידה הדרגתית, ולאחר מכן שיפוע שטוח במהלך האיטרציות הסופיות.

עקומות של הפסדים יכולות לעזור לכם לקבוע מתי המודל מקיים שיחה או התאמת יתר.

עקומות אובדן יכולות להציג את כל סוגי האובדן הבאים:

ראו גם עקומת הכללה.

את פונקציית האובדן

#fundamentals

במהלך אימון או בדיקה, פונקציה מתמטית שמחשבת את ההפסד באצווה של דוגמאות. פונקציית הפסד מחזירה ערך נמוך יותר במודלים שמספקים תחזיות טובות לעומת מודלים שיוצרים חיזויים גרועים.

מטרת האימון היא בדרך כלל לצמצם את רמת האובדן שפונקציית הפסד מחזירה.

יש סוגים רבים ושונים של פונקציות אובדן. כדאי לבחור את פונקציית האובדן המתאימה לסוג המודל שמפתחים. למשל:

אובדן L₂ (או שגיאה ממוצעת בריבוע) היא פונקציית האובדן של רגרסיה לינארית.
Log Loss היא פונקציית האובדן של רגרסיה לוגית.

שטח אובדן

גרף של משקל(משקלים) לעומת ירידה. המטרה של ירידה הדרגתית היא למצוא את המשקל או המשקל ששטח ההפסדים שבו שטח ההפסד עומד במינימום המקומי.

יכולת התאמה לדירוג נמוך (LoRA)

#language

#generativeAI

אלגוריתם לביצוע כוונון יעיל בפרמטרים שמכוונן רק קבוצת משנה של פרמטרים של מודל שפה גדול (LLM). LoRA מספק את היתרונות הבאים:

הכוונון מהיר יותר מאשר שיטות שמחייבות כוונון עדין של כל הפרמטרים של המודל.
הפחתת העלות החישובית של הסקת מסקנות במודל המכוונן.

מודל שמכוונן באמצעות LoRA שומר או משפר את האיכות של החיזויים.

LoRA מאפשר להפעיל כמה גרסאות מיוחדות של המודל.

פתרון בעיות LSTM

#seq

קיצור של זיכרון לטווח קצר (LFV).

M

למידת מכונה

#fundamentals

תוכנית או מערכת שמאמנים מודל מנתוני קלט. המודל שעבר אימון יכול ליצור תחזיות שימושיות מנתונים חדשים (שלא הוצגו בעבר) מאותה התפלגות כמו זו ששימשה לאימון המודל.

למידת מכונה מתייחסת גם לתחום הלימודים שקשור לתוכניות או למערכות האלה.

קבוצת הרוב

#fundamentals

התווית הנפוצה יותר במערך נתונים ללא איזון בין מחלקות. לדוגמה, בהתחשב במערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות השליליות הן סיווג הרוב.

השוו ל-סיווג מיעוט.

תהליך ההחלטה של מרקוב (MDP)

#rl

תרשים שמייצג את מודל קבלת ההחלטות שבו נלקחות החלטות (או פעולות) כדי לנווט על רצף של מדינות בהנחה שיש בנכס מרקוב. בלמידת חיזוק, המעברים האלה בין מדינות מחזירים תגמול מספרי.

נכס מרקוב

#rl

מאפיין של סביבות מסוימות, שבהן העברות בין מדינות נקבעות לחלוטין על סמך המידע המרומז במצב הנוכחי והפעולה של הנציג.

מודל התממת שפה (MLM)

#language

מודל שפה שחוזים את ההסתברות שאסימונים מועמדים להשלים את החלקים הריקים ברצף. לדוגמה, מודל התממת שפה יכול לחשב הסתברויות למילים מועמדות כדי להחליף את הקו התחתון במשפט הבא:

ה-____ בכובע חזר.

בכתבה בדרך כלל נעשה שימוש במחרוזת "MASK" במקום עם קו תחתון. למשל:

ה-"MASK" בכובע חזר.

רוב המודלים המודרניים של שפה מתמשכת הם דו-כיווניים.

Matplotlib

ספריית Python 2D ליצירת תרשימים בקוד פתוח. matplotlib עוזרת להמחיש היבטים שונים של למידת מכונה.

פירוק לגורמים של מטריצות

#recsystems

במתמטיקה, מנגנון למציאת מטריצות שמכפלת הנקודות שלהן קרובה למטריצת יעד.

במערכות של המלצות, בדרך כלל מטריצת היעד שומרת את הדירוגים של המשתמשים בפריטים. לדוגמה, מטריצת היעד של מערכת המלצות על סרטים עשויה להיראות בערך כך, כאשר המספרים השלמים החיוביים הם דירוגי משתמשים, ו-0 פירושו שהמשתמש לא דירוג את הסרט:

	קזבלנקה	הסיפור של פילדלפיה	הפנתר השחור	וונדר וומן	ספרות זולה
משתמש 1	5.0	3.0	0.0	2.0	0.0
משתמש 2	4.0	0.0	0.0	1.0	5.0
משתמש 3	3.0	1.0	4.0	5.0	0.0

מטרת מערכת ההמלצות על סרטים היא לחזות את דירוגי המשתמשים לסרטים ללא סיווג. לדוגמה, האם משתמש 1 יאהב את הפנתר השחור?

גישה אחת למערכות של המלצות היא להשתמש בחלוקה לגורמים של מטריצות (factoring) כדי ליצור את שתי המטריצות הבאות:

מטריצה של משתמשים, בצורת מספר המשתמשים X מספר מאפייני ההטמעה.
מטריצת פריטים, בצורת מספר מאפייני ההטמעה X מספר הפריטים.

לדוגמה, שימוש בפקודת מטריצות של שלושת המשתמשים וחמישה פריטים עשוי להניב את מטריצת המשתמשים ומטריצת הפריטים הבאה:

User Matrix                 Item Matrix

1.1   2.3           0.9   0.2   1.4    2.0   1.2
0.6   2.0           1.7   1.2   1.2   -0.1   2.1
2.5   0.5

המכפלה של מטריצת המשתמשים ומטריצת הפריטים יוצרת מטריצת המלצות שמכילה לא רק את דירוגי המשתמשים המקוריים, אלא גם חיזויים לסרטים שכל משתמש לא ראה. לדוגמה, נניח שהדירוג של משתמש 1 הוא קזבלנקה, שהוא 5.0. המכפלה של מטריצת ההמלצות שתואמת לתא הזה מטריצת ההמלצות אמורה להיות בערך 5.0, והוא:

(1.1 * 0.9) + (2.3 * 1.7) = 4.9

חשוב יותר: האם משתמש 1 יאהב את הפנתר השחור? אם לוקחים את מכפלת הנקודות שתואם לשורה הראשונה והעמודה השלישית, מתקבל דירוג חזוי של 4.3:

(1.1 * 1.4) + (2.3 * 1.2) = 4.3

פירוק לגורמים של מטריצות בדרך כלל מניב מטריצת משתמשים ומטריצת פריטים, שביחד הם קומפקטיים יותר באופן משמעותי ממטריצת היעד.

שגיאה אבסולוטית ממוצעת (MAE)

האובדן הממוצע לכל דוגמה כשמשתמשים בהפסד L₁. חשבו את השגיאה המוחלטת הממוצעת באופן הבא:

מחשבים את הפסד ה-L₁ באצווה.
מחלקים את אובדן L₁ במספר הדוגמאות באצווה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$\text{Mean Absolute Error} = \frac{1}{n}\sum_{i=0}^n | y_i - \hat{y}_i |$$

איפה:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא הערך שהמודל חוזים בשביל $y$.

לדוגמה, נבחן את החישוב של אובדן L₁ על סמך חמש הדוגמאות הבאות:

הערך בפועל של דוגמה	הערך החזוי של המודל	הפסד (ההפרש בין המצב בפועל לבין החזוי)
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = הפסד ₁ L

כלומר, הפסד ₁ הוא 8 ומספר הדוגמאות הוא 5. לכן, השגיאה המוחלטת הממוצעת היא:

Mean Absolute Error = L₁ loss / Number of Examples
Mean Absolute Error = 8/5 = 1.6

השוו בין שגיאה אבסולוטית ממוצעת עם שגיאה ממוצעת בריבוע ושגיאה ממוצעת בריבוע.

שגיאה בריבוע ממוצע (MSE)

אובדן ממוצע לדוגמה במקרה של L₂ הפסד. חשבו את השגיאה הממוצעת בריבוע באופן הבא:

מחשבים את הפסד ה-L₂ באצווה.
מחלקים את הערך של הפסד _L2 במספר הדוגמאות באצווה.

אפשר ללחוץ על הסמל כדי לראות את החישוב הרשמי.

$$\text{Mean Squared Error} = \frac{1}{n}\sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$ כאשר:

$n$ הוא מספר הדוגמאות.
$y$ הוא הערך בפועל של התווית.
$\hat{y}$ הוא החיזוי של המודל ל-$y$.

לדוגמה, נבחן את ההפסד באצווה הבאה של חמש דוגמאות:

ערך בפועל	החיזוי של המודל	הפסד	ריבוע עם הפסדים
7	6	1	1
5	4	1	1
8	11	3	9
4	6	2	4
9	8	1	1
			16 = הפסד ₂ L

לכן, השגיאה הממוצעת בריבוע היא:

Mean Squared Error = L₂ loss / Number of Examples
Mean Squared Error = 16/5 = 3.2

Mean Squared Error הוא כלי אופטימיזציה פופולרי לאימון, במיוחד לרגרסיה לינארית.

ביצוע ניגודיות בין שגיאת ריבוע ממוצעת עם שגיאה אבסולוטית ממוצעת ושגיאה ממוצעת בריבוע.

TensorFlow Playground משתמש ב-Mean Squared Error כדי לחשב את ערכי אובדן הנתונים.

אפשר ללחוץ על הסמל כדי לראות פרטים נוספים על חריגים.

חריגים חשודי טעות משפיעים במידה רבה על שגיאת ריבוע ממוצעת. לדוגמה, הפסד של 1 בריבוע הוא הפסד של 1, אבל אובדן של 3 הוא הפסד של 9 בריבוע. בטבלה הקודמת, בדוגמה עם אובדן של 3 חשבונות בשביל כ-56% מהשגיאה הממוצעת בריבוע, וכל אחת מהדוגמאות עם אובדן של 1 נחשבת רק ל-6% מהשגיאה הממוצעת בריבוע.

ערכים חריגים לא משפיעים על 'שגיאה אבסולוטית ממוצעת' באותה מידה כמו 'שגיאה בריבוע הממוצע'. לדוגמה, אובדן של 3 חשבונות רק כ-38% מהשגיאה המוחלטת הממוצעת.

חיתוך הוא אחת הדרכים למנוע מחריגים קיצוניים לפגוע ביכולת החיזוי של המודל שלכם.

רשת

#TensorFlow

#GoogleCloud

בתכנות מקביל של למידת מכונה, מונח שמשויך להקצאת הנתונים והמודל לצ'יפים של TPU, ולהגדרת האופן שבו הערכים האלה יפוצלו או ישוכפלו.

Mesh הוא מונח של עומס יתר, שיכול להיות אחת מהאפשרויות הבאות:

פריסה פיזית של שבבי TPU.
מבנה לוגי מופשט למיפוי הנתונים והמודל לשבבי ה-TPU.

בכל מקרה, רשת מצוינת כצורה.

מטא-למידה

#language

קבוצת משנה של למידת מכונה שחוקרת או משפרת אלגוריתם של למידה. מערכת מטא-למידת מכונה יכולה גם לאמן מודל כדי ללמוד במהירות משימה חדשה מתוך כמות קטנה של נתונים או מניסיון שצברתם במשימות קודמות. אלגוריתמים של מטא-למידה בדרך כלל מנסים להשיג את המטרות הבאות:

לשפר או ללמוד תכונות שפותחו ביד (כמו מאתחל או אופטימיזציה).
ייעול הנתונים וייעול המחשוב.
שיפור ההכללה.

מטא-למידה קשורה ללמידה מסוימת (few-shot).

ערך

#TensorFlow

נתון סטטיסטי שחשוב לכם.

יעד הוא מדד שמערכת למידת מכונה מנסה לבצע אופטימיזציה.

Metrics API (tf.metrics)

ממשק API של TensorFlow להערכת מודלים. לדוגמה, הערך tf.metrics.accuracy קובע באיזו תדירות החיזויים של המודל תואמים לתוויות.

מיני-אצווה

#fundamentals

קבוצת משנה קטנה שנבחרת באופן אקראי של אצווה שמעובדת באיטרציה אחת. גודל האצווה של מיני-אצווה הוא בדרך כלל בין 10 ל-1,000 דוגמאות.

לדוגמה, נניח שכל קבוצת האימון (הקבוצה המלאה) כוללת 1,000 דוגמאות. בנוסף, נניח שהגדרתם את גודל האצווה של כל מיני-אצווה ל-20. לכן, כל איטרציה קובעת את ההפסד ב-20 אקראיים מתוך 1,000 הדוגמאות, ואז מתאימה את המשקולות ואת ההטיות בהתאם.

הרבה יותר יעיל לחשב את האובדן בחבילה קטנה מאשר בכל הדוגמאות בחבילה הכוללת.

ירידה הדרגתית בסגנון מיני-אצווה

אלגוריתם של ירידה הדרגתית שמשתמש ביחידות קטנות. במילים אחרות, אם חלה ירידה סטוכסטית קטנה בכמות גדולה, מתבצעת הערכה של ההדרגתיות על סמך קבוצת משנה קטנה של נתוני האימון. ירידה אקראית אקראית הרגילה משתמשת במיני-אצווה בגודל 1.

הפסד של minimax

פונקציית אובדן נתונים של רשתות זדוניות גנרטיביות, שמבוססת על אנטרופיה חוצת-אנטרופיה בין התפלגות הנתונים שנוצרו לבין נתונים אמיתיים.

במאמר הראשון מוסבר על הפסד מינימלי כדי לתאר רשתות יריבות גנרטיביות.

סיווג מיעוט

#fundamentals

התווית הפחות נפוצה במערך נתונים ללא איזון בין מחלקות. לדוגמה, בהתחשב במערך נתונים שמכיל 99% תוויות שליליות ו-1% תוויות חיוביות, התוויות החיוביות הן סיווג המיעוט.

ניגודיות עם סיווג רוב.

לוחצים על הסמל כדי להציג הערות נוספות.

ערכת אימון עם מיליון דוגמאות נשמעת מרשימה. עם זאת, אם קבוצת מיעוט מיוצגת בצורה לקויה, ייתכן שאפילו קבוצת אימון גדולה מאוד לא תספיק. כדאי להתמקד פחות במספר הכולל של הדוגמאות במערך הנתונים ולהעדיף את מספר הדוגמאות בקבוצת מיעוט.

אם מערך הנתונים לא מכיל מספיק דוגמאות לסיווגי מיעוט, כדאי להשתמש בירידה (ההגדרה בתבליט השני) כתוספת לסיווג מיעוט.

ML

קיצור של machine learning (למידת מכונה).

MNIST

#image

מערך נתונים בדומיין ציבורי, שנאסף על ידי LeCun, Cortes ו-Burges, ומכיל 60,000 תמונות, כשכל תמונה מראה איך אדם כתב באופן ידני ספרה מסוימת מ-0 עד 9. כל תמונה מאוחסנת כמערך מספרים שלמים בגודל 28x28, כאשר כל מספר שלם הוא ערך בגווני אפור בין 0 ל-255, כולל.

MNIST הוא מערך נתונים קנוני ללמידת מכונה, שמשמש לעיתים קרובות לבדיקת גישות חדשות של למידת מכונה. לפרטים נוספים, ראו מסד הנתונים של MNIST לספרות בכתב יד.

מודל עזר

#language

קטגוריית נתונים ברמה גבוהה. לדוגמה, מספרים, טקסט, תמונות, וידאו ואודיו הם חמישה שיטות שונות.

model

#fundamentals

באופן כללי, כל מבנה מתמטי שמעבד נתוני קלט ומחזיר פלט. מודל מפרש בצורה שונה את קבוצת הפרמטרים והמבנה שדרושים למערכת כדי לבצע חיזויים. בלמידת מכונה בפיקוח, מודל מקבל דוגמה כקלט ומסיק חיזוי כפלט. בלמידת מכונה בפיקוח, המודלים שונים במידה מסוימת. למשל:

מודל רגרסיה לינארי מורכב מקבוצה של משקולות והטיה.
מודל של רשת נוירונים מורכב מ:
- קבוצה של שכבות מוסתרות, שכל אחת מהן מכילה נוירונים אחד או יותר.
- המשקולות וההטיה שמשויכות לכל נוירון.
מודל של עץ החלטות כולל:
- צורת העץ, כלומר הדפוס שבו התנאים והעלים מחוברים.
- התנאים והעלים.

אפשר לשמור מודל, לשחזר אותו או ליצור עותקים שלו.

למידת מכונה לא בפיקוח יוצרת גם מודלים, בדרך כלל פונקציה שיכולה למפות דוגמה לקלט לאשכול המתאים ביותר.

לוחצים על הסמל כדי להשוות בין פונקציות אלגבריות ופונקציות תכנות לבין מודלים של למידת מכונה.

פונקציה אלגברית כמו בדוגמה הבאה היא מודל:

  f(x, y) = 3x -5xy + y² + 17

הפונקציה הקודמת ממפה את ערכי הקלט (x ו-y) כדי להגיע לפלט.

באופן דומה, גם פונקציית תכנות כמו בדוגמה הבאה היא מודל:

def half_of_greater(x, y):
  if (x > y):
    return(x / 2)
  else
    return(y / 2)

מבצע הקריאה מעביר את הארגומנטים לפונקציית Python הקודמת, ופונקציית Python יוצרת פלט (באמצעות ההצהרה return).

למרות שהמבנה המתמטי של רשת נוירונים עמוקה שונה מאוד מהמבנה המתמטי של האלגברה או הפונקציה התכנות, רשת נוירונים עמוקה עדיין מקבלת קלט (דוגמה) ומחזירה פלט (חיזוי).

מתכנת אנושי מקודד פונקציית תכנות באופן ידני. לעומת זאת, מודל למידת מכונה לומד בהדרגה את הפרמטרים האופטימליים במהלך אימון אוטומטי.

קיבולת המודל

המורכבות של הבעיות שהמודל יכול ללמוד. ככל שהבעיות שהמודל יכול ללמוד מורכבות יותר, כך הקיבולת שלו גבוהה יותר. בדרך כלל, הקיבולת של המודל גדלה ככל שמספר הפרמטרים של המודל גדל. להגדרה הרשמית של קיבולת המסווג ראו מאפיין VC.

סדר מדורג

#generativeAI

מערכת שבוחרת את הmodel האידיאלי לשאילתת הסקה ספציפית.

דמיינו קבוצה של מודלים, שנעה בין גדול מאוד (הרבה פרמטרים) להרבה יותר קטן (הרבה פחות פרמטרים). מודלים גדולים מאוד צורכים יותר משאבי חישוב בזמן הסקה מאשר מודלים קטנים יותר. עם זאת, מודלים גדולים מאוד יכולים בדרך כלל להסיק בקשות מורכבות יותר ממודלים קטנים יותר. רצף של מודלים קובע את המורכבות של שאילתת ההסקה, ואז בוחר את המודל המתאים לביצוע ההסקה. המניע העיקרי של סיווג המודלים הוא להפחית את עלויות ההסקה על ידי בחירה במודלים קטנים יותר, ובחירת מודל גדול יותר לשאילתות מורכבות יותר.

נניח שמודל קטן פועל בטלפון וגרסה גדולה יותר של המודל פועלת בשרת מרוחק. רצף טוב של מודלים מפחית את העלות ואת זמן האחזור בכך שהוא מאפשר למודל הקטן יותר לטפל בבקשות פשוטות ולבצע קריאה למודל המרוחק בלבד כדי לטפל בבקשות מורכבות.

ראו גם דגם של נתב.

מקביליות של מודל

#language

דרך להתאים לעומס (scaling) של האימון או המסקנות, שמשלבת חלקים שונים של model אחד לmodel שונים. מקבילה של מודלים מאפשרת מודלים גדולים מדי מכדי להתאים למכשיר יחיד.

כדי ליישם מקבילות של מודל, מערכת בדרך כלל מבצעת את הפעולות הבאות:

חלקיקים (מחלקים) את המודל לחלקים קטנים יותר.
מחלק את האימון של החלקים הקטנים האלה בין מספר מעבדים. כל מעבד מאמן את החלק שלו במודל.
משלבת את התוצאות כדי ליצור מודל אחד.

המקבילות בין מודלים מאטה את האימון.

ניתן לראות גם מקבילות של נתונים.

נתב מודל

#generativeAI

האלגוריתם שקובע את הmodel האידיאלי עבור model בmodel. נתב מודל הוא בדרך כלל מודל למידת מכונה שלומד בהדרגה איך לבחור את המודל הטוב ביותר לקלט נתון. עם זאת, לפעמים נתב מודל יכול להיות אלגוריתם פשוט יותר שאינו למידת מכונה.

אימון מודלים

התהליך לבחירת model הטוב ביותר.

מומנטום

אלגוריתם מתוחכם של ירידה הדרגתית, שבו שלב למידה תלוי לא רק בנגזרת בשלב הנוכחי, אלא גם בנגזרות של השלבים שקדמו לו. מומנטום כרוך בחישוב ממוצע נע של ההדרגתיות המשוקלל באופן אקספוננציאלי לאורך זמן, בדומה לתנע בפיזיקה. המומנטום לפעמים מונע מצב של למידה להיתקע במינימום המקומי.

סיווג לכמה כיתות

#fundamentals

בלמידה מונחית, קיימת בעיית סיווג שבה מערך הנתונים מכיל יותר משתי כיתות של תוויות. לדוגמה, התוויות במערך הנתונים של Iris חייבות להיות אחת משלוש הסוגים הבאים:

אירוס סטוסה
אירוס וירג'יניה
אירוס צבעוני

במסגרת מודל שאומן על מערך הנתונים של Iris כדי לחזות את סוג האירוס על סמך דוגמאות חדשות, מתבצע סיווג מרובה.

לעומת זאת, בעיות סיווג שמבדילות בין שתי מחלקות בדיוק הן מודלים בינאריים של סיווג. לדוגמה, מודל אימייל שחוזה ספאם או לא ספאם הוא מודל סיווג בינארי.

בבעיות אשכולות, סיווג מרובה-מחלקות מתייחס ליותר משני אשכולות.

רגרסיה לוגיסטית רב-תחומית

שימוש ברגרסיה לוגיסטית בבעיות סיווג רב-מחלקות.

קשב עצמי עם מספר ראשים

#language

תוסף של הקשב עצמי, שמופעל על ידי מנגנון הקשב העצמי כמה פעמים על כל מיקום ברצף הקלט.

טרנספורמרים מאפשרים עכשיו קשב עצמי עם מספר ראשים.

מודל רב-אופני

#language

מודל שהקלט ו/או הפלט שלו כוללים יותר משיטה אחת. לדוגמה, נבחן מודל שלוקח גם תמונה וגם כיתוב טקסט (בשתי שיטות) כתכונות, ומפיק ציון שמציין עד כמה כיתוב הטקסט מתאים לתמונה. כך שהקלטים במודל הזה הם רב-אופניים והפלט הוא לא-מודאלי.

סיווג מולטינומי

מילה נרדפת לסיווג רב-קטגוריות.

רגרסיה רב-נומית

רגרסיה לוגיסטית רב-תחומית היא מילה נרדפת.

מולטיטסקינג

שיטת למידת מכונה שבה model יחיד אומן לבצע מספר model.

מודלים של ריבוי משימות נוצרים על ידי אימון על נתונים שמתאימים לכל אחת מהמשימות השונות. כך המודל ילמד לשתף מידע בין המשימות, וזה יעזור למודל ללמוד בצורה יעילה יותר.

מודל שאומן לביצוע משימות מרובות בדרך כלל משפר את יכולות ההכללה, ויכול להיות חזק יותר בטיפול בסוגים שונים של נתונים.

לא

מלכודת NaN

כשמספר אחד במודל הופך ל-NaN במהלך האימון, וכתוצאה מכך מספר רב או כל המספרים האחרים במודל הופכים בסופו של דבר ל-NaN.

NaN הוא קיצור של Not a N (ב).

הבנת שפה טבעית (NLU)

#language

קביעת כוונת המשתמש על סמך מה שהוא הקליד או אמר. לדוגמה, מנוע חיפוש משתמש בהבנת שפה טבעית (NLP) כדי לקבוע מה המשתמש מחפש על סמך מה שהוא הקליד או אמר.

סיווג שלילי

#fundamentals

בסיווג בינארי, המחלקה נקראת חיובית והשנייה נקראת שלילית. הסיווג החיובי הוא הדבר או האירוע שעבורם המודל בודק, והסיווג השלילי הוא האפשרות האחרת. למשל:

הסיווג השלילי בבדיקה רפואית עשוי להיות 'לא גידול'.
הסיווג השלילי במסווג אימייל עשוי להיות 'לא ספאם'.

השוו עם סיווג חיובי.

דגימה שלילית

דגימת מועמדים היא מילה נרדפת.

חיפוש ארכיטקטורה נוירונים (NAS)

שיטה לעיצוב אוטומטי של הארכיטקטורה של רשת נוירונים. אלגוריתמים של NAS יכולים לצמצם את כמות הזמן והמשאבים שנדרשים כדי לאמן רשת נוירונים.

בדרך כלל, פרוטוקול NAS מבוסס על:

מרחב חיפוש, שהוא קבוצה של ארכיטקטורות אפשריות.
פונקציית כושר, שהיא מדד של רמת הביצועים של ארכיטקטורה מסוימת במשימה נתונה.

אלגוריתמים של NAS מתחילים לעיתים קרובות בקבוצה קטנה של ארכיטקטורות אפשריות, ובהדרגה מרחיבים את תחום החיפוש ככל שהאלגוריתם לומד יותר על הארכיטקטורות היעילות. פונקציית הכושר מבוססת בדרך כלל על ביצועי הארכיטקטורה בערכת אימון, והאלגוריתם של בדרך כלל מאומן באמצעות שיטת למידת חיזוק.

האלגוריתמים של NAS הוכיחו את עצמם כאפקטיביים במציאת ארכיטקטורות עם ביצועים גבוהים למגוון משימות, כולל סיווג של תמונות, סיווג טקסט ותרגום מכונה.

רשת הזרימה קדימה

#fundamentals

model שמכיל לפחות model אחת. רשת נוירונים עמוקה היא סוג של רשת נוירונים שמכילה יותר משכבה מוסתרת אחת. לדוגמה, בתרשים הבא מוצגת רשת נוירונים עמוקה שמכילה שתי שכבות נסתרות.

רשת נוירונים עם שכבת קלט, שתי שכבות מוסתרות ושכבת פלט.

כל נוירון ברשת נוירונים מתחבר לכל הצמתים בשכבה הבאה. לדוגמה, בתרשים הקודם, תוכלו לראות שכל אחד משלושת הנוירונים בשכבה הסמויה הראשונה מתחברים בנפרד לשני הנוירונים בשכבה השנייה הסמויה.

רשתות נוירונים שמוטמעות במחשבים נקראות לפעמים רשתות נוירונים מלאכותיות כדי להבדיל ביניהן לבין רשתות נוירונים שנמצאות במוח ובמערכות עצבים אחרות.

רשתות נוירונים מסוימות יכולות לחקות קשרים לא ליניאריים מורכבים מאוד בין תכונות שונות לבין התווית.

ראו גם רשת עצבית מתקפלת ורשת נוירונים חוזרת.

נוירון

#fundamentals

בלמידת מכונה, יחידה נפרדת בתוך שכבה מוסתרת של רשת נוירונים. כל נוירון מבצע את הפעולה הדו-שלבית הבאה:

מחשבת את הסכום המשוקלל של ערכי הקלט כפול המשקולות התואמים שלהם.
מעביר את הסכום המשוקלל כקלט לפונקציית הפעלה.

נוירון בשכבה המוסתרת הראשונה מקבל קלט מערכי המאפיינים בשכבת הקלט. נוירון בכל שכבה נסתרת מעבר לשכבה הראשונה מקבל קלט מהנוירונים בשכבה הסמויה הקודמת. לדוגמה, נוירון בשכבה הסמויה השנייה מקבל את הקלט מהנוירונים בשכבה הסמויה הראשונה.

באיור הבא מדגישים שני נוירונים ואת הקלט שלהם.

רשת נוירונים עם שכבת קלט, שתי שכבות מוסתרות ושכבת פלט. שני נוירונים מודגשים: אחד בשכבה הסמויה הראשונה והשני בשכבה הסמויה השנייה. הנוירון המודגש בשכבה המוסתרת הראשונה מקבל קלט משתי התכונות בשכבת הקלט. הנוירון המודגש בשכבה הסמויה השנייה מקבל קלט מכל אחד משלושת הנוירונים בשכבה הסמויה הראשונה.

נוירון ברשת נוירונים מחקה את ההתנהגות של נוירונים במוח ובחלקים אחרים של מערכות העצבים.

N-gram

#seq

#language

רצף סדור של N מילים. לדוגמה, truly madly – 2 גרם. מכיוון שסדר הסדר רלוונטי, ברצינות רצינית הוא גרם 2 גרם שונה מבאמת משוגע.

לא	שמות של N-gram מהסוג הזה	דוגמאות
2	Bigram או 2 גרם	לצאת, ללכת, לאכול ארוחת צהריים, לאכול ארוחת ערב
3	טריגרם או 3 גרם	אכלתם יותר מדי, שלושה עכברים עיוורים, האגרות בכביש
4	4 גרם	ללכת בפארק, אבק ברוח, הילד אכל עדשים

הרבה מודלים של הבנת שפה טבעית מסתמכים על סימני N-gram כדי לחזות את המילה הבאה שהמשתמש יקליד או יאמר. לדוגמה, נניח שמשתמש הקליד שלושת עיוורים. מודל NLU שמבוסס על טריגרים צפוי לחזות שהמשתמש יהיה מסוג עכברים בשלב הבא.

השוו בין גרמים מסוג N עם שקיות מילים, שהן קבוצות של מילים לא ממוינות.

NLU

#language

קיצור להבנת שפה טבעית (NLP).

צומת (עץ החלטות)

#df

בעץ החלטות, כל תנאי או עלה.

עץ החלטות עם שני תנאים ושלושה עלים.

צומת (רשת נוירונים)

#fundamentals

נוירון בשכבה מוסתרת.

צומת (תרשים TensorFlow)

#TensorFlow

פעולה בתרשים של TensorFlow.

רעש

באופן כללי, כל מה שמסתיר את האות במערך נתונים. אפשר להוסיף רעש לנתונים במגוון דרכים. למשל:

מדרגים אנושיים טועים בתוויות.
בני אדם ומכשירים מתעדים באופן שגוי או להשמיט את ערכי המאפיינים.

תנאי א-בינארי

#df

תנאי שמכיל יותר משתי תוצאות אפשריות. לדוגמה, התנאי הלא בינארי הבא מכיל שלוש תוצאות אפשריות:

תנאי (number_of_legs = ?) שמוביל לשלוש
תוצאות אפשריות. תוצאה אחת (number_of_legs = 8) מובילה לעלה
בשם עכביש. תוצאה שנייה (number_of_legs = 4) מובילה
לעלה בשם 'כלב'. תוצאה שלישית (number_of_legs = 2) מובילה
לעלה בשם פינגווין.

לא לינארי

#fundamentals

קשר בין שני משתנים או יותר שאי אפשר לייצג רק באמצעות חיבור וכפל. אפשר לייצג קשר לינארי כקו; אי אפשר לייצג קשר לא ליניארי כקו. לדוגמה, נבחן שני מודלים שכל אחד מהם משייך תכונה אחת לתווית אחת. המודל משמאל הוא ליניארי והמודל מימין הוא לא ליניארי:

שתי גרפים. תרשים אחד הוא קו, ולכן זהו קשר ליניארי.
התרשים השני הוא עקומה, כך שזהו קשר לא ליניארי.

הטייה של אי-תגובה

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

שאינו תחנה

#fundamentals

תכונה שהערכים שלה משתנים במאפיין אחד או יותר, בדרך כלל זמן. לדוגמה, שימו לב לדוגמאות הבאות של מיקום שאינו נייח:

מספר בגדי הים שנמכרים בחנות מסוימת משתנה בהתאם לעונה.
כמות פירות מסוימת שקטפה באזור מסוים היא אפס במשך רוב השנה, אבל היא גדולה לפרק זמן קצר.
עקב שינויי האקלים, הטמפרטורות השנתיות הממוצעות משתנות.

ניגודיות עם תחנות.

נירמול

#fundamentals

באופן כללי, התהליך של המרת טווח הערכים בפועל של משתנה לטווח ערכים סטנדרטי, למשל:

-1 עד +1
0 עד 1
את ההתפלגות הנורמלית

לדוגמה, נניח שטווח הערכים בפועל של ישות מסוימת הוא 800 עד 2,400. כחלק מהנדסת תכונות, אפשר לנרמל את הערכים בפועל עד לטווח סטנדרטי, כמו -1 עד +1.

נירמול הוא משימה נפוצה בהנדסת תכונות. לרוב, מודלים מאמנים את המודל מהר יותר (ומפיקים תחזיות טובות יותר) כשלכל תכונה מספרית בוקטור התכונות יש טווח פחות או יותר זהה.

זיהוי חידושים

התהליך שבו קובעים אם דוגמה חדשה (חדשה) מגיעה מאותה הפצה כמו קבוצת האימון. כלומר, אחרי אימון של ערכת האימון, זיהוי החדשנות קובע אם דוגמה חדשה (במהלך ההסקה או במהלך אימון נוסף) היא חריג חשוד טעות.

השוו עם זיהוי חריג חשוד טעות.

נתונים מספריים

#fundamentals

תכונות שמיוצגות כמספרים שלמים או כמספרים בעלי ערך ממשי. לדוגמה, מודל הערכת הבית ככל הנראה ייצג את גודל הבית (במטרים רבועים או במטרים רבועים) כנתונים מספריים. ייצוג של תכונה כנתונים מספריים מציין שלערכים של התכונה יש קשר מתמטי לתווית. כלומר, סביר להניח שלמספר המטרים המרובעים בבית יש קשר מתמטי מסוים לערך של הבית.

לא כל נתוני המספרים השלמים צריכים להיות מיוצגים כנתונים מספריים. לדוגמה, מיקודים בחלקים מסוימים בעולם הם מספרים שלמים. אבל מיקודים במספרים שלמים לא צריכים להיות מיוצגים כנתונים מספריים במודלים. הסיבה לכך היא שהמיקוד של 20000 לא חזק פי שניים (או חצי) מאשר מיקוד של 10000. בנוסף, למרות שמיקודים שונים כן תואמים לערכי נדל"ן שונים, אנחנו לא יכולים להניח שערכי הנדל"ן במיקוד 20000 חשובים פי 2 מערכי הנדל"ן במיקוד 10000. צריך לייצג את מספרי המיקוד בתור נתונים קטגוריים במקום זאת.

תכונות מספריות נקראות לפעמים תכונות רציפות.

NumPy

ספריית מתמטיקה בקוד פתוח שמספקת פעולות מערך יעילות ב-Python, כך פנדות מבוססת על NumPy.

O

יעד

מדד שהאלגוריתם שלך מנסה לבצע אופטימיזציה שלו.

פונקציית יעד

הנוסחה המתמטית או המדד שהמודל נועד לבצע אופטימיזציה. לדוגמה, פונקציית היעד של רגרסיה ליניארית היא בדרך כלל הפסד ממוצע בריבוע. לכן, כשמאמנים מודל רגרסיה ליניארית, האימון נועד למזער את האובדן הממוצע בריבוע.

במקרים מסוימים, המטרה היא למקסם את פונקציית היעד. לדוגמה, אם פונקציית היעד היא דיוק, המטרה היא למקסם את הדיוק.

ראו גם הפסד.

מצב משופע

#df

בעץ החלטות, תנאי שכולל יותר ממאפיין אחד. לדוגמה, אם גובה ורוחב הם שתי הישויות, התנאי הבא הוא אלכסוני:

  height > width

השוו בין תנאי יישור לציר.

אופליין

#fundamentals

מילה נרדפת לסטטי.

הסקת מסקנות אופליין

#fundamentals

התהליך שבו מודל יוצר קבוצה של חיזויים ואז שומר את החיזויים האלה במטמון (שומר). לאחר מכן אפליקציות יכולות לגשת לחיזוי שהוסקו מהמטמון במקום להריץ את המודל מחדש.

לדוגמה, נניח שיש לכם מודל שיוצר תחזיות מזג אוויר מקומיות (חיזויים) פעם אחת בכל ארבע שעות. אחרי כל הרצה של מודל, המערכת שומרת במטמון את כל תחזיות מזג האוויר המקומיות. אפליקציות מזג אוויר מאחזרות את התחזיות מהמטמון.

הסקת מסקנות אופליין נקראת גם הסקה סטטית.

השוו בין הסקת מסקנות אונליין.

קידוד חד-פעמי

#fundamentals

ייצוג של נתונים קטגוריים כווקטור שבו:

רכיב אחד מוגדר ל-1.
כל שאר הרכיבים מוגדרים כ-0.

בדרך כלל משתמשים בקידוד חד-פעמי כדי לייצג מחרוזות או מזהים שיש להם קבוצה מוגבלת של ערכים אפשריים. לדוגמה, נניח שלתכונה מסווגת מסוימת בשם Scandinavia יש חמישה ערכים אפשריים:

"דנמרק"
"שוודיה"
"נורווגיה"
"פינלנד"
"איסלנד"

קידוד חם אחד יכול לייצג כל אחד מחמשת הערכים באופן הבא:

country	וקטור
"דנמרק"	1	0	0	0	0
"שוודיה"	0	1	0	0	0
"נורווגיה"	0	0	1	0	0
"פינלנד"	0	0	0	1	0
"איסלנד"	0	0	0	0	1

בזכות קידוד אחיד, המודל יכול ללמוד חיבורים שונים בהתאם לכל אחת מחמש המדינות.

ייצוג של תכונה כנתונים מספריים הוא אלטרנטיבה לקידוד יחיד. לצערי, לא מומלץ לייצג את מדינות סקנדינביה באופן מספרי. לדוגמה, נבחן את הייצוג המספרי הבא:

"דנמרק" הוא 0
"Sweden" הוא 1
'נורווגיה' היא 2
'פינלנד' הוא 3
'איסלנד' הוא 4

באמצעות קידוד מספרי, המודל יפרש את המספרים הגולמיים באופן מתמטי, וינסה לאמן את המספרים האלה. עם זאת, איסלנד לא למעשה גדולה פי שניים (או חצי ממה) בהשוואה לנורווגיה, כך שהמודל יעלה כמה מסקנות מוזרות.

למידה במצב אחד

גישה של למידת מכונה, שלרוב משמשת לסיווג אובייקטים, שנועדה ללמוד על מסווגים יעילים מדוגמה אחת לאימון.

תוכלו לקרוא גם למידה בכמה דוגמאות (few-shot) ולמידה מזריזות (zero-shot).

יצירת הנחיות מדוגמה אחת

#language

#generativeAI

הנחיה שמכילה דוגמה אחת שממחישה איך מודל שפה גדול (LLM) צריך להגיב. לדוגמה, ההנחיה הבאה מכילה דוגמה אחת שממחישה איך מודל שפה גדול (LLM) צריך לענות על שאילתה.

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`צרפת: EUR`	דוגמה אחת.
`הודו:`	השאילתה עצמה.

אתם יכולים להשוות בין הנחיות מדוגמה אחת לבין המונחים הבאים:

אחד לעומת כולם

#fundamentals

בגלל בעיית סיווג ב-N מחלקות, פתרון שמורכב מ-N מסווגים בינאריים נפרדים – מסווג בינארי אחד לכל תוצאה אפשרית. לדוגמה, בהינתן מודל שמסווג דוגמאות כבעלי חיים, ירקות או מינרל, פתרון של אחד מול כולם יספק את שלושת המסווגים הבינאריים הבאים:

בעל חיים לעומת לא בעל חיים
ירק לעומת ללא ירק
מינרל לעומת לא מינרלי

online

#fundamentals

דינמית היא מילה נרדפת.

הֶקֵּשׁ אונליין

#fundamentals

יצירת חיזויים על פי דרישה. לדוגמה, נניח שאפליקציה מעבירה קלט למודל ושולחת בקשה לחיזוי. מערכת שמשתמשת בהסקת מסקנות אונליין מגיבה לבקשה על ידי הפעלת המודל (והחזרת החיזוי לאפליקציה).

השוו בין הסקת מסקנות אופליין.

פעולה (תפעול)

#TensorFlow

ב-TensorFlow, כל תהליך יצירה, מניפולציה או השמדה של Tensor. לדוגמה, הכפלה של מטריצה היא פעולה שלוקחת שני Tensor כקלט ויוצרת פלט אחד של Tensor.

אופטיקס

ספריית עיבוד הדרגתי ואופטימיזציה עבור JAX. Optax מאפשר מחקר על ידי מתן אבני בניין שאפשר לשלב אותן מחדש בדרכים מותאמות אישית, כדי לבצע אופטימיזציה של מודלים פרמטרים, כמו רשתות נוירונים עמוקות. יעדים נוספים:

לספק הטמעות יעילות וקריאה של רכיבי ליבה, שנבדקו היטב.
שיפור הפרודוקטיביות באמצעות שילוב של מרכיבים ברמה נמוכה עם כלי אופטימיזציה מותאמים אישית (או רכיבים אחרים של עיבוד הדרגתי).
האצת אימוץ רעיונות חדשים על ידי מתן אפשרות לכולם לתרום בקלות.

כלי אופטימיזציה

הטמעה ספציפית של אלגוריתם הירידה ההדרגתית. מומחי אופטימיזציה פופולריים כוללים:

AdaGrad, שהוא ראשי התיבות ADAptive GRADient descent.
אדם, ראשי תיבות של ADAptive with Momentum.

הטיה הומוגנית כלפי חוץ

#fairness

הנטייה לראות את החברים מחוץ לקבוצה דומים יותר לחברים בקבוצה, כשמשווים גישות, ערכים, תכונות אישיות ומאפיינים אחרים. בקבוצה: אנשים שיש לכם אינטראקציה איתם באופן קבוע. המונח קבוצות מחוץ לקבוצה מתייחס לאנשים שאין לכם אינטראקציה איתם באופן קבוע. אם יוצרים מערך נתונים כשמבקשים מאנשים לספק מאפיינים של קבוצות מחוץ לקבוצות, המאפיינים האלה עשויים להיות פחות מדויקים וסטריאוטיפים מאשר המאפיינים שהמשתתפים מציינים לאנשים בקבוצה שלהם.

לדוגמה, ליליפוטם יכול לתאר בפירוט את הבתים של ליליפוטים אחרים, תוך אזכור הבדלים קלים בסגנונות ארכיטקטוניים, חלונות, דלתות וגדלים. עם זאת, אותם ליליפוטים יכולים פשוט להכריז שכל התושבים של בראונדנגים חיים בבתים זהים.

הטיה של הומוגניות מחוץ לקבוצה היא סוג של הטיית שיוך (Attribution) לקבוצה.

למידע נוסף, כדאי לעיין גם בהטיה בתוך הקבוצה.

זיהוי חריג חשוד טעות

תהליך הזיהוי של חריגים חשודי טעות בקבוצת אימון.

השוו עם זיהוי חידושים.

חריגים חשודי טעות

ערכים רחוקים מרוב הערכים האחרים. בלמידת מכונה, כל אחד מהדברים הבאים הוא חריג חשוד טעות:

צריך להזין נתונים שהערכים שלהם גדולים מ-3 סטיות תקן בערך מהממוצע.
משקל עם ערכים מוחלטים גבוהים.
הערכים החזויים רחוקים יחסית מהערכים בפועל.

לדוגמה, נניח ש-widget-price היא תכונה של מודל מסוים. נניח שהממוצע widget-price הוא 7 אירו עם סטיית תקן של 1 אירו. דוגמאות עם ערך widget-price של 12 אירו או 2 אירו ייחשבו כחריגות, כי כל אחד מהמחירים האלה מכיל חמש סטיות תקן מהממוצע.

ערכים חריגים נגרמים בדרך כלל משגיאות הקלדה או משגיאות קלט אחרות. במקרים אחרים, חריגים חריגים הם לא טעויות. אחרי הכול, צריך להגדיר חמש סטיות תקן מהממוצע הן נדירות, אבל כמעט בלתי אפשרי.

חריגות חשודי טעות בדרך כלל גורמים לבעיות באימון המודלים. חיתוך הוא אחת הדרכים לניהול ערכים חריגים.

הערכה מחוץ לתיק (הערכת OOB)

#df

מנגנון להערכת האיכות של יער ההחלטות, באמצעות בדיקת כל עץ ההחלטות מול הדוגמאות שלא נעשה בהן שימוש במהלך האימון של עץ ההחלטות הזה. לדוגמה, בתרשים הבא, תוכלו לראות שהמערכת מאמנת כל עץ החלטות על כשני שלישים מהדוגמאות, ולאחר מכן מבצעת הערכה מול שליש מהדוגמאות שנותרו.

יער החלטה שמורכב משלושה עצי החלטה.
עץ החלטות אחד עובר אימון על שני שלישים מהדוגמאות,
ולאחר מכן משתמש בשליש הנותר להערכת OOB.
עץ ההחלטות השני עובר אימון על שני שלישים
שונים מהדוגמאות מעץ ההחלטות הקודם, ולאחר מכן משתמש בשליש שונה להערכת OOB בהשוואה
לעץ ההחלטות הקודם.

הערכה מחוץ לתיק היא הערכה שמרנית ויעילה מבחינת מנגנון האימות צולב. באימות צולב, מודל אחד מאומן לכל סבב אימות מוצלב (לדוגמה, 10 מודלים מאומנים באימות צולב של 10 פעמים). בעזרת הערכת OOB, מתבצע אימון של מודל יחיד. מכיוון שאריזה כוללת נתונים מסוימים מכל עץ במהלך האימון, הערכת OOB יכולה להשתמש בנתונים האלה כדי לבצע הערכה של אימות צולב.

שכבת פלט

#fundamentals

השכבה "הסופית" של רשת נוירונים. שכבת הפלט מכילה את החיזוי.

באיור הבא מוצגת רשת נוירונים עמוקה קטנה עם שכבת קלט, שתי שכבות מוסתרות ושכבת פלט:

התאמת יתר (overfitting)

#fundamentals

יצירת model שתואם לmodel עד כדי כך שהמודל לא מצליח לבצע חיזויים נכונים על נתונים חדשים.

הסתגלות יכולה לצמצם את התאמת יתר. גם אימונים על מערך אימונים גדול ומגוון יכול לצמצם את ההתאמה יתר.

לוחצים על הסמל כדי להציג הערות נוספות.

התאמת יתר היא כמו יישום קפדני של עצה רק מהמורה האהוב עליך. סביר להניח שתצליחו בכיתה של המורה, אבל אולי 'נתאים' לרעיונות של המורה ונכשלים בכיתות אחרות. אם תיישמו עצות משילוב של מורים, תוכלו להסתגל טוב יותר למצבים חדשים.

דגימת יתר

שימוש חוזר בדוגמאות של כיתות מיעוט במערך נתונים לא מאוזן לכיתה כדי ליצור קבוצת אימון מאוזנת יותר.

לדוגמה, נניח שיש בעיה של סיווג בינארי שבה היחס בין סיווג רוב לסיווג מיעוט הוא 5,000:1. אם מערך הנתונים מכיל מיליון דוגמאות, אז מערך הנתונים מכיל רק כ-200 דוגמאות לסיווג מיעוט, וזה עלול להיות מעט מדי דוגמאות לאימון יעיל. כדי להתגבר על החוסר הזה, אפשר לדגום (להשתמש שוב) ב-200 הדוגמאות האלה כמה פעמים, וכך אולי להניב מספיק דוגמאות לאימון שימושי.

חשוב להיזהר לגבי התאמת יתר של דגימת יתר.

השוו בין שימוש בדגימה חסרת.

P

דחיסת נתונים

גישה לאחסון נתונים בצורה יעילה יותר.

הנתונים הארוזים מאוחסנים בפורמט דחוס או בדרך אחרת שמאפשרת לגשת אליהם בצורה יעילה יותר. חבילת הגלישה מפחיתה את כמות הזיכרון והחישובים שנדרשים כדי לגשת אליהם, וכך מתאפשרת אימון מהיר יותר ומודל יעיל יותר להסקת מסקנות.

בדרך כלל משתמשים בנתונים ארוזים בשיטות אחרות, כמו הרחבת נתונים וארגון, כדי לשפר עוד יותר את הביצועים של מודלים.

פנדות

#fundamentals

ממשק API לניתוח נתונים שמתמקד בעמודות ומבוסס על numpy. פלטפורמות רבות של למידת מכונה, כולל TensorFlow, תומכות במבני נתונים של פנדות כקלט. פרטים נוספים זמינים במאמרי העזרה של פנדה.

פרמטר

#fundamentals

המשקולות וההטיות שהמודל לומד במהלך אימון. לדוגמה, במודל רגרסיה ליניארית, הפרמטרים מכילים הטיה (b) וכל המשקולות (w₁, w₂ וכן הלאה) בנוסחה הבאה:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

לעומת זאת, היפר-פרמטר הם הערכים שאתם (או שירות כוונון היפר-פרמטרים) מספקים למודל. לדוגמה, קצב למידה הוא היפר-פרמטר.

כוונון יעיל בפרמטרים

#language

#generativeAI

קבוצת שיטות לכוונון מודל שפה גדול (PLM) בצורה יעילה יותר מאשר כוונון עדין מלא. כוונון יעיל בפרמטרים בדרך כלל מכוונן פחות פרמטרים מאשר כוונון עדין, אבל באופן כללי נוצר באופן כללי מודל שפה גדול (LLM) שמניב ביצועים טובים (או כמעט טובים) כמו מודל שפה גדול (LLM) שנוצר באמצעות כוונון עדין.

השוו והבדילו בין כוונון יעיל בפרמטרים לבין:

כוונון יעיל בפרמטרים נקרא גם כוונון יעיל בפרמטרים.

שרת פרמטרים (PS)

#TensorFlow

משימה שעוקבת אחרי הפרמטרים של מודל בסביבה מבוזרת.

עדכון פרמטרים

פעולת התאמת הפרמטרים של מודל במהלך האימון, בדרך כלל באיטרציה אחת של ירידה הדרגתית.

נגזרת חלקית

נגזרת שבה כל המשתנים למעט אחד נחשבים קבועים. לדוגמה, הנגזרת החלקית של f(x, y) ביחס ל-x היא הנגזרת של f שנחשבת כפונקציה של x בלבד (כלומר, שמירה על y קבוע). הנגזרת החלקית של f ביחס ל-x מתמקדת רק באופן שבו x משתנה, ומתעלמת מכל המשתנים האחרים במשוואה.

הטיה בהשתתפות

#fairness

מילה נרדפת להטיות שלא מבוססות על תגובה. מידע נוסף זמין בקטע הטיות בבחירות.

אסטרטגיית חלוקה למחיצות (partitioning)

האלגוריתם שלפיו המשתנים מחולקים בין שרתי פרמטרים.

פקס

מסגרת תכנות שמיועדת לאימון מודלים של רשת נוירונים בקנה מידה גדול כל כך עד שהם מתפרשים על פני מספר TPU שבב מאיץ פרוסות או Pods.

אפליקציית Pax מבוססת על Flax, שמבוסס על JAX.

תרשים שמראה את המיקום של פקס בסטאק התוכנות.
Pax מבוסס על JAX. קובץ ה-Pax עצמו מורכב משלוש שכבות. השכבה התחתונה מכילה את TensorStore ו-Flatx.
השכבה האמצעית מכילה Optax ו-Flexformer. השכבה העליונה מכילה את ספריית המודלים של Praxis. הכינורת
בנויה על פקס.

פרצפטרון

מערכת (חומרה או תוכנה) שלוקחת ערך קלט אחד או יותר, מפעילה פונקציה על הסכום המשוקלל של הקלט ומחשבת ערך פלט אחד. בלמידת מכונה, הפונקציה בדרך כלל לא לינארית, כמו ReLU, sigmoid או tanh. לדוגמה, התפיסה הבאה מסתמך על פונקציית sigmoid כדי לעבד שלושה ערכי קלט:

$$f(x_1, x_2, x_3) = \text{sigmoid}(w_1 x_1 + w_2 x_2 + w_3 x_3)$$

באיור הבא, הפרספקטיבה מקבלת שלושה ערכי קלט, שכל אחד מהם משתנה בעצמו באמצעות משקולת לפני הכניסה של הפרספקטרון:

פריון שמקבל 3 קלטים, שכל אחד מהם מוכפל
במשקלים נפרדים. הפלט של המקודד הוא ערך יחיד.

פרספקטיבים הם הנוירונים ברשתות נוירונים.

ביצועים

מונח עמוס מדי עם המשמעויות הבאות:

המשמעות הסטנדרטית בהנדסת תוכנה. לדוגמה: באיזו מהירות (או יעילה) התוכנה פועלת?
המשמעות בלמידת מכונה. כאן רמת הביצועים עונה על השאלה הבאה: עד כמה model הזה נכון? כלומר, עד כמה החיזויים של המודל טובים?

חשיבות של משתנה תמורה

#df

סוג של חשיבות משתנה שמעריך את העלייה בשגיאת החיזוי של מודל אחרי שינוי ערכי התכונה. חשיבות משתנה הפרמוטציה היא מדד תלוי-מודל.

מבוכה

אחד המדדים שבהם אפשר לראות באיזו מידה model יכול לבצע את המשימה שלו. לדוגמה, נניח שהמשימה שלכם היא לקרוא את האותיות הראשונות של מילה שהמשתמש מקליד במקלדת של הטלפון, ולהציג רשימה של מילים אפשריות להשלמה. בהירות, P, במשימה זו היא בערך מספר הניחושים שצריך להציע כדי שהרשימה תכיל את המילה שהמשתמש מנסה להקליד בפועל.

רמת המורכבות קשורה לאנטרופיה אחרת באופן הבא:

$$P= 2^{-\text{cross entropy}}$$

צינור עיבוד נתונים

התשתית שמקיפה אלגוריתם של למידת מכונה. צינור עיבוד נתונים כולל איסוף הנתונים, הטמעת הנתונים בקובצי נתונים לאימון, אימון מודל אחד או יותר וייצוא המודלים לסביבת הייצור.

צינור עיבוד נתונים

#language

צורה של התאמה של מודל שבה עיבוד המודל מחולק לשלבים עוקבים, וכל שלב מתבצע במכשיר אחר. בזמן שבשלב מסוים מתבצע עיבוד של אצווה אחת, השלב הקודם יכול לעבוד באצווה הבאה.

למידע נוסף, ראו הדרכה מדורגת.

pjit

פונקציית JAX שמפצלת קוד כדי לעבור בין כמה צ'יפים של מאיצים. המשתמש מעביר פונקציה ל-pjit, שמחזיר פונקציה שיש לה את הסמנטיקה המקבילה, אבל עובר חישוב XLA שרץ במספר מכשירים (כמו מעבדי GPU או ליבות TPU).

בעזרת pjit, משתמשים יכולים לפצל את החישובים מבלי לשכתב אותן באמצעות המחיצה (partitioning) של SPMD.

במרץ 2023, הדומיין pjit מוזג עם jit. לפרטים נוספים עיינו במאמר מערכים מבוזרים ומקביליזציה אוטומטית.

PLM

#language

#generativeAI

קיצור של מודל שפה שעבר אימון מראש.

Pmap

פונקציית JAX שמפעילה עותקים של פונקציית קלט במספר מכשירי חומרה בסיסיים (מעבדים, מעבדי GPU או מעבדי TPU), עם ערכי קלט שונים. pmap מופעל על סמך SPMD.

policy

#rl

בלמידת חיזוק, מיפוי הסתברותי של סוכן ממצבים לפעולות.

יצירת מאגרים

#image

מצמצמים מטריצה (או מטריצה) שנוצרה על ידי שכבה קדומה יותר למטריצה קטנה יותר. בדרך כלל, יצירת מאגרים כוללת את הערך המקסימלי או הממוצע בכל שטח המאגר. לדוגמה, נניח שיש לנו את המטריצה הבאה בגודל 3x3:

מטריצת 3x3 [[5,3,1], [8,2,5], [9,4,3]].

פעולת מאגר, בדיוק כמו פעולה קונבולוציה, מחלקת את המטריצה הזו לפרוסות, ואז מחליקה את הפעולה המתקפלת בצעדים. לדוגמה, נניח שפעולת המאגר מחלקת את המטריצה המתקפלת לפרוסות בגודל 2x2 צעדים בקצב של 1x1. כפי שמוצג בתרשים הבא, מתבצעות ארבע פעולות קיבוץ. נניח שכל פעולת מאגר בוחרת את הערך המקסימלי של ארבע הפרוסות באותה פרוסה:

התכונה 'מאגר נתונים' עוזרת לאכוף אי-שונות מתורגמת במטריצת הקלט.

יצירת מאגר לאפליקציות חזותיות ידועה יותר כמאגר מרחבי. אפליקציות של סדרת זמנים מתייחסות בדרך כלל לקיבוץ כמאגר זמני. באופן פחות רשמי, קיבוץ הנתונים נקרא דגימה משנית או הקטנה.

קידוד תלוי מיקום

#language

שיטה להוספת מידע על המיקום של אסימון ברצף להטמעה של האסימון. מודלים של טרנספורמרים משתמשים בקידוד תלוי מיקום כדי להבין טוב יותר את הקשר בין חלקים שונים ברצף.

הטמעה נפוצה של קידוד מבוסס-מיקום משתמשת בפונקציה סינוסאידלית. (באופן ספציפי, התדר והמשרעת של הפונקציה הסינוסאידלית נקבעים לפי המיקום של האסימון ברצף.) השיטה הזו מאפשרת למודל של טרנספורמר ללמוד להתייחס לחלקים שונים של הרצף על סמך המיקום שלו.

כיתה חיובית

#fundamentals

הכיתה שעבורה מתבצעת הבדיקה.

לדוגמה, הסיווג החיובי במודל סרטן עשוי להיות 'גידול'. הסיווג החיובי במסווג אימיילים עשוי להיות 'ספאם'.

השוו בין סיווג שלילי.

לוחצים על הסמל כדי להציג הערות נוספות.

המונח סיווג חיובי עלול להיות מבלבל, כי בדרך כלל התוצאה ה'חיובית' של בדיקות רבות היא לא רצויה. לדוגמה, הסיווג החיובי בבדיקות רפואיות רבות תואם לגידולים או למחלות. באופן כללי, אתם רוצים שהרופא יספר לכם, "מזל טוב! תוצאות הבדיקה שלך היו שליליות." לא משנה, המחלקה החיובית היא האירוע שהבדיקה מחפשת.

אומנם אתם בודקים בו-זמנית גם את הסיווגים החיוביים וגם את הסיווגים השליליים.

לאחר עיבוד

#fairness

#fundamentals

התאמת הפלט של המודל אחרי הפעלת המודל. ניתן להשתמש בעיבוד לאחר עיבוד כדי לאכוף אילוצים של הוגנות מבלי לשנות את המודלים עצמם.

לדוגמה, אפשר להחיל לאחר העיבוד על מסווג בינארי על ידי הגדרת סף סיווג, כך ששוויון ההזדמנויות נשמר למאפיין מסוים, על ידי בדיקה שהשיעור החיובי האמיתי זהה לכל הערכים של המאפיין הזה.

PR AUC (אזור מתחת לעקומת ה-PR)

השטח מתחת לעקומת זכירת הדיוק שעבר אינטרפולציה, שמתקבל על ידי הצגת נקודות (recall, precision) לערכים שונים של סף הסיווג. בהתאם לאופן החישוב, ערך PR AUC עשוי להיות שווה לדיוק הממוצע של המודל.

פרקיס

ספריית ליבה של Pax עם ביצועים גבוהים של למידת מכונה. מודל Praxis נקרא בדרך כלל 'Layer Library' (ספריית השכבות).

פרוטוקול Praxis מכיל לא רק את ההגדרות של המחלקה Layer, אלא גם את רוב הרכיבים התומכים שלו, כולל:

קלט של נתונים
ספריות תצורה (HParam ו-Fiddle)
כלי אופטימיזציה

Praxis מספק את ההגדרות למחלקה Model.

דיוק

מדד למודלים של סיווג שעונה על השאלה הבאה:

כשהמודל חזה את הסיווג החיובי, איזה אחוז מהחיזויים היו נכונים?

זאת הנוסחה:

$$\text{Precision} = \frac{\text{true positives}} {\text{true positives} + \text{false positives}}$$

איפה:

המשמעות היא שהמודל חזה נכון את המחלקה החיובית.
המשמעות היא שהמודל חזה בטעות את הסיווג החיובי.

לדוגמה, נניח שמודל ביצע 200 חיזויים חיוביים. מתוך 200 החיזויים החיוביים האלה:

150 היו תוצאות חיוביות אמיתיות.
50 היו תוצאות חיוביות מוטעות

במקרה זה:

$$\text{Precision} = \frac{\text{150}} {\text{150} + \text{50}} = 0.75$$

השוו עם דיוק ואחזור.

עקומת זיכרון-דיוק

עקומה של דיוק לעומת ריקול בספי סיווג שונים.

חיזוי (prediction)

#fundamentals

הפלט של המודל. למשל:

החיזוי של מודל סיווג בינארי הוא המחלקה החיובית או המחלקה השלילית.
החיזוי של מודל סיווג מרובה מחלקות הוא מחלקה אחת.
החיזוי של מודל רגרסיה ליניארית הוא מספר.

#generativeAI

אימון ראשוני של מודל על מערך נתונים גדול. חלק מהמודלים שאומנו מראש הם ענקיים מגושם, ובדרך כלל צריך לחדד אותם באמצעות אימון נוסף. לדוגמה, מומחים ללמידת מכונה עשויים לאמן מראש מודל שפה גדול (LLM) על מערך נתונים גדול של טקסט, כמו כל הדפים באנגלית בוויקיפדיה. לאחר האימון מראש, אפשר לשפר עוד יותר את המודל שמתקבל באמצעות כל אחת מהשיטות הבאות:

אמונה קודמת

מה דעתכם על הנתונים לפני שאתם מתחילים להתאמן עליהם. לדוגמה, הרגולריזציה של L₂ מסתמכת על אמונה קודמת שמשקולות צריכות להיות קטנות ולהתחלק בדרך כלל סביב אפס.

מודל רגרסיה הסתברותי

מודל רגרסיה שמשתמש לא רק במשקולות של כל מאפיין, אלא גם באי-הוודאות של המשקולות האלה. מודל רגרסיה הסתברותי יוצר חיזוי ואת אי-הוודאות של החיזוי הזה. לדוגמה, מודל רגרסיה הסתברותי עשוי להניב חיזוי של 325 עם סטיית תקן של 12. למידע נוסף על מודלים של רגרסיה הסתברותית, ראו Colab ב-tensorflow.org.

פונקציית צפיפות ההסתברות

פונקציה שמזהה את התדירות של דגימות הנתונים שיש להן ערך בדיוק. כשהערכים של מערך נתונים הם מספרים רציפים של נקודות צפות, לעיתים רחוקות מתרחשות התאמות מדויקות. עם זאת, integrating של פונקציית צפיפות של הסתברות מהערך x לערך y מניב את התדירות הצפויה של דגימות נתונים בין x ל-y.

לדוגמה, נניח שהתפלגות נורמלית עם ממוצע של 200 וסטיית תקן של 30. כדי לקבוע את התדירות הצפויה של דגימות נתונים שנמצאות בטווח של 211.4 עד 218.7, אפשר לשלב את פונקציית צפיפות ההסתברות של התפלגות נורמלית מ-211.4 עד 218.7.

הצעה לפעולה

#language

#generativeAI

כל טקסט שהוזן כקלט למודל שפה גדול (LLM) כדי להתנות את המודל כך שיתנהג בצורה מסוימת. ההנחיות יכולות להיות קצרות כביטוי או ארוכות באופן שרירותי (לדוגמה, כל הטקסט של רומן). ההנחיות מתחלקות לכמה קטגוריות, כולל אלו שמוצגות בטבלה הבאה:

קטגוריית ההנחיות	דוגמה	הערות
שאלה	`באיזו מהירות יונה יכולה לעוף?`
הוראות	`כתיבת שיר מצחיק על ארביטראז'.`	הנחיה שמבקשת ממודל השפה הגדול (LLM) לבצע פעולה.
דוגמה	`תרגום של קוד Markdown ל-HTML. לדוגמה: Markdown: * פריט ברשימה HTML: <ul> <li>פריט ברשימה</li> </ul>`	המשפט הראשון בהנחיה הזו לדוגמה הוא הוראה. שאר ההנחיה היא דוגמה.
התפקיד	`להסביר למה משתמשים בירידה הדרגתית באימון של למידת מכונה לדוקטורט בפיזיקה.`	החלק הראשון של המשפט הוא הוראה, והביטוי "לדוקטור בפיזיקה" הוא חלק התפקיד.
קלט חלקי שיש למודל כדי להשלים	`ראש ממשלת בריטניה גר ב-`	הנחיה עם קלט חלקי יכולה להסתיים בפתאומיות (כמו בדוגמה הזו) או להסתיים בקו תחתון.

מודל בינה מלאכותית גנרטיבית יכול להגיב להנחיה עם טקסט, קוד, תמונות, הטמעות, סרטונים... כמעט הכול.

למידה מבוססת-הנחיות

#language

#generativeAI

יכולת של מודלים מסוימים שמאפשרים להם להתאים את ההתנהגות שלהם בתגובה לקלט טקסט שרירותי (הנחיות). בפרדיגמה אופיינית של למידה שמבוססת על הנחיות, מודל שפה גדול (LLM) משיב להנחיה באמצעות יצירת טקסט. לדוגמה, נניח שמשתמש מזין את ההנחיה הבאה:

סכם את חוק התנועה השלישי של ניוטון.

מודל שיכול ללמוד על בסיס הנחיות לא אומן באופן ספציפי לענות על ההנחיה הקודמת. המודל "יודע" הרבה עובדות על פיזיקה, הרבה על כללי שפה כלליים והרבה על מה שמגדירים באופן כללי תשובות מועילות. הידע הזה מספיק כדי לתת תשובה מועילה (אני מקווה). משוב אנושי נוסף ('התשובה הזו הייתה מורכבת מדי', או 'מהי תגובה?') מאפשר למערכות למידה מבוססות-הנחיות לשפר בהדרגה את התועלת של התשובות שלהן.

עיצוב הנחיות

#language

#generativeAI

מילה נרדפת להנדסת הנחיות.

הנדסת הנחיות

#language

#generativeAI

אומנות יצירת הנחיות שגורמת לתשובות הרצויות ממודל שפה גדול (LLM). בני אדם מבצעים הנדסת הנחיות. כתיבת הנחיות מובְנות היטב היא חלק חיוני בהבטחת תשובות מועילות ממודל שפה גדול. הנדסת פרומפטים תלויה בגורמים רבים, כולל:

מערך הנתונים שמשמש לאימון מראש ואולי לכוונון של מודל השפה הגדול.
הטמפרטורה ופרמטרים אחרים של פענוח שבהם המודל משתמש כדי ליצור תשובות.

במאמר מבוא לעיצוב הנחיות תוכלו לקרוא עוד על כתיבת הנחיות מועילות.

עיצוב פרומפטים הוא שם נרדף להנדסת פרומפטים.

כוונון של הנחיות

#language

#generativeAI

מנגנון כוונון יעיל בפרמטרים שלומד 'קידומת' שהמערכת מצרפת להנחיה בפועל.

וריאציה אחת של כוונון של הנחיות, שלפעמים נקראת כוונון קידומת, היא להוסיף את הקידומת בכל שכבה. לעומת זאת, רוב הכוונון של ההנחיות מוסיף רק קידומת לשכבת הקלט.

יש ללחוץ על הסמל כדי לקבל מידע נוסף על תחיליות.

לכוונון של הנחיות, המילה 'קידומת' (שנקראת גם 'פרומפט ישיר') היא מספר וקטורים ספציפיים למשימה שנלמדו, שמצורפים מראש להטמעות של אסימון הטקסט מההנחיה עצמה. המערכת לומדת את ההנחיה הרכה על ידי הקפאת כל הפרמטרים האחרים של המודל וכוונון עדין של משימה ספציפית.

תוויות לשרת proxy

#fundamentals

נתונים שמשמשים לחישוב משוער של תוויות שלא זמינים ישירות במערך נתונים.

לדוגמה, נניח שצריך לאמן מודל כדי לחזות את רמת הלחץ של העובדים. מערך הנתונים מכיל הרבה תכונות חיזוי, אבל הוא לא מכיל תווית בשם רמת מתח. ללא חשש, אתם בוחרים באפשרות "תאונות במקום העבודה" כתווית לשרת proxy לרמת העומס. אחרי הכול, עובדים שנמצאים בלחץ גבוה נתקלים במספר גדול יותר של תאונות מאשר עובדים רגועים. או שאולי נכון? אולי למעשה תאונות במקום העבודה עולות ונופלות מסיבות שונות.

דוגמה שנייה: נניח שאתם רוצים ש-האם יורד גשם? תהיה תווית בוליאנית של מערך הנתונים, אבל מערך הנתונים לא מכיל נתוני גשם. אם יש צילומים זמינים, תוכלו להגדיר תמונות של אנשים שנושאים מטריות כתווית בתווית של שרת proxy עבור האם יורד גשם? האם זו תווית טובה של שרת proxy? יכול להיות, אבל בתרבויות מסוימות יש סיכוי גבוה יותר לשאת מטריות להגנה מפני שמש מאשר גשם.

תוויות proxy הן לעיתים קרובות שגויות. כשאפשר, כדאי לבחור תוויות בפועל במקום תוויות לשרת proxy. עם זאת, אם אין תווית בפועל, בחרו בקפידה את התווית של שרת ה-proxy ובחרו את התווית הכי פחות גרועה של שרת proxy.

שרת proxy (מאפיינים רגישים)

#fairness

מאפיין שמשמש כמעמד של מאפיין רגיש. לדוגמה, המיקוד של אדם מסוים יכול לשמש כביטוי להכנסה, לגזע או למוצא האתני שלו.

פונקציה טהורה

פונקציה שהפלט שלה מבוסס רק על הקלט שלה, ואין לה תופעות לוואי. באופן ספציפי, פונקציה בלבד לא משתמשת במצב גלובלי כלשהו, כמו תוכן הקובץ או הערך של משתנה מחוץ לפונקציה, ולא משנה אותו.

אפשר להשתמש בפונקציות טבעיות כדי ליצור קוד בטוח לשרשורים, וזה מועיל כשמחלקים את הקוד של model בין מספר model.

ב-methods של JAX לטרנספורמציה של פונקציות, פונקציות הקלט צריכות להיות פונקציות טהורים.

Q

פונקציית Q

#rl

בלמידת חיזוק, הפונקציה שחוזה את ההחזר הצפויה מביצוע פעולה במצב ולאחר מכן בהתאם למדיניות מסוימת.

הפונקציה Q נקראת גם פונקציית ערך מצב פעולה.

למידת Q

#rl

בלמידת חיזוק, אלגוריתם שמאפשר לסוכן ללמוד מהי פונקציית ה-Q האופטימלית בתהליך ההחלטה של מרקוב באמצעות החלה של משוואת בלמן. תהליך ההחלטות של Markov יוצר מודל של סביבה.

האחוזון

כל קטגוריה בקטגוריות כמותיות.

חלוקת כמות גדולה

פיזור הערכים של מאפיין בקטגוריות, כך שכל קטגוריה תכיל אותו מספר (או כמעט זהה) של דוגמאות. לדוגמה, הדוגמה הבאה מחלקת 44 נקודות ל-4 קטגוריות, שכל אחת מהן מכילה 11 נקודות. כדי שכל קטגוריה באיור תכיל את אותו מספר נקודות, חלק מהקטגוריות מתפרסות על רוחב שונה של ערכי x.

44 נקודות על הגרף מחולק ל-4 קטגוריות של 11 נקודות כל אחת.
למרות שכל קטגוריה מכילה אותו מספר של נקודות נתונים, קטגוריות מסוימות מכילות טווח רחב יותר של ערכי מאפיינים מאשר בקטגוריות אחרות.

כימות

מונח בעומס יתר שניתן להשתמש בו בכל אחת מהדרכים הבאות:

הטמעה של חלוקה של קטגוריות כמותיות לתכונה מסוימת.
ממירים נתונים לאפסים ולנתונים, כדי לאחסן, לאמן ולהסיק במהירות רבה יותר. נתונים בוליאניים חזקים יותר לרעש ולשגיאות מפורמטים אחרים, ולכן הקונטיזציה יכולה לשפר את נכונות המודל. שיטות הקונטיזציה כוללות עיגול, חיתוך וbining.
הפחתת מספר הביטים שמשמשים לאחסון הפרמטרים של המודל. לדוגמה, נניח שהפרמטרים של מודל מאוחסנים כמספרי נקודה צפה (floating-point) של 32 ביט. הקונטיזציה ממירה את הפרמטרים האלה מ-32 ביט עד ל-4, 8 או 16 ביט. קונטיינרים מפחיתים את הגורמים הבאים:
- שימוש במחשוב, בזיכרון, בדיסק וברשת
- זמן להסיק פרדיקציה
- צריכת חשמל
אבל לפעמים, הקונטיזציה מפחיתה את נכונות החיזויים של המודל.

רשימת סרטונים

#TensorFlow

פעולה של TensorFlow שמממשת מבנה נתונים בתור. בדרך כלל נמצא בשימוש בקלט/פלט (I/O).

R

ראג

#fundamentals

קיצור של הפקה משופרת של אחזור.

יער אקראי

#df

שילוב של עצי החלטות שבו כל עץ החלטות מאומן לפי רעש אקראי ספציפי, כמו כבודה.

יערות אקראיים הם סוג של יער החלטות.

מדיניות אקראית

#rl

בסעיף של למידת חיזוק, מדיניות שבוחרת באופן אקראי פעולה.

דירוג

סוג של למידה מונחית שמטרתה להזמין רשימה של פריטים.

דירוג (רגיל)

המיקום הסידורי של כיתה בבעיה של למידת מכונה, שמסווגת את הכיתות מהגבוה לנמוך. לדוגמה, מערכת לדירוג התנהגות יכולה לדרג את הפרסים של הכלב מהגבוהה ביותר (סטייק) לנמוך ביותר (קיל קמל).

דירוג (Tensor)

#TensorFlow

מספר המאפיינים בחיישן. למשל, לסקלר יש דירוג 0, לווקטור יש את דירוג 1 ולמטריצה יש דירוג 2.

חשוב להבדיל ביניהן עם דירוג (רגיל).

דירוג

#fundamentals

אדם שמספק תוויות לדוגמאות. "משתמש שמורשה להוסיף הערות" הוא שם נוסף של המדרג.

recall

מדד למודלים של סיווג שעונה על השאלה הבאה:

כאשר הקרקע הייתה הסיווג החיובי, איזה אחוז מהחיזויים זיהה נכון את המודל כמחלקה החיובית?

זאת הנוסחה:

\[\text{Recall} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}} \]

איפה:

המשמעות היא שהמודל חזה נכון את המחלקה החיובית.
המשמעות היא שהמודל חזה בטעות את הסיווג השלילי.

לדוגמה, נניח שהמודל שלך ביצע 200 חיזויים לגבי דוגמאות שבהן האמת (ground truth) הייתה הסיווג החיובי. מתוך 200 החיזויים האלה:

180 היו תוצאות חיוביות אמיתיות.
20 היו שליליות כוזבות.

במקרה זה:

\[\text{Recall} = \frac{\text{180}} {\text{180} + \text{20}} = 0.9 \]

לוחצים על הסמל של הערות לגבי מערכי נתונים ללא איזון בין הכיתה.

הריקול שימושי במיוחד לקביעת כוח החיזוי של מודלים לסיווג שבהם המחלקה החיובית היא נדירה. לדוגמה, למשל מערך נתונים לא מאוזן ברמה שבו הסיווג החיובי של מחלה מסוימת מופיע רק ב-10 מטופלים מתוך מיליון. נניח שהמודל שלכם יוצר חמישה מיליון חיזויים שמניבים את התוצאות הבאות:

30 ערכים חיוביים
20 מילות מפתח שליליות כוזבות
4,999,000 מילות מפתח שליליות אמיתיות
950 False Positives (חיוביים כוזבים)

לכן, הריקול של המודל הזה הוא:

recall = TP / (TP + FN)
recall = 30 / (30 + 20) = 0.6 = 60%

לעומת זאת, הדיוק של המודל הזה הוא:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (30 + 4,999,000) / (30 + 4,999,000 + 950 + 20) = 99.98%

ערך הדיוק הגבוה נראה מרשים, אבל למעשה הוא חסר משמעות. זכירת הנתונים היא מדד שימושי הרבה יותר למערכי נתונים עם איזון בין מחלקות, מאשר לדיוק.

מערכת המלצות

#recsystems

מערכת שבוחרת עבור כל משתמש קבוצה קטנה יחסית של פריטים רצויים מתוך אוסף גדול. לדוגמה, מערכת המלצות על סרטונים יכולה להמליץ על שני סרטונים מאוסף של 100,000 סרטונים, כשבוחרים את קזבלנקה ואת הסיפור של פילדלפיה למשתמש אחד, ואת ונדר וומן למשתמש אחר והפנתר השחור. מערכת המלצות על סרטונים יכולה לבסס את ההמלצות על גורמים כמו:

סרטים שמשתמשים דומים דירגו או צפו בהם.
ז'אנר, במאים, שחקנים, טירגוט דמוגרפי...

יחידה לינארית מתוקנת (ReLU)

#fundamentals

פונקציית הפעלה עם ההתנהגות הבאה:

אם הקלט הוא שלילי או אפס, הפלט הוא 0.
אם הקלט הוא חיובי, הפלט שווה לקלט.

למשל:

אם הקלט הוא -3, הפלט הוא 0.
אם הקלט הוא +3, הפלט הוא 3.0.

הנה עלילה של ReLU:

ReLU היא פונקציית הפעלה פופולרית מאוד. למרות ההתנהגות הפשוטה שלה, ReLU עדיין מאפשר לרשת נוירונים ללמוד על קשרים לא לינאריים בין תכונות לבין התווית.

רשת נוירונים חוזרת

#seq

רשת נוירונים שפועלת באופן מכוון מספר פעמים, כאשר חלקים מכל פיד מופעלים בפעם הבאה. באופן ספציפי, שכבות מוסתרות מההרצה הקודמת מספקות חלק מהקלט לאותה שכבה מוסתרת בהרצה הבאה. רשתות נוירונים חוזרות שימושיות במיוחד להערכת רצפים, כדי שהשכבות הסמויות יוכלו ללמוד מהפעלות קודמות של רשת הנוירונים בחלקים מוקדמים יותר של הרצף.

לדוגמה, האיור הבא מציג רשת נוירונים חוזרת שפועלת ארבע פעמים. שימו לב שהערכים שנלמדו בשכבות המוסתרות בהרצה הראשונה הופכים לחלק מהקלט לאותן שכבות מוסתרות בהרצה השנייה. באופן דומה, הערכים שנלמדו בשכבה המוסתרת בהרצה השנייה הופכים לחלק מהקלט לאותה שכבה מוסתרת בהרצה השלישית. כך, רשת הנוירונים החוזרת מאמנים וחוזה בהדרגה את המשמעות של הרצף כולו ולא רק את המשמעות של מילים בודדות.

רשת נוירונים חוזרת (RNN) שרצה ארבע פעמים כדי לעבד ארבע מילות קלט.

מודל רגרסיה

#fundamentals

באופן לא רשמי, מודל שיוצר חיזוי מספרי. (לעומת זאת, מודל סיווג יוצר חיזוי למחלקה). לדוגמה, המודלים הבאים הם מודלים של רגרסיה:

מודל שחוזה את הערך של בית מסוים, למשל 423,000 אירו.
מודל שחוזה את תוחלת החיים של עץ מסוים, למשל 23.2 שנים.
מודל לחיזוי כמות הגשם שתירד בעיר מסוימת בשש השעות הבאות, למשל 0.18 אינץ'.

שני סוגים נפוצים של מודלים של רגרסיה הם:

רגרסיה לינארית, שקובעת את השורה המתאימה ביותר לערכי התווית לתכונות.
רגרסיה לוגיסטית, שיוצרת הסתברות בין 0.0 ל-1.0, שהמערכת בדרך כלל ממפה לאחר מכן לחיזוי מחלקה.

לא כל מודל שמפיק חיזויים מספריים הוא מודל רגרסיה. במקרים מסוימים, חיזוי מספרי הוא רק מודל סיווג שיש לו שמות מספריים של מחלקות. לדוגמה, מודל החיזוי של מיקוד מספרי הוא מודל סיווג ולא מודל רגרסיה.

רגולריזציה (regularization)

#fundamentals

כל מנגנון שמפחית התאמה יתר. סוגים פופולריים של הרגולריזציה:

רגולריזציה של L₁
רגולריזציה של L₂
רגולריזציה של נטישה
עצירה מוקדמת (זו לא שיטה פורמלית לקביעת מדיניות, אבל היא יכולה להגביל ביעילות את התאמת יתר של הטקסט)

אפשר להגדיר רגילה גם כקנס על מורכבות המודל.

לוחצים על הסמל כדי להציג הערות נוספות.

הסדירוּת היא פעולה מנוגדת להיגיון. הגדלת הרגולריות בדרך כלל מגדילה את אובדן האימון, וזה מבלבל כי המטרה היא לא לצמצם את אובדן האימון?

למעשה, לא. המטרה לא היא למזער את אובדן האימון. המטרה היא ליצור תחזיות מצוינות לגבי דוגמאות מהעולם האמיתי. כדאי לדעת שלמרות שהגדלת הרגולריזציה מגדילה את אובדן האימון, היא בדרך כלל עוזרת למודלים לספק תחזיות טובות יותר לגבי דוגמאות מהעולם האמיתי.

שיעור הרגולריזציה

#fundamentals

מספר שמציין את החשיבות היחסית של הסתגלות במהלך האימון. העלאת שיעור הרגולריזציה מפחיתה את התאמת יתר, אבל עשויה להפחית את כוח החיזוי של המודל. לעומת זאת, צמצום או השמטה של שיעור הרגולריזציה מגדילות את התאמת יתר.

צריך ללחוץ על הסמל כדי לראות את החשבון.

שיעור הרגולריזציה מיוצג בדרך כלל בתור האות היוונית lambda. המשוואה הפשוטה הבאה של הפסד מראה את ההשפעה של למבדה:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

כאשר הסתגלות היא כל מנגנון הרגולריזציה, כולל;

למידת חיזוק (RL)

#rl

קבוצת אלגוריתמים שלומדת מדיניות אופטימלית, שמטרתה למקסם את ההחזר במהלך אינטראקציה עם סביבה. לדוגמה: הפרס האולטימטיבי ברוב המשחקים הוא ניצחון. מערכות למידת החיזוק יכולות להשתפר במשחקים מורכבים על ידי הערכת הרצפים של מהלכי המשחק הקודמים שבסופו של דבר הובילו לנצחונות ולרצפים שהובילו להפסדים.

למידה של חיזוק ממשוב אנושי (RLHF)

#generativeAI

#rl

להשתמש במשוב ממדרגים אנושיים כדי לשפר את איכות התשובות של המודל. לדוגמה, מנגנון RLHF יכול לבקש ממשתמשים לדרג את איכות התשובה של מודל מסוים באמצעות 👍 או 👎 אמוג'י. לאחר מכן המערכת יכולה לשנות את התשובות העתידיות על סמך המשוב הזה.

ReLU

#fundamentals

קיצור של Rectified Linear Unit

הפעלה מחדש של מאגר נתונים זמני

#rl

באלגוריתמים דמויי DQN, הזיכרון שבו הסוכן משתמש כדי לאחסן מעברי מצבים לשימוש בהפעלה מחדש של ניסיון.

רפליקה

עותק של ערכת האימון או המודל, בדרך כלל במכונה אחרת. לדוגמה, מערכת יכולה להשתמש באסטרטגיה הבאה להטמעה של מקבילות נתונים:

הציבו רפליקות של מודל קיים במספר מכונות.
לשלוח קבוצות משנה שונות של האימון לכל רפליקה.
צבירת העדכונים של הפרמטר.

הטיה בדיווח

#fairness

העובדה שהתדירות שבה אנשים כותבים על פעולות, תוצאות או נכסים לא משקפת את התדרים שלהם בעולם האמיתי או את מידת המאפיין של נכס. הטיות בדיווח יכולה להשפיע על ההרכב של הנתונים שמערכות למידת המכונה לומדות מהם.

לדוגמה, בספרים המילה צחוק נפוצה יותר מהמילה נשימה. מודל למידת מכונה שמעריך את התדירות היחסית של צחוק ונשימה מתוך אוסף של ספרים כדי לקבוע שצחוק נפוץ יותר מנשימה.

בווקטור יהיה זהה,

התהליך של מיפוי נתונים לתכונות שימושיות.

דירוג מחדש

#recsystems

השלב האחרון של מערכת המלצות, שבמהלכו ניתן לקבל ציון מחדש לפריטים שקיבלו ציון לפי אלגוריתם אחר (בדרך כלל לא למידת מכונה). בדירוג מחדש מתבצעת הערכה של רשימת הפריטים שנוצרה על ידי שלב הניקוד, לפי הפעולות הבאות:

הסרת פריטים שהמשתמש כבר קנה.
העלאת הדירוג של פריטים חדשים יותר.

Retrieval-augmented Gen (RAG)

#fundamentals

שיטה לשיפור האיכות של הפלט של מודל שפה גדול (LLM), באמצעות מבססת אותו במקורות מידע שאוחזרו אחרי אימון המודל. RAG מספק גישה למידע שאוחזר ממאגרי ידע או ממסמכים מהימנים כדי לשפר את הדיוק של התשובות ל-LLM.

בין המניעים הנפוצים לשימוש בהפקה משופרת של אחזור:

שיפור הדיוק העובדתי בתשובות שנוצרות למודל.
לתת למודל גישה לידע שהוא לא אומן לפיו.
שינוי הידע שבו המודל משתמש.
מתן אפשרות למודל לצטט מקורות.

לדוגמה, נניח שאפליקציה לכימיה משתמשת ב-PaLM API כדי ליצור סיכומים שקשורים לשאילתות של משתמשים. כשהקצה העורפי של האפליקציה מקבל שאילתה, הקצה העורפי:

חיפוש נתונים ('מאחזרים') שרלוונטיים לשאילתת המשתמש.
מצרף ('שיפורים') את הנתונים הכימיים הרלוונטיים לשאילתת המשתמש.
מורה ל-LLM ליצור סיכום על סמך הנתונים שצורפו.

return

#rl

בלמידת חיזוק, בהינתן מדיניות מסוימת ומצב מסוים, ההחזרה היא הסכום של כל התגמולים שהסוכן מצפה לקבל בציות למדיניות מהמדינה ועד לסוף הפרק. הסוכן מביא בחשבון את העיכוב בקבלת הפרסים על ידי הנחת הפרסים בהתאם למעברי המדינה שנדרשים לקבלת הפרס.

לכן, אם גורם ההנחה הוא $\gamma$, ו- $r_0, \ldots, r_{N}$ מציינים את הפרסים עד סוף הפרק, חישוב ההחזרה הוא כך:

$$\text{Return} = r_0 + \gamma r_1 + \gamma^2 r_2 + \ldots + \gamma^{N-1} r_{N-1}$$

פרס

#rl

בלמידת חיזוק, התוצאה המספרית של פעולה במצב, כפי שהוגדרה על ידי הסביבה.

התבססות על רכסים

מילה נרדפת לרגולריזציה של L₂. המונח regularization (רגולריזציה) מופיע לעיתים קרובות יותר בהקשרים של נתונים סטטיסטיים טהורים, ואילו בלמידת מכונה משתמשים לעיתים קרובות יותר במונח L₂regularization.

רשת נוירונים חוזרת (RNN)

#seq

קיצור של רשתות נוירונים חוזרות.

עקומת ROC (מאפיין הפעלת מקלט)

#fundamentals

תרשים של שיעור חיובי אמיתי לעומת שיעור חיובי שווא לספי סיווג שונים בסיווג בינארי.

הצורה של עקומת ROC מרמזת על היכולת של מודל סיווג בינארי להפריד בין סיווגים חיוביים לסיווגים שליליים. נניח, לדוגמה, שמודל סיווג בינארי מפריד לחלוטין בין כל המחלקות השליליות לבין כל המחלקות החיוביות:

ציר מספרים עם 8 דוגמאות חיוביות בצד ימין ו-7 דוגמאות שליליות בצד שמאל.

עקומת ה-ROC של המודל הקודם נראית כך:

עקומת ROC. ציר ה-X מייצג שיעור חיובי שגוי וציר ה-Y הוא שיעור חיובי אמיתי. העקומה היא בצורת L הפוכה. העקומה מתחילה ב-(0.0,0.0) וממשיכת עד (0.0,1.0). לאחר מכן העקומה
עוברת מ-0.0,1.0) ל-(1.0,1.0).

לעומת זאת, באיור הבא מוצגים ערכי הרגרסיה הלוגיסטיים הגולמיים של מודל גרוע, שאי אפשר להפריד בין סיווגים שליליים למחלקות חיוביות:

ציר מספרים עם דוגמאות חיוביות וסיווגים שליליים
מעורבים לחלוטין.

עקומת ה-ROC של המודל הזה נראית כך:

עקומת ROC, שהיא למעשה קו ישר מ-(0.0,0.0)
ל-(1.0,1.0).

בינתיים, בעולם האמיתי, רוב המודלים של הסיווג הבינארי מפרידים במידה מסוימת בין סיווגים חיוביים ושליליים, אבל בדרך כלל לא בצורה מושלמת. לכן, עקומה טיפוסית של ROC נמצאת בין שתי הקצוות הקיצוניים:

עקומת ROC. ציר ה-X מייצג שיעור חיובי שגוי וציר ה-Y הוא שיעור חיובי אמיתי. עקומת ה-ROC מבוססת על קשת רועשת שחוצה את נקודות המצפן ממערב לצפון.

הנקודה בעקומת ROC הקרובה ביותר ל-(0.0,1.0) מזהה באופן תיאורטי את סף הסיווג האידיאלי. עם זאת, יש מספר בעיות אחרות בעולם האמיתי שמשפיעות על הבחירה של סף הסיווג האידיאלי. לדוגמה, אולי תוצאות שליליות כוזבות גורמות לכאב הרבה יותר גדול מאשר תוצאות חיוביות מוטעות.

מדד מספרי שנקרא AUC מסכם את עקומת ROC לערך נקודה צפה (floating-point) אחת.

הנחיות ליצירת תפקידים

#language

#generativeAI

חלק אופציונלי בהנחיה שמזהה קהל יעד לתשובה ממודל בינה מלאכותית גנרטיבית. בלי הנחיה לגבי התפקיד, מודל שפה גדול (LLM) מספק תשובה שיכולה להיות שימושית או לא שימושית לאדם ששואל את השאלות. באמצעות הנחיית תפקיד, מודל שפה גדול יכול לענות על תשובה שמתאימה ומועילה יותר לקהל יעד ספציפי. לדוגמה, החלק של הנחיית התפקיד בהנחיה הבאה מופיע בגופן מודגש:

לסכם את המאמר הזה לדוקטורט בכלכלה.
לתאר את האופן שבו גאות ושפל פועלות לגיל עשר.
הסבירו את המשבר הפיננסי ב-2008. דברו כמו שאתם עושים עם ילד קטן או גולדן רטריבר.

הרמה הבסיסית (root)

#df

הצומת הראשון (התנאי הראשון) בעץ החלטות. לפי המוסכמה, תרשימים מציבים את השורש בחלק העליון של עץ ההחלטות. למשל:

עץ החלטות עם שני תנאים ושלושה עלים. התנאי
הראשון (x > 2) הוא הרמה הבסיסית (root).

תיקיית שורש

#TensorFlow

הספרייה שציינתם לאירוח ספריות משנה של נקודת הביקורת TensorFlow וקובצי אירועים של מספר מודלים.

שגיאה בריבוע הממוצע של Root (RMSE)

#fundamentals

השורש הריבועי של השגיאה הממוצעת בריבוע.

שונות סיבובית

#image

בבעיה בסיווג תמונות, היכולת של אלגוריתם לסווג תמונות בהצלחה גם כשכיוון התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות מחבט טניס אם הוא פונה למעלה, הצידה או למטה. שימו לב ששונות סיבובית לא תמיד רצויה. לדוגמה, לא צריך לסווג 9 הפוך כ-9.

אפשר לקרוא גם שונות מתורגמת והבדלים בגודל.

R בריבוע

מדד רגרסיה שמציין כמה שינויים בתווית נובעים מתכונה מסוימת או לקבוצת תכונות. R בריבוע הוא ערך בין 0 ל-1, ואותו אפשר לפרש כך:

המשמעות של R בריבוע 0 היא שאף אחת מהווריאציות של תווית מסוימת לא קשורה לקבוצת התכונות.
המשמעות של R בריבוע 1 היא שכל הווריאציה של תווית מסוימת נבעה מקבוצת התכונות.
סימן R בריבוע בין 0 ל-1 מציין את המידה שבה אפשר לחזות את השונות של התווית מתכונה מסוימת או מקבוצת התכונות. לדוגמה, המשמעות של R בריבוע של 0.10 היא ש-10 אחוז מהשונות בתווית היא תוצאה של קבוצת התכונות, וריבוע R ב-0.20 פירושו ש-20 אחוזים נובעים מקבוצת התכונות וכן הלאה.

R-squared הוא הריבוע של מקדם המתאם של פירסון בין הערכים שמודל חזה לבין אמת קרקע.

S

הטיית דגימה

#fairness

מידע נוסף זמין בקטע הטיות בבחירות.

דגימה עם החלפה

#df

שיטה של בחירת פריטים מתוך קבוצת פריטים מועמדים, שבה אפשר לבחור את אותו פריט מספר פעמים. המשמעות של הביטוי 'with substitute' (עם החלפה) היא שאחרי כל בחירה הפריט שנבחר מוחזר למאגר של הפריטים האפשריים. השיטה ההפוכה, דגימה ללא החלפה, פירושה שאפשר לבחור פריט מועמד רק פעם אחת.

לדוגמה, נבחן את קבוצת הפירות הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

נניח שהמערכת בוחרת באקראי את fig בתור הפריט הראשון. אם משתמשים בדגימה עם החלפה, המערכת תבחר את הפריט השני מתוך הקבוצה הבאה:

fruit = {kiwi, apple, pear, fig, cherry, lime, mango}

כן, אותה קבוצה כמו קודם, כך שהמערכת יכולה לבחור שוב את fig.

אם משתמשים בדגימה ללא החלפה, אי אפשר לבחור דגימה שוב אחרי שבוחרים אותה. לדוגמה, אם המערכת תבחר באקראי fig בתור הדגימה הראשונה, אי אפשר לבחור שוב את fig. לכן המערכת בוחרת את הדוגמה השנייה מתוך הקבוצה (המצומצמת) הבאה:

fruit = {kiwi, apple, pear, cherry, lime, mango}

לוחצים על הסמל כדי להציג הערות נוספות.

המילה replacement במאפיין דגימה עם החלפה מבלבלת אנשים רבים. באנגלית, המשמעות של replacement היא "החלפה". עם זאת, בדגימה עם החלפה משתמשים למעשה בהגדרה הצרפתית של החלפה, שפירושה "להחזיר משהו".

המילה replacement באנגלית היא remplacement בצרפתית.

SavedModel

#TensorFlow

הפורמט המומלץ לשמירה ושחזור של מודלים של TensorFlow. SaveModel הוא פורמט נייטרלי של שפה שאפשר לשחזר אותו, המאפשר למערכות וכלים ברמה גבוהה יותר ליצור, לצרוך ולשנות מודלים של TensorFlow.

לפרטים מלאים, ראו שמירה ושחזור במדריך למתכנת TensorFlow.

חסכוני

#TensorFlow

אובייקט TensorFlow שאחראי על שמירת נקודות ביקורת של מודל.

סקלר

מספר יחיד או מחרוזת יחידה שאפשר לייצג כטווח של דירוג 0. לדוגמה, כל אחת משורות הקוד הבאות יוצרת סקלר אחד ב-TensorFlow:

breed = tf.Variable("poodle", tf.string)
temperature = tf.Variable(27, tf.int16)
precision = tf.Variable(0.982375101275, tf.float64)

התאמה לעומס (scaling)

כל טרנספורמציה מתמטית או שיטה לשינוי הטווח של ערך של תווית ו/או תכונה. צורות מסוימות של התאמה לעומס (scaling) שימושיות מאוד לטרנספורמציות כמו נירמול.

צורות נפוצות של התאמה לעומס (scaling) שמועילות בלמידת מכונה כוללות:

סולם לינארי, שבדרך כלל משתמש בשילוב של חיסור וחילוק כדי להחליף את הערך המקורי במספר בין 1- ל-1+, או בין 0 ל-1.
עם קנה מידה לוגריתמי, שמחליף את הערך המקורי בלוגריתם.
נירמול של ציון Z, שמחליף את הערך המקורי בערך של נקודה צפה (floating-point) שמייצג את מספר סטיות התקן מהממוצע של המאפיין הזה.

ללמוד מד"ב

פלטפורמה פופולרית של למידת מכונה בקוד פתוח. ראו scikit-learn.org.

ניקוד

#recsystems

החלק של מערכת המלצות שמספק ערך או דירוג לכל פריט שמופק בשלב יצירת המועמדים.

הטיית בחירה

#fairness

שגיאות במסקנות שנלקחו מנתונים שנדגמו, בגלל תהליך בחירה שיוצר הבדלים שיטתיים בין הדגימות שתועדו בנתונים לבין הדגימות שלא תועדו. קיימות הצורות הבאות של הטיית בחירה:

הטיית כיסוי: האוכלוסייה שמיוצגת במערך הנתונים לא תואמת לאוכלוסייה שהמודל של למידת המכונה מפיק חיזויים לגביה.
הטיות של דגימה: הנתונים לא נאספים באופן אקראי מקבוצת היעד.
הטיות ללא תגובה (נקראת גם הטיית השתתפות): משתמשים מקבוצות מסוימות מבטלים את הסכמתם להשתתפות בסקרים בשיעור שונה מזה של משתמשים מקבוצות אחרות.

לדוגמה, נניח שאתם יוצרים מודל למידת מכונה שחוזה את ההנאה של אנשים מסרט. כדי לאסוף נתוני אימונים, מחלקים סקר לכל מי שנמצא בשורה הראשונה באולם קולנוע שבו מוצג הסרט. לעומת זאת, אולי זו דרך הגיונית לאסוף מערך נתונים. עם זאת, האיסוף של נתונים מהסוג הזה עשוי ליצור הטיות מהסוגים הבאים:

הטיית כיסוי: על ידי דגימה מאוכלוסייה שבחרה לצפות בסרט, ייתכן שהחיזויים של המודל לא יכללו אנשים שלא הביעו כבר את רמת העניין הזו בסרט.
הטיות של דגימות: במקום לדגום באופן אקראי מהאוכלוסייה הרצויה (כל האנשים שמופיעים בסרט), דגמתם רק את האנשים בשורה הראשונה. ייתכן שהאנשים שיושבים בשורה הראשונה התעניינו יותר בסרט מאשר האנשים שבשורות אחרות.
הטיות של אי-תגובה: באופן כללי, אנשים עם דעות אמינות נוטים להשיב לסקרים אופציונליים לעיתים קרובות יותר מאשר אנשים עם דעות מתונות. מכיוון שהסקר על הסרט הוא אופציונלי, יש סיכוי גבוה יותר שהתשובות ייצרו התפלגות דו-אופנית מאשר התפלגות רגילה (בצורת פעמון).

קשב עצמי (שכבת הקשב העצמי)

#language

שכבת רשת נוירונים שממירה רצף של הטמעות (למשל, הטמעות של אסימון) לרצף אחר של הטמעות. כל הטמעה ברצף הפלט נבנית על ידי שילוב מידע מהאלמנטים ברצף הקלט באמצעות מנגנון התשומת לב.

החלק העצמי של הקשב העצמי מתייחס לרצף שמפנה לעצמו, ולא להקשר אחר. תשומת לב עצמית היא אחת מאבני הבניין העיקריות של טרנספורמרים, והיא מבוססת על טרמינולוגיה של חיפוש מילונים כמו 'שאילתה', 'מפתח' ו'ערך'.

שכבת הקשב העצמי מתחילה ברצף של ייצוגי קלט, אחד לכל מילה. ייצוג הקלט של מילה יכול להיות הטמעה פשוטה. לכל מילה ברצף הקלט, הרשת מתעדת את מידת הרלוונטיות של המילה לכל רכיב ברצף המילים. ציוני הרלוונטיות קובעים עד כמה הייצוג הסופי של המילה כולל את הייצוגים של מילים אחרות.

למשל, נבחן את המשפט הבא:

בעל החיים לא חצה את הכביש כי הוא היה עייף מדי.

באיור הבא (מתוך Transformer: A Novel Neural Network Architecture for LanguageUnderstanding) מוצג דפוס תשומת הלב של שכבת הקשב העצמי ללשון הפנייה ה, עם מידת הכהות של כל שורה שמציינת עד כמה כל מילה תורמת לייצוג:

המשפט הבא מופיע פעמיים: בעל החיים לא חצה את הכביש
כי הוא היה עייף מדי. הקווים מחברים את לשון הפנייה
במשפט אחד לחמישה אסימונים (The, animal, Street, it
ואת הנקודה) במשפט השני. הקו בין לשון הפנייה
לבין המילה חיה הוא החזקה ביותר.

שכבת הקשב העצמי מדגישה מילים שרלוונטיות למילה 'it'. במקרה כזה, שכבת תשומת הלב למדה להדגיש מילים שהיא עשויה להתייחס אליהן, ומקצה את המשקל הגבוה ביותר לבעל חיים.

לרצף של n אסימונים, הקשב העצמי משנה רצף של הטמעות n פעמים נפרדות, פעם אחת בכל מיקום ברצף.

עיינו גם בקטעים Attention וקשב עצמי עם מספר ראשים.

למידה מונחית

משפחה של טכניקות להמרת בעיה של למידת מכונה לא בפיקוח לבעיה של למידת מכונה בפיקוח, על ידי יצירת תחליף לתוויות מדוגמאות ללא תווית.

חלק מהמודלים מבוססי טרנספורמר, כמו BERT, משתמשים בלמידה בלמידה עצמית.

הדרכה בהדרכה עצמית היא גישה של למידה מונחית למחצה.

אימון עצמי

וריאציה של למידה בהדרכה עצמית שמועילה במיוחד כשכל התנאים הבאים מתקיימים:

היחס בין דוגמאות ללא תווית לבין דוגמאות עם תוויות במערך הנתונים הוא גבוה.
זוהי בעיית סיווג.

כשמפעילים אימון עצמי, חוזרים על שני השלבים הבאים עד שהמודל מפסיק להשתפר:

משתמשים בלמידת מכונה בפיקוח כדי לאמן מודל על סמך הדוגמאות המתויגות.
צריך להשתמש במודל שנוצר בשלב 1 כדי ליצור חיזויים (תוויות) על הדוגמאות ללא תוויות, ולהעביר את הדוגמאות שיש בהן סבירות גבוהה לדוגמאות עם התווית החזויה.

שימו לב שכל איטרציה של שלב 2 מוסיפה עוד דוגמאות עם תוויות לאימון של שלב 1.

למידה מונחית למחצה

אימון מודל על נתונים שלחלק מהדוגמאות לאימון יש תוויות, ולאחרות אין תוויות. שיטה אחת ללמידה מונחית למחצה היא להסיק תוויות לדוגמאות ללא תוויות, ואז לאמן את התוויות שהוסקו וליצור מודל חדש. למידה מונחית למחצה יכולה להיות שימושית אם תוויות יקרות, אבל יש דוגמאות רבות לתוויות ללא תוויות.

אימון עצמי היא שיטה אחת ללמידה מונחית למחצה.

מאפיין רגיש

#fairness

מאפיין אנושי שניתן להתייחס אליו באופן מיוחד מסיבות משפטיות, אתיות, חברתיות או אישיות.

ניתוח סנטימנט

#language

שימוש באלגוריתמים סטטיסטיים או באלגוריתמים של למידת מכונה כדי לקבוע את הגישה הכוללת של קבוצה – חיובית או שלילית – לשירות, למוצר, לארגון או לנושא. לדוגמה, באמצעות הבנת שפה טבעית, אלגוריתם יכול לבצע ניתוח סנטימנטים על המשוב הטקסטואלי מקורס באוניברסיטה כדי לקבוע את מידת ההתאמה של הסטודנטים באופן כללי לקורס.

מודל רצף

#seq

מודל שהקלט שלו מבוסס על תלות רציפה. לדוגמה, חיזוי הסרטון הבא שבו תצפה מתוך רצף של סרטונים שנצפו בעבר.

משימת רצף לרצף

#language

משימה שממירה רצף קלט של אסימונים לרצף פלט של אסימונים. לדוגמה, שני סוגים פופולריים של משימות רצף לרצף:

מתרגמים:
- רצף קלט לדוגמה: "אני אוהב אותך".
- רצף פלט לדוגמה: "Je t'aime"
מענה לשאלות:
- רצף קלט לדוגמה: "Do I need my car in Tel Aviv?"
- רצף פלט לדוגמה: "No. Keep your car at home" (לא. צריך להשאיר את הרכב בבית).

מנה

התהליך של הפיכת מודל מאומן לזמין כדי לספק תחזיות באמצעות הסקת מסקנות אונליין או הסקת מסקנות אופליין.

צורה (חיישן)

מספר הרכיבים בכל מאפיין של טנזור. הצורה מיוצגת כרשימה של מספרים שלמים. לדוגמה, ה-tensor הדו-ממדי הבא הוא בצורה של [3,4]:

[[5, 7, 6, 4],
 [2, 9, 4, 8],
 [3, 6, 5, 1]]

ב-TensorFlow נעשה שימוש בפורמט של שורות-גדולות (בסגנון C) כדי לייצג את סדר המאפיינים, ולכן הצורה ב-TensorFlow היא [3,4] ולא [4,3]. במילים אחרות, ב-TensorFlow Tensor דו-ממדי, הצורה היא [מספר השורות, מספר העמודות].

צורה סטטית היא צורה של טנזור ידועה בזמן הידור (compile).

צורה דינמית לא ידועה בזמן הידור (compile), ולכן היא תלויה בנתונים של סביבת זמן הריצה. יכול להיות שהטווח הזה מיוצג באמצעות מימד placeholder ב-TensorFlow, כמו ב-[3, ?].

פיצול

#TensorFlow

#GoogleCloud

חלוקה לוגית של קבוצת האימון או של מודל. בדרך כלל, בתהליך מסוים נוצרים פיצולים על ידי חלוקת הדוגמאות או הפרמטרים למקטעי נתונים בגודל שווה. לאחר מכן כל פיצול מוקצה למכונה אחרת.

פיצול המודל נקרא מקבילות של מודל. פיצול הנתונים נקרא מקבילות של נתונים.

כיווץ

#df

היפר-פרמטר בשיפור הדרגתי ששולט בהתאמת יתר. הכיווץ בהגדלה הדרגתית מקביל לקצב הלמידה בירידה הדרגתית. הכיווץ הוא ערך עשרוני בין 0.0 ל-1.0. ערך כיווץ נמוך יותר מקטין את התאמת החריגה יותר מערך כיווץ גדול יותר.

פונקציית סיגמואיד

#fundamentals

פונקציה מתמטית ש "מכווצת" ערך קלט לטווח מוגבל, בדרך כלל בין 0 ל-1 או -1 עד +1. כלומר, אפשר להעביר כל מספר (שניים, מיליון, מיליארד שלילי, מה שרוצים) לסיגמואיד, והפלט עדיין יהיה בטווח המוגבל. שרטוט של פונקציית ההפעלה sigmoid נראה כך:

לפונקציית sigmoid יש כמה שימושים בלמידת מכונה, כולל:

המרת הפלט הגולמי של מודל רגרסיה לוגיסטית או רגרסיה ריבוינומית להסתברות.
משמשת כפונקציית הפעלה ברשתות נוירונים מסוימות.

צריך ללחוץ על הסמל כדי לראות את החשבון.

פונקציית sigmoid מעל מספר קלט x מכילה את הנוסחה הבאה:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

בלמידת מכונה, x הוא בדרך כלל סכום משוקלל.

מידת הדמיון

#clustering

באלגוריתמים של אשכולות, המדד משמש כדי לקבוע את מידת הדמיון (עד כמה) של שתי הדוגמאות.

תוכנית יחידה / נתונים מרובים (SPMD)

שיטה מקבילה שבה המערכת מבצעת את אותו חישוב במקביל על נתוני קלט שונים במכשירים שונים. המטרה של SPMD היא להשיג תוצאות במהירות רבה יותר. זה הסגנון הנפוץ ביותר של תכנות מקביל.

שונות בגודל

#image

בבעיה של סיווג תמונות, יכולת של אלגוריתם לסווג תמונות גם כשגודל התמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות חתול אם הוא צורך 2 מיליון פיקסלים או 200,000 פיקסלים. שימו לב שגם לאלגוריתמים הטובים ביותר לסיווג תמונות יש עדיין מגבלות מעשיות על שונות הגודל. לדוגמה, סביר להניח שאלגוריתם (או בן אדם) לא יסווג בצורה נכונה תמונה של חתול צורכת רק 20 פיקסלים.

אפשר לקרוא גם שונות מתורגמת ושונות סיבובית.

רישום

#clustering

ב-למידת מכונה לא בפיקוח, קטגוריה של אלגוריתמים שמבצעים ניתוח דמיון ראשוני על דוגמאות. האלגוריתמים ליצירת שרטוטים משתמשים ב פונקציית גיבוב (hash) רגישה למיקום כדי לזהות נקודות שסביר להניח שהן דומות, ולאחר מכן לקבץ אותן לקטגוריות.

השימוש בשרטוט מפחית את החישוב הנדרש לחישובי דמיון במערכי נתונים גדולים. במקום לחשב את הדמיון לכל זוג דוגמאות במערך הנתונים, אנחנו מחשבים את הדמיון רק לכל זוג נקודות בכל קטגוריה.

דילוג על גרם

#language

n-gram שעשוי להשמיט (או "לדלג") מילים מההקשר המקורי, כלומר יכול להיות שהמילים N לא היו סמוכות זה לזה. באופן מדויק יותר, "k-skip-n-gram" הוא n-gram שניתן לדלג עליו עד K מילים.

לדוגמה, למילת המפתח "השועל החום המהיר" יש את הערך הבא ב-2 גרם:

"המהיר"
"חום מהיר"
"שועל חום"

"1-skip-2-gram" הוא זוג מילים שביניהן מילה אחת לכל היותר. לכן, ל"שועל החום המהיר" יש את הקילוגרמים הבאים ב-2 גרם:

"חום"
"שועל מהיר"

בנוסף, כל 2 הגרם מהם גם דילוג על שני גרם אחד, כי אפשר לדלג על פחות ממילה אחת.

סימני דילוג יכולים לעזור לכם להבין טוב יותר את ההקשר של המילה בסביבה. בדוגמה, המילה 'fox' שויך ישירות ל-'quick' בקבוצה של 1-skip-2 גרם, אבל לא ל-2 גרם.

השימוש בטריגרים דילוג עוזרים לאמן מודלים של הטמעת מילים.

softmax

#fundamentals

פונקציה שקובעת הסתברויות לכל מחלקה אפשרית במודל סיווג מרובה-מחלקות. ההסתברויות מסתכמות ל-1.0 בדיוק. לדוגמה, הטבלה הבאה מראה איך ה-softmax מחלק הסתברויות שונות:

התמונה היא...	Probability
כלב	85.
cat	13.
סוס	0.02

הכלי Softmax נקרא גם full softmax.

השוו לדגימת מועמדים.

צריך ללחוץ על הסמל כדי לראות את החשבון.

משוואת ה-softmax היא:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$

איפה:

$\sigma_i$ הוא וקטור הפלט. כל רכיב בווקטור הפלט מציין את ההסתברות של הרכיב הזה. סכום כל הרכיבים בווקטור הפלט הוא 1.0. הווקטור של הפלט מכיל את אותו מספר רכיבים שיש בווקטור הקלט, $z$.
$z$ הוא וקטור הקלט. כל רכיב בווקטור הקלט מכיל ערך של נקודה צפה (floating-point).
$K$ הוא מספר הרכיבים בווקטור הקלט (ווקטור הפלט).

לדוגמה, נניח שווקטור הקלט הוא:

[1.2, 2.5, 1.8]

לכן, softmax מחשבת את המכנה באופן הבא:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

לכן, ההסתברות ה-softmax של כל רכיב היא:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

לכן, הווקטור של הפלט הוא:

$$\sigma = [0.154, 0.565, 0.281]$$

הסכום של שלושת הרכיבים ב-$\sigma$ הוא 1.0. סוף סוף!

כוונון של הנחיות רכות

#language

#generativeAI

שיטה לכוונון מודל שפה גדול (LLM) לביצוע משימה מסוימת, ללא כוונון עדין שצורך משאבים רבים. במקום לאמן מחדש את כל המשקולות במודל, כוונון של הנחיות עם יכולת שחזור מתאימה באופן אוטומטי הנחיה להשגת אותו יעד.

בהינתן הנחיה טקסטואלית, כוונון של הנחיות רך בדרך כלל מצרף הטמעות נוספות של אסימונים להנחיה ומשתמש בהפצה לאחור כדי לבצע אופטימיזציה של הקלט.

הנחיה 'קשה' מכילה אסימונים בפועל במקום הטמעות אסימונים.

פיצ'ר נדיר

#language

#fundamentals

תכונה שהערכים שלה הם בעיקר אפס או ריקים. לדוגמה, תכונה שמכילה ערך בודד ומיליון ערכים של 0 היא דלילה. לעומת זאת, למאפיין צפוף יש ערכים שהם לרוב לא אפס או ריקים.

בלמידת מכונה, למספר מפתיע של תכונות יש מעט תכונות. תכונות קטגוריות הן בדרך כלל תכונות מעטות. לדוגמה, מתוך 300 מיני עצים אפשריים ביער, דוגמה אחת יכולה לזהות רק עץ אֶדֶר. או מתוך מיליוני הסרטונים האפשריים בספריית הסרטונים, דוגמה אחת יכולה לזהות רק את 'קזבלנקה'.

במודל, בדרך כלל מייצגים תכונות מעטות באמצעות קידוד חם אחד. אם הקידוד החד-פעמי הוא גדול, כדאי להוסיף שכבת הטמעה מעל הקידוד החד-פעמי כדי לשפר את היעילות.

ייצוג דל

#language

#fundamentals

אחסון רק של המיקומים של אלמנטים שאינם אפס בתכונה מצומצמת.

לדוגמה, נניח שתכונה מסווגת בשם species מזהה את 36 מיני העצים ביער מסוים. בנוסף, נניח שכל דוגמה מזהה רק מין אחד.

אפשר להשתמש בווקטור לוהט אחד כדי לייצג את מין העצים בכל אחת מהדוגמאות. וקטור לוהט אחד יכיל 1 יחיד (לייצוג מין העצים הספציפי בדוגמה הזו) ו-35 ערכי 0 (כדי לייצג את 35 המינים של עצים לא באותה דוגמה). לכן, הייצוג החד-פעמי של maple עשוי להיראות בערך כך:

וקטור שבו מיקומים 0 עד 23 מחזיקים את הערך 0, במיקום 24 מחזיק בערך 1 ובמיקומים 25 עד 35 מחזיקים את הערך 0.

לחלופין, ייצוג דליל פשוט יזהה את המיקום של המינים הספציפיים. אם maple נמצא במיקום 24, הייצוג החלקי של maple יהיה:

שימו לב שהייצוג הדל הוא הרבה יותר קומפקטי מהייצוג היחיד.

אפשר ללחוץ על הסמל כדי לראות דוגמה קצת יותר מורכבת.

נניח שכל דוגמה במודל שלכם חייבת לייצג את המילים במשפט באנגלית, אבל לא את הסדר של המילים האלו. אנגלית מכילה כ-170,000 מילים, כך שאנגלית היא תכונה קטגורית עם כ-170,000 רכיבים. רוב המשפטים באנגלית משתמשים בחלק זעיר מאוד מתוך 170,000 המילים האלה, כך לקבוצת המילים שבדוגמה אחת כמעט ודאי יהיו מעט נתונים.

למשל, נבחן את המשפט הבא:

My dog is a great dog

אפשר להשתמש בווריאנט של וקטור חם אחד כדי לייצג את המילים במשפט הזה. בווריאציה הזו, כמה תאים בווקטור יכולים להכיל ערך שאינו אפס. בנוסף, בווריאנט הזה תא יכול להכיל מספר שלם שאינו אחד. למרות שהמילים "my", "is", "a" ו-"great" מופיעות רק פעם אחת במשפט, המילה "כלב" מופיעה פעמיים. השימוש בווקטורים מסוג אחד חם כדי לייצג את המילים במשפט הזה מניב את הווקטור הבא של 170,000 רכיבים:

ייצוג מועט של אותו משפט יהיה:

יש ללחוץ על הסמל אם משהו לא ברור.

המונח 'ייצוג דל' מבלבל הרבה אנשים, כי ייצוג דליל הוא עצמו לא וקטור דל. במקום זאת, ייצוג דל הוא למעשה ייצוג צפוף של וקטור דל. ייצוג האינדקס של המילה הנרדפת קצת יותר ברור מ'ייצוג דל'.

וקטור דליל

#fundamentals

וקטור שהערכים שלו הם בעיקר אפסים. כדאי לעיין גם בפיצ'ר sparse וב-sparsity.

sparsity

מספר הרכיבים שמוגדרים כאפס (או null) בווקטור או במטריצה חלקי מספר הערכים הכולל בווקטור או במטריצה הזו. לדוגמה, נניח שיש מטריצה של 100 רכיבים שבה 98 תאים מכילים אפס. כך מחשבים את החלק היחסי:

$$ {\text{sparsity}} = \frac{\text{98}} {\text{100}} = {\text{0.98}} $$

מידת הבולטוּת של תכונות מתייחסת לחלק היחסי של הווקטור של התכונה. החלקיות של המודל מתייחסת למידת החלקיות של משקולות המודל.

מאגר מרחבי

#image

למידע נוסף, כדאי לקרוא את המאמר מאגר נתונים.

פיצול

#df

בעץ ההחלטות, שם אחר לתנאי.

פיצול

#df

בזמן אימון של עץ החלטות, התרחיש (והאלגוריתם) שאחראי למציאת התנאי הטוב ביותר בכל צומת.

SPMD

קיצור של Single Program / Multiple data

אובדן צירים מרובעים

הריבוע של הפסד הציר. אובדן צירים מרובעים מוביל למקרים של חריגות חריגות באופן חמור יותר מאשר אובדן צירים רגילים.

הפסד בריבוע

#fundamentals

מילה נרדפת לאובדן L₂.

אימון מדורג

#language

טקטיקה של אימון מודל ברצף של שלבים נפרדים. המטרה יכולה להיות לזרז את תהליך האימון או לשפר את איכות המודל.

איור של גישת הסידור בערימה בדרגה מחמירה:

שלב 1 מכיל 3 שכבות מוסתרות, שלב 2 מכיל 6 שכבות מוסתרות ושלב 3 מכיל 12 שכבות מוסתרות.
שלב 2 מתחיל להתאמן עם המשקולות שנלמדו בשלוש השכבות הנסתרות בשלב 1. שלב 3 מתחיל להתאמן עם המשקולות שנלמדו ב-6 השכבות המוסתרות בשלב 2.

שלושה שלבים שקיבלו את התוויות 'שלב 1', 'שלב 2' ו'שלב 3'.
כל שלב מכיל מספר שונה של שכבות: שלב 1 מכיל 3 שכבות, שלב 2 מכיל 6 שכבות, ושלב 3 מכיל 12 שכבות.
3 השכבות משלב 1 הופכות ל-3 השכבות הראשונות של שלב 2.
באופן דומה, 6 השכבות משלב 2 הופכות ל-6 השכבות הראשונות של שלב 3.

כדאי לעיין גם בצינור עיבוד נתונים.

state

#fundamentals

אלגוריתם של ירידה הדרגתית שבו גודל האצווה הוא אחד. כלומר, אימון SGD מתבצע לפי דוגמה אחת שנבחרה באופן אקראי מתוך קבוצת אימון.

צעדים

#image

בפעולה מורכבת או יצירת מאגרים, הדלתא בכל מימד מהסדרה הבאה של פרוסות הקלט. לדוגמה, האנימציה הבאה מדגימה צעד אחד (1,1) במהלך פעולה קונבולוציה. לכן, פרוסת הקלט הבאה מתחילה מיקום אחד מימין לפרוסת הקלט הקודמת. כשהפעולה מגיעה לקצה הימני, החלק הבא נמצא כל הדרך שמאלה אבל מיקום אחד למטה.

הדוגמה שלמעלה ממחישה את הצעדים הדו-ממדיים. אם מטריצת הקלט היא תלת-ממדית, גם הצעדים יהיו תלת-ממדיים.

צמצום סיכונים מבני (SRM)

אלגוריתם שמאזן שני יעדים:

צורך לבנות את המודל החזוי ביותר (לדוגמה, אובדן הכי נמוך).
הצורך שהמודל יהיה פשוט ככל האפשר (למשל, סידור חזק).

לדוגמה, פונקציה שממזערת את האובדן והסידור בערכת האימון היא אלגוריתם לצמצום סיכונים מבני.

השוואה בין צמצום סיכונים אמפירי.

תת-דגימה

#image

למידע נוסף, כדאי לקרוא את המאמר מאגר נתונים.

אסימון למילת המפתח

#language

ב-language models, אסימון שהוא מחרוזת משנה של מילה, שיכולה להיות המילה כולה.

לדוגמה, מילה כמו "itemize" עשויה להתחלק לחלקים "item" (מילה בסיסית) ו-"ize" (סיומת), שכל אחד מהם מיוצג על ידי אסימון משלו. פיצול מילים לא נפוצות לקטעים כאלו, שנקראים מילות משנה, מאפשר למודלים של שפה לפעול על חלקים שמרכיבים יותר את המילה, כמו תחיליות וסיומות.

לעומת זאת, יכול להיות שמילים נפוצות כמו "existing" לא יפוצלו, ושהן מיוצגות באמצעות אסימון יחיד.

סיכום

#TensorFlow

ב-TensorFlow, ערך או קבוצת ערכים שמחושבים בשלב מסוים, שבדרך כלל משמשים למעקב אחרי המדדים של המודל במהלך האימון.

למידת מכונה בפיקוח

#fundamentals

אימון model של model והmodel המתאימות להן. למידת מכונה מבוקרת מקבילה ללמידת נושא באמצעות בחינת סדרת שאלות והתשובות המתאימות להן. אחרי השלמת המיפוי בין השאלות והתשובות, התלמידים יכולים לספק תשובות לשאלות חדשות (שלא נראו בעבר) באותו נושא.

השוואה עם למידת מכונה לא בפיקוח.

תכונה סינתטית

#fundamentals

תכונה לא קיימת בין תכונות הקלט, אבל היא מורכבת מאחת או יותר מהן. שיטות ליצירת תכונות סינתטיות כוללות את השיטות הבאות:

חלוקה לקטגוריות של מאפיין מתמשך לתוך סלי טווח.
יצירת תכונות שונות.
הכפלה (או חלוקה) של ערך מאפיין אחד בערך של מאפיין אחר או בערך עצמו. לדוגמה, אם a ו-b הם תכונות קלט, אז הדוגמאות הבאות הן תכונות סינתטיות:
- ab
- a²
החלת פונקציה טרנסצנדנטלית על ערך של מאפיין. לדוגמה, אם c היא תכונת קלט, אלה דוגמאות לתכונות סינתטיות:
- sin(c)
- ln(c)

תכונות שנוצרות על ידי נירמול או התאמה לעומס לא נחשבות לתכונות סינתטיות.

T

T5

#language

מודל של למידה בטקסט לטקסט, שהושק על ידי AI מבית Google בשנת 2020. T5 הוא מודל מקודד-מפענח, שמבוסס על הארכיטקטורה Transformer, שאומן על מערך נתונים גדול במיוחד. הוא יעיל במגוון משימות של עיבוד שפה טבעית (NLP), כמו יצירת טקסט, תרגום שפות ומענה על שאלות בשיחות.

השם T5 קיבל את שמו מחמש האותיות T של "Text-to-Text Transfer Transformer".

T5X

#language

מסגרת של למידת מכונה בקוד פתוח, שנועדה ליצור ולאמן מודלים גדולים של עיבוד שפה טבעית (NLP) בקנה מידה גדול. T5 מוטמע ב-codebase של T5X (שמובנה ב-JAX וב-Flax).

טבלת Q

#rl

בלמידת חיזוק, הטמעה של למידה Q באמצעות טבלה לאחסון פונקציות Q לכל שילוב של מצב ופעולה.

יעד

תווית היא מילה נרדפת.

רשת היעד

#rl

ב-Deep Q-learning, רשת נוירונים שמשמשת כקירוב יציב של רשת הנוירונים הראשית, שבה רשת הנוירונים הראשית מטמיעה פונקציית Q או מדיניות. לאחר מכן תוכלו לאמן את הרשת הראשית לפי ערכי ה-Q שחזויה לפי רשת היעד. לכן אפשר למנוע את לולאת המשוב שמתרחשת כשהרשת הראשית עוברת אימון על ערכי Q שנחזות בעצמם. על ידי הימנעות מהמשוב הזה, יציבות האימון עולה.

משימה

בעיה שניתן לפתור באמצעות טכניקות של למידת מכונה, כמו:

טמפרטורה

#language

#image

#generativeAI

היפר-פרמטר ששולט ברמת הרנדומיזציה של הפלט של מודל. טמפרטורות גבוהות יותר מובילות לפלט אקראי יותר, וטמפרטורות נמוכות יותר מובילות לפלט אקראי פחות.

בחירת הטמפרטורה הטובה ביותר תלויה באפליקציה הספציפית ובמאפיינים המועדפים של הפלט של המודל. לדוגמה, סביר להניח שמעלים את הטמפרטורה כשיוצרים אפליקציה שיוצרת פלט של קריאייטיב. לעומת זאת, סביר להניח שהטמפרטורה תהיה נמוכה יותר כשתיצרו מודל שמסווג תמונות או טקסט כדי לשפר את הדיוק והעקביות של המודל.

#TensorFlow

המספר הכולל של הסקלרים שTensor מכיל. לדוגמה, [5, 10]הגודל של Tensor הוא 50.

TensorStore

ספרייה לקריאה וכתיבה ביעילות של מערכים רב-ממדיים גדולים.

תנאי סיום

#rl

בלמידת חיזוק, התנאים שקובעים מתי פרק יסתיים, למשל כשהסוכן מגיע למצב מסוים או חורג ממספר הסף של מעברים בין מדינות. לדוגמה, באיקס עיגול (שנקרא גם סימוני מסופים וצלבים), פרק מסתיים כשהשחקן מסמן שלושה רווחים עוקבים או כשכל הרווחים מסומנים.

test

#df

בעץ ההחלטות, שם אחר לתנאי.

אובדן בדיקה

#fundamentals

מדד שמייצג את ההפסד של המודל ביחס לקבוצת הבדיקה. כשיוצרים model, בדרך כלל מנסים לצמצם את אובדן הבדיקות. הסיבה לכך היא שהפסד של בדיקה נמוכה הוא אות איכות חזק יותר מאשר הפסד אימון נמוך או הפסד אימות נמוך.

פער גדול בין אובדן בדיקות לבין אובדן האימון או איבוד האימות לפעמים מצביע על כך שצריך להגביר את שיעור ההסתגלות.

ערכת בדיקה

קבוצת משנה של מערך הנתונים ששמורה לבדיקת מודל מאומן.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות המשנה הייחודיות הבאות:

כל דוגמה במערך נתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. למשל, דוגמה אחת לא צריכה להיות שייכת גם לערכת האימון וגם לקבוצת המבחן.

גם ערכת האימון וגם ערכת האימות קשורות בקשר הדוק לאימון של מודל. מכיוון שקבוצת הבדיקות קשורה רק באופן עקיף לאימון, הפסד מהבדיקה הוא מדד איכות פחות מוטה, גבוה יותר מאשר הפסד באימון או הפסד אימות.

טווח הטקסט

#language

טווח האינדקס של המערך המשויך לקטע משנה ספציפי של מחרוזת טקסט. לדוגמה, למילה good במחרוזת Python s="Be good now" יש טקסט בין 3 ל-6.

tf.Example

#TensorFlow

מאגר אחסון זמני לפרוטוקולים סטנדרטי לתיאור נתוני קלט לאימון או להסקת מודלים של למידת מכונה.

tf.keras

#TensorFlow

הטמעה של Keras שמשולבת ב-TensorFlow.

סף (עבור עצי החלטות)

#df

בתנאי שמותאם לציר, הערך שאליו משווים תכונה. לדוגמה, 75 הוא ערך הסף בתנאי הבא:

grade >= 75

ניתוח סדרת זמנים

#clustering

תחום משנה של למידת מכונה ונתונים סטטיסטיים לניתוח נתוני זמן. סוגים רבים של בעיות של למידת מכונה מחייבות ניתוח של סדרת זמנים, כולל סיווג, קיבוץ, חיזוי וזיהוי אנומליות. לדוגמה, אפשר להשתמש בניתוח של סדרת זמנים כדי לחזות את המכירות העתידיות של מעילי חורף לפי חודש על סמך נתוני מכירות היסטוריים.

חותמת זמן

#seq

תא 'unrolled' אחד בתוך רשת נוירונים חוזרת. לדוגמה, האיור הבא מציג שלושה שלבי זמן (מתויגים באמצעות כתבי המשנה t-1, t ו-t+1):

שלושה שלבי זמן ברשת נוירונים חוזרת. הפלט של השלב הראשון הופך לקלט של השלב השני. הפלט של השלב השני הופך לקלט של השלב השלישי.

token

#language

במודל שפה, היחידה האטומית שהמודל מאמן עליה ומבצע תחזיות לגביה. בדרך כלל האסימון הוא אחד מהבאים:

מילה מסוימת, לדוגמה, הביטוי "כלבים כמו חתולים" מורכב משלושת אסימונים מילוליים: "כלבים", "כמו" ו "חתולים".
תו, לדוגמה, הביטוי 'דג האופניים' מורכב מתשעה תווים. (חשוב לזכור שהשטח הריק נספר כאחד מהאסימונים).
מילות משנה – שבהן מילה יחידה יכולה להיות אסימון יחיד או מספר אסימונים. מילת משנה מורכבת ממילה בסיסית, קידומת או סיומת. לדוגמה, מודל שפה שמשתמש במילות משנה כאסימונים עשוי לראות את המילה 'כלבים' כשני אסימונים (מילת השורש 'כלב' והסיומת בצורת הרבים 's'). אותו מודל שפה עשוי להציג את המילה היחידה "גבוהה" יותר כשתי מילות משנה (מילת השורש "tall" והסיומת "er").

#fundamentals

תהליך קביעת הפרמטרים (משקלים והטיות) האידיאליים שמרכיבים מודל. במהלך האימון, המערכת קוראת דוגמאות ומשנה את הפרמטרים בהדרגה. באימון משתמשים בכל דוגמה, בין כמה פעמים למיליארדי פעמים.

אובדן אימון

#fundamentals

מדד שמייצג את הפסד של המודל במהלך איטרציה מסוימת של אימון. לדוגמה, נניח שפונקציית אובדן היא שגיאה בריבוע הממוצע. יכול להיות שההפסד באימון (השגיאה הממוצעת בריבוע) באיטרציה העשירית הוא 2.2, וההפסד באימון של האיטרציה ה-100 הוא 1.9.

עקומת הפסד מייצגת את אובדן האימון לעומת מספר איטרציות. עקומת הפסד מספקת את הרמזים הבאים לגבי אימון:

שיפוע יורד מעיד שהמודל משתפר.
שיפוע כלפי מעלה מעיד שהמודל הולך ומחמיר.
שיפוע שטוח מצביע על כך שהמודל הגיע למיזוג.

לדוגמה, עקומת ההפסד הבאה מציגה בצורה די אידיאלית:

שיפוע תלול במהלך איטרציות ראשוניות, שמרמז על שיפור מהיר של המודל.
שיפוע המשטח בהדרגה (אבל עדיין כלפי מטה) עד לסיום האימון, מה שמרמז על שיפור מתמשך של המודל בקצב קצת יותר איטי יותר מאשר במהלך האיטרציות הראשוניות.
שיפוע ישר לקראת סוף האימון, שמרמז על התכנסות.

התרשים של אובדן אימון לעומת איטרציות. עקומת ההפסדים הזו מתחילה
בשיפוע תלול. השיפוע מתפזר בהדרגה עד שהשיפוע הופך לאפס.

למרות שחשוב שהפסד האימון יהיה חשוב, כדאי לקרוא גם הכללה.

training-serving skew

#fundamentals

ההבדל בין הביצועים של המודל במהלך האימון לבין הביצועים של אותו המודל במהלך הצגת המודעות.

ערכת אימון

#fundamentals

קבוצת המשנה של מערך הנתונים שמשמשת לאימון מודל.

בדרך כלל, הדוגמאות במערך הנתונים מחולקות לשלוש קבוצות המשנה הייחודיות הבאות:

באופן אידיאלי, כל דוגמה במערך הנתונים צריכה להשתייך רק לאחת מקבוצות המשנה הקודמות. למשל, דוגמה אחת לא צריכה להשתייך גם לקבוצת האימון וגם לקבוצת האימות.

מסלול

#rl

בלמידת חיזוק, רצף של פיגורים שמייצג רצף של מעברי מצב של הסוכן, כאשר כל קישור תואם למצב, פעולה, תגמולים, והמצב הבא של מעבר למצב נתון.

למידה בהעברה

העברת מידע ממשימה אחת של למידת מכונה למשימה אחרת. לדוגמה, בלמידה בכמה משימות בו-זמנית, מודל יחיד פותר כמה משימות, כמו מודל עומק עם צומתי פלט שונים למשימות שונות. למידת ההעברה יכולה לכלול העברת ידע מפתרון של משימה פשוטה יותר לפתרון מורכב יותר, או העברת ידע ממשימה שיש בה יותר נתונים למשימה שיש בה פחות נתונים.

רוב המערכות של למידת המכונה יכולות לפתור משימה יחידה. למידת העברה היא שלב ראשוני לקראת בינה מלאכותית (AI), שבה תוכנית אחת יכולה לפתור מספר משימות.

רובוטריק

#language

ארכיטקטורה של רשת נוירונים שפותחה ב-Google שמסתמכת על מנגנוני קשב עצמי כדי להפוך רצף של הטמעות קלט לרצף של הטמעות פלט מבלי להסתמך על בלבולים או על רשתות נוירונים חוזרות. אפשר לראות בטרנספורמר כמה שכבות של תשומת לב עצמית.

טרנספורמר יכול לכלול כל אחת מהאפשרויות הבאות:

מקודד.
מפענח
גם מקודד וגם מפענח,

מקודד הופך רצף של הטמעות לרצף חדש באותו אורך. המקודד כולל N שכבות זהות, שכל אחת מהן מכילה שתי שכבות משנה. שתי שכבות המשנה האלה מוחלות בכל מיקום ברצף ההטמעה של הקלט, והופכות כל רכיב ברצף להטמעה חדשה. שכבת המשנה הראשונה של המקודד צוברת מידע מכל רצף הקלט. בשכבת המשנה השנייה של המקודד, המידע הנצבר הופך להטמעת פלט.

מפענח הופך רצף של הטמעות קלט לרצף של הטמעות פלט, אולי באורך שונה. מפענח כולל גם N שכבות זהות עם שלוש שכבות משנה, כששתיים מהן דומות לשכבות המשנה של המקודד. שכבת המשנה השלישית של המפענח לוקחת את הפלט של המקודד ומחילה את מנגנון הקשב העצמי על איסוף מידע ממנו.

בפוסט בבלוג Transformer: A Novel Neural Network Architecture for Language Understanding תוכלו למצוא מבוא טוב לטרנספורמרים.

שונות מתורגמת

#image

בבעיה של סיווג תמונות, היכולת של אלגוריתם לסווג תמונות גם כשהמיקום של האובייקטים בתמונה משתנה. לדוגמה, האלגוריתם עדיין יכול לזהות כלב, בין שהוא במרכז הפריים או בקצה השמאלי של הפריים.

אפשר לקרוא גם שונות בגודל ושונות סיבובית.

טריגר

#seq

#fundamentals

יצירת model עם יכולת חיזוי נמוכה כי המודל לא מתעד באופן מלא את המורכבות של נתוני האימון. יש הרבה בעיות שעלולות לגרום לאי-התאמה, כולל:

הדרכה על קבוצה שגויה של תכונות.
אימון למשך תקופות מעטות מדי או קצב למידה נמוך מדי.
אימון עם שיעור סדירות גבוהה מדי.
יצירת מעט מדי שכבות מוסתרות ברשת נוירונים עמוקה.

דגימה נמוכה

כדי ליצור קבוצת אימון מאוזנת יותר, צריך להסיר דוגמאות מהסיווג הראשי במערך נתונים לא מאוזן.

לדוגמה, נניח שהיחס בין קבוצת הרוב לבין סיווג מיעוט הוא 20:1. כדי להתגבר על חוסר האיזון הזה בכיתה, אפשר ליצור ערכת אימון שמורכבת מכל הדוגמאות של כיתות מיעוט, אבל רק עשירית מהדוגמאות מכיתות הרוב, וכך תיצור יחס גובה-רוחב של 2:1, שהוגדר כמערך אימון. בזכות חוסר דגימה, ערכת האימון המאוזנת הזו יכולה ליצור מודל טוב יותר. לחלופין, יכול להיות שקבוצת האימון המאוזנת יותר הזו לא מכילה מספיק דוגמאות לאימון מודל יעיל.

השוו בין דגימת יתר.

חד-כיווני

#language

מערכת שמעריכה רק את הטקסט שמקדים קטע יעד בטקסט. לעומת זאת, מערכת דו-כיוונית מעריכה גם את הטקסט שקודם וגם עוקב אחרי קטע יעד בטקסט. לקבלת פרטים נוספים, אפשר לעיין בקטע דו-כיווני.

מודל שפה חד-כיווני

#language

מודל שפה שמבסס את ההסתברויות שלו רק על האסימונים שמופיעים לפני, ולא אחרי, אסימוני היעד. ניגוד למודל שפה דו-כיווני.

דוגמה ללא תווית

#fundamentals

דוגמה שכוללת תכונות אבל בלי תווית. לדוגמה, בטבלה הבאה מוצגות שלוש דוגמאות ללא תווית ממודל של הערכת בית. לכל אחת מהן יש שלוש תכונות אבל אין לה ערך בית:

מספר חדרי שינה	מספר חדרי הרחצה	גיל הבית
3	2	15
2	1	72
4	2	34

בלמידת מכונה בפיקוח, מודלים מאמנים על דוגמאות מתויגות ויוצרים תחזיות לגבי דוגמאות ללא תוויות.

בלמידה בפיקוח חלקי ובלמידה ללא פיקוח, במהלך האימון משתמשים בדוגמאות ללא תוויות.

יש להשוות בין דוגמה ללא תווית לבין דוגמה עם תווית.

למידת מכונה בלתי מונחית

#clustering

#fundamentals

אימון model כדי למצוא דפוסים במערך נתונים, בדרך כלל מערך נתונים ללא תווית.

השימוש הנפוץ ביותר בלמידת מכונה לא מפוקחת הוא אשכולות של נתונים בקבוצות של דוגמאות דומות. לדוגמה, אלגוריתם של למידת מכונה ללא פיקוח יכול לקבץ שירים על סמך מאפיינים שונים של המוזיקה. האשכולות שמתקבלים יכולים להפוך קלט לאלגוריתמים אחרים של למידת מכונה (לדוגמה, לשירות המלצות על מוזיקה). יצירת אשכולות יכולה לעזור כשיש מעט תוויות שימושיות או חסרות תוויות. לדוגמה, בתחומים כמו מניעת ניצול לרעה והונאות, אשכולות יכולים לעזור לבני אדם להבין טוב יותר את הנתונים.

השוואה בין למידת מכונה בפיקוח.

לוחצים על הסמל כדי להציג הערות נוספות.

דוגמה נוספת ללמידת מכונה לא בפיקוח היא ניתוח רכיבים עיקריים (PCA). לדוגמה, שימוש ב-PCA על מערך נתונים שמכיל את התוכן של מיליוני עגלות קניות עשוי לחשוף שעגלות קניות שמכילות לימונים לעיתים קרובות מכילות גם חומצות חומצה.

בניית מודלים לשיפור הביצועים

שיטת בניית מודלים, נפוצה בשיווק, שנועדה לבנות מודלים של 'ההשפעה הסיבתית' (שנקראת גם 'השפעה מצטברת') של 'טיפול' על אדם פרטי. כדי להבין זאת טוב יותר, הינה שתי דוגמאות:

רופאים עשויים להשתמש בבניית מודלים למדידת התחזקות המותג כדי לחזות את הירידה בתמותה (ההשפעה הסיבתית) של הליך רפואי (טיפול) בהתאם לגיל ולהיסטוריה הרפואית של מטופל (אדם פרטי).
משווקים עשויים להשתמש בבניית מודלים לשיפור הביצועים כדי לחזות את העלייה בהסתברות לרכישה (השפעה סיבתית) כתוצאה מפרסומת (טיפול) על אדם (אדם פרטי).

בניית מודל השיפור בביצועים שונה מסיווג או מרגרסיה בכך שתוויות מסוימות (למשל, מחצית מהתוויות בטיפולים בינאריים) תמיד חסרות בבניית מודל השיפור. לדוגמה, מטופלת יכולה לקבל טיפול או לא, כך שאנחנו יכולים לראות רק אם המטופל יחלים או לא יחלים רק באחד משני המצבים האלה (אבל אף פעם לא בשניהם). היתרון העיקרי של מודל השיפור הוא שהוא יכול ליצור תחזיות למצב שלא ניתן למדידה (העובדה הנגדית) ולהשתמש בו כדי לחשב את ההשפעה הסיבתית.

שקלול

החלת משקל על המחלקה downsampled ששווה לגורם שבו בוצעה הדגימה.

מטריצת משתמשים

#recsystems

במערכות של המלצות, וקטור הטמעה שנוצר על ידי פירוק לגורמים של מטריצות, שמכיל אותות לטנטיים לגבי העדפות המשתמשים. כל שורה במטריצת המשתמשים מכילה מידע על העוצמה היחסית של אותות לטנטיים שונים של משתמש יחיד. לדוגמה, נבחן מערכת המלצות על סרטים. במערכת הזו, האותות הלטנטיים במטריצת המשתמשים עשויים לייצג את העניין של כל משתמש בז'אנרים מסוימים, או שעשויים להיות אותות שקשה יותר לפרש שכוללים אינטראקציות מורכבות מכמה גורמים.

מטריצת המשתמשים כוללת עמודה לכל תכונה חבויה ושורה לכל משתמש. כלומר, במטריצת המשתמשים יש אותו מספר שורות כמו במטריצת היעד שמפולחים. לדוגמה, בהינתן מערכת המלצות לסרטים ל-1,000,000 משתמשים, מטריצת המשתמשים תכלול 1,000,000 שורות.

V

אימות

#fundamentals

ההערכה הראשונית של איכות המודל. האימות בודק את איכות החיזויים של המודל ביחס לקבוצת האימות.

מכיוון שמערכת האימות שונה מקבוצת האימון, האימות עוזר להגן מפני התאמת יתר.

אפשר להעריך את המודל ביחס לקבוצת האימות בתור הסבב הראשון של הבדיקה, והערכת המודל ביחס לקבוצת הבדיקה כסבב השני של הבדיקה.

אובדן אימות

#fundamentals

מדד שמייצג את ההפסד של המודל בקבוצת האימות במהלך איטרציה מסוימת של אימון.

ראו גם עקומת הכללה.

קבוצת אימות

#fundamentals

קבוצת המשנה של מערך הנתונים שמבצעת הערכה ראשונית מול מודל מאומן. בדרך כלל, מעריכים את המודל שאומן ביחס לקבוצת האימות כמה פעמים לפני שמעריכים את המודל ביחס לקבוצת הבדיקה.

בדרך כלל, מחלקים את הדוגמאות במערך הנתונים לשלוש קבוצות המשנה הייחודיות הבאות:

הקצאת ערך

תהליך ההחלפה של ערך חסר בתחליף קביל. אם חסר ערך, אפשר למחוק את כל הדוגמה או להשתמש בהקצאת ערך כדי להשמיט את הדוגמה.

לדוגמה, מערך נתונים שמכיל את התכונה temperature שאמורה להתועד בכל שעה. עם זאת, מדד הטמפרטורה לא היה זמין בשעה מסוימת. לפניכם קטע מתוך מערך הנתונים:

חותמת זמן	טמפרטורה
1680561000	‏10
1680564600	12
1680568200	חסר
1680571800	20
1680575400	21
1680579000	21

מערכת יכולה למחוק את הדוגמה החסרה או לקבוע שהטמפרטורה החסרה היא 12, 16, 18 או 20, בהתאם לאלגוריתם החישובים.

בעיה הדרגתית נעלמת

#seq

הנטייה של ההדרגתיות של השכבות מוסתרות המוקדמות של רשתות נוירונים עמוקות להפוך לשטוחות באופן מפתיע (נמוכה). ככל שההדרגתיות נמוכה יותר ויותר, היא מובילה לשינויים קלים יותר במשקלים בצמתים ברשת נוירונים עמוקה, שמובילה ללמידה מועטה או ללא למידה. מודלים שסובלים מבעיית ההדרגתיות הנעלמת הופכים להיות קשה או בלתי אפשרי לאימון. תאים עם זיכרון ארוך לטווח קצר מטפלים בבעיה הזו.

השוו לבעיה עם הדרגתיות מתפוצצת.

חשיבות משתנה

#df

קבוצת ציונים שמציינת את החשיבות היחסית של כל תכונה למודל.

לדוגמה, נבחן עץ החלטות שמעריך את מחירי הבית. נניח שעץ ההחלטות הזה משתמש בשלוש תכונות: גודל, גיל וסגנון. אם קבוצה של חשיבות משתנה לשלוש המאפיינים מחושבת כך: {size=5.8, Age=2.5, style=4.7}, אז הגודל חשוב יותר לעץ ההחלטות מאשר הגיל או הסגנון.

יש מדדי חשיבות שונים למשתנים, שיכולים לסייע למומחי למידת מכונה לגבי היבטים שונים של מודלים.

מקודד אוטומטי וריאציות (VAE)

#language

סוג של מקודד אוטומטי שמנצל את אי-ההתאמה בין הקלט לפלט כדי ליצור גרסאות ששונו של הקלט. מקודדים אוטומטיים וריאציוניים (VAE) הם שימושיים לשימוש ב-AI גנרטיבי.

ערכי ה-VAE מבוססים על מסקנות משתנות: שיטה להערכת הפרמטרים של מודל הסתברות.

וקטור

מונח עמוס מאוד שהמשמעות שלו משתנה מתחומים מתמטיים ומדעיים שונים. בתוך למידת מכונה, לווקטור יש שתי תכונות:

סוג הנתונים: וקטורים בלמידת מכונה בדרך כלל מכילים מספרי נקודה צפה (floating-point).
מספר הרכיבים: זהו אורך הווקטור או המאפיין שלו.

לדוגמה, נבחן וקטור מאפיין שמחזיק שמונה מספרים של נקודות צפות. לווקטור המאפיין הזה יש אורך או ממד של שמונה. שימו לב שלוקטורים של למידת מכונה יש בדרך כלל מספר עצום של מימדים.

אפשר לייצג סוגים רבים ושונים של מידע בתור וקטור. למשל:

כל מיקום על פני השטח של כדור הארץ יכול להיות מיוצג בווקטור דו-ממדי, שבו ממד אחד הוא קו הרוחב והאחר הוא קו האורך.
אפשר לייצג את המחירים הנוכחיים של כל אחת מ-500 המניות בווקטור 500 ממדי.
אפשר לייצג התפלגות של הסתברות על מספר סופי של סיווגים בתור וקטור. לדוגמה, מערכת סיווג מרובה-מחלקות שחוזה אחד מתוך שלושה צבעי פלט (אדום, ירוק או צהוב) יכולה להפיק את הפלט של הווקטור (0.3, 0.2, 0.5) במשמעות של P[red]=0.3, P[green]=0.2, P[yellow]=0.5.

אפשר לשרשר וקטורים, כך שאפשר לייצג מגוון של מדיה שונה בתור וקטור יחיד. חלק מהמודלים פועלים ישירות על שרשור קידודים מסוג אחד (Hotspot).

מעבדים מיוחדים כמו מעבדי TPU מותאמים לביצוע פעולות מתמטיות על וקטורים.

וקטור הוא טווח של דירוג 1.

W

הפסד וסרשטיין

אחת מפונקציות האובדן הנפוצות ברשתות נגד יריבות גנרטיביות, על סמך המרחק של מעביר כדור הארץ בין ההתפלגות של הנתונים שנוצרו לבין הנתונים האמיתיים.

משקל

#fundamentals

ערך שמודל מכפיל בערך אחר. אימון הוא התהליך לקביעת המשקולות האידיאליים של מודל. הסקת מסקנות היא תהליך השימוש במשקולות שנלמדו כדי ליצור תחזיות.

לוחצים על הסמל כדי לראות דוגמה למשקולות במודל ליניארי.

נניח שיש לכם מודל לינארי עם שתי תכונות. נניח שהאימון קובע את המשקולות (וההטיה הבאות):

להטיה, b, יש ערך של 2.2
המשקל, w₁ המשויך לתכונה אחת הוא 1.5.
המשקל, w₂ המשויך לתכונה השנייה הוא 0.4.

עכשיו נניח דוגמה עם ערכי התכונות הבאים:

הערך של תכונה אחת, x₁, הוא 6.
הערך של התכונה השנייה, x₂, הוא 10.

המודל הלינארי הזה משתמש בנוסחה הבאה כדי ליצור חיזוי, y':

$$y' = b + w_1x_1 + w_2x_2$$

לכן החיזוי הוא:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

אם המשקל הוא 0, אז הישות המתאימה לא תורמת למודל. לדוגמה, אם w₁ הוא 0, הערך של x₁ לא רלוונטי.

ריבועים נמוכים יותר משוקללים (WALS)

#recsystems

אלגוריתם לצמצום פונקציית היעד במהלך פירוק לגורמים של מטריצות במערכות המלצות, שמאפשר להוריד את המשקל של הדוגמאות החסרות. WALS ממזער את השגיאה בריבוע המשוקלל בין המטריצה המקורית לבין השחזור, על ידי החלפה בין תיקון הפירוק לגורמים של שורות לבין הפירוק לגורמים של עמודות. אפשר לפתור כל אחת מהאופטימיזציות האלה באמצעות ריבועים לפחות אופטימיזציה באמצעות קצוות. לפרטים נוספים, קראו את הקורס Recommendation Systems.

סכום משוקלל

#fundamentals

הסכום של כל ערכי הקלט הרלוונטיים כפול המשקלים התואמים שלהם. לדוגמה, נניח שהקלט הרלוונטי מכיל את הנתונים הבאים:

ערך הקלט	משקל הקלט
2	1.3-
-1	0.6
3	0.4

לכן הסכום המשוקלל הוא:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

סכום משוקלל הוא ארגומנט הקלט של פונקציית הפעלה.

מודל רחב

מודל לינארי שיש לו בדרך כלל הרבה תכונות קלט מעטות. אנחנו קוראים לו 'רחבה' כי מודל כזה הוא סוג מיוחד של רשת נוירונים עם מספר גדול של מקורות קלט שמתחברים ישירות לצומת הפלט. בדרך כלל קל יותר לנפות באגים ולבדוק במודלים רחבים מאשר במודלים עמוקים. על אף שמודלים רחבים לא יכולים לבטא לא ליניאריות באמצעות שכבות מוסתרות, מודלים רחבים יכולים להשתמש בטרנספורמציות כמו מעברי פיצ'רים ויצירת קטגוריות כדי ליצור מודלים של לא ליניאריות בדרכים שונות.

השוו בין שימושים במודל עומק.

רוחב

מספר הנוירונים בשכבה מסוימת של רשת נוירונים.

חוכמת ההמונים

#df

הרעיון שלפיו חישוב ממוצע של הדעות או ההערכות של קבוצה גדולה של אנשים ("הקהל") מניב תוצאות טובות להפתיע. לדוגמה, נסו לחשוב על משחק שבו אנשים מנחשים כמה סוכריות ג'לי ארוזות בצנצנת גדולה. על אף שרוב הניחושים הנפרדים לא יהיו מדויקים, הוכח שממוצע הניחושים יהיה קרוב באופן מפתיע למספר הניחושים האמיתיים שיש בצנצנת.

Ensembles הם תוכנה שמקבילה לחוכמה של הקהל. גם אם מודלים מסוימים מספקים חיזויים לא מדויקים, חישוב ממוצע של החיזויים של מודלים רבים יוצר תחזיות טובות באופן מפתיע. לדוגמה, על אף שעץ החלטות מסוים עשוי ליצור חיזויים לא טובים, יער החלטות בדרך כלל מספק תחזיות טובות מאוד.

הטמעת מילים

#language

ייצוג של כל מילה בקבוצה מוגדרת בתוך וקטור הטמעה, כלומר ייצוג של כל מילה כווקטור של ערכי נקודה צפה (floating-point) בין 0.0 ל-1.0. למילים עם משמעות דומה, יש ייצוגים דומים יותר למילים עם משמעויות שונות. לדוגמה, לגזרים, סלרי ומלפפונים יהיו ייצוגים דומים יחסית, שיהיו שונים מאוד מהייצוגים של מטוס, משקפי שמש ומשחת שיניים.

X

XLA (אלגברה לינארית מואצת)

כלי מהדר בקוד פתוח ללמידת מכונה למעבדי GPU, למעבדים (CPU) ולמאיצים של למידת מכונה.

המהדר של XLA לוקח מודלים מ-frameworks פופולריות של למידת מכונה, כמו PyTorch, TensorFlow ו-JAX, ומייעל אותם לביצוע ביצועים גבוהים בפלטפורמות חומרה שונות, כולל מעבדי GPU, מעבדים ומעבדים (CPU) מאיצים.

Z

למידה מאפס

סוג של אימון של למידת מכונה, שבו המודל מסיק חיזוי למשימה שהוא לא אומן באופן ספציפי כבר. במילים אחרות, נותנים למודל אפס דוגמאות לאימון ספציפי למשימה, אבל התבקשו לבצע הסקת מסקנות בשביל המשימה הזו.

יצירת הנחיות מאפס

#language

#generativeAI

הנחיה שלא מספקת דוגמה לאופן שבו רוצים שמודל השפה הגדול יגיב. למשל:

החלקים של הנחיה אחת	הערות
`מה המטבע הרשמי של המדינה שצוינה?`	השאלה שעליה יצטרך לענות ה-LLM.
`הודו:`	השאילתה עצמה.

מודל השפה הגדול (LLM) עשוי להגיב לאחת מהאפשרויות הבאות:

רופיות
INR
₹
רופי הודי
הרופי
הרופי ההודי

כל התשובות נכונות, אבל יכול להיות שתעדיפו פורמט מסוים.

אתם יכולים להשוות בין הנחיות מאפס לבין המונחים הבאים:

נירמול של ציון ה-Z

#fundamentals

שיטת התאמה לעומס (scaling) שמחליפה ערך גולמי של תכונה בערך נקודה צפה (floating-point) שמייצג את מספר סטיות התקן מהממוצע של המאפיין. לדוגמה, נבחן תכונה שהממוצע שלה הוא 800 וסטיית התקן שלה היא 100. הטבלה הבאה מראה איך הנירמול של ציון ה-Z ממופה את הערך הגולמי לציון ה-Z:

ערך גולמי	נקודות Z
800	0
950	1.5+
575	2.25-

לאחר מכן, המודל של למידת המכונה עובר אימון לפי ציוני ה-Z של התכונה הזו במקום לפי הערכים הגולמיים.