הסבר מה מאפשר לטרנספורמר לשקול אסימונים מרוחקים בעת יצירת האסימון הבא.
→Self-attention. כל אסימון מתייחס לכל אסימון אחר באמצעות היטלי query/key/value, ומייצר ייצוגים משוקללי-הקשר.
למה: Attention, ולא רקורסיה, הוא מה שמעניק לטרנספורמרים הקשר ארוך טווח ואימון שניתן לביצוע במקביל.
בחר כיצד להזריק ידע או התנהגות חדשים ל-LLM.
→עובדות חדשות המשתנות לעיתים קרובות ← RAG. התנהגות/סגנון משימה חדשים ← fine-tune. יכולת בסיס/אוצר מילים חדשים בקנה מידה רחב ← pre-training מתמשך.
למה: RAG שומר על נתונים חיצוניים וניתנים לעדכון; fine-tuning מטמיע התנהגות במשקלים; pre-training הוא המנוף היקר ביותר.
הגדר מה הופך מודל למודל בסיס (foundation model).
→מודל גדול שאומן מראש על נתונים רחבים ובלתי מסומנים ברובם, הניתן להתאמה למשימות רבות במורד הזרם באמצעות prompting, RAG או fine-tuning.
הערך כיצד טקסט ממופה ליחידות קלט מודל ומה מניע עלות.
→טקסט מחולק לאסימוני תת-מילים על ידי tokenizer (לדוגמה BPE). עלות ומגבלות הקשר נמדדות באסימונים, לא בתווים או במילים.
למה: מילים נדירות או שאינן באנגלית מתפצלות ליותר אסימונים, מה שמנפח את השימוש בהקשר ואת עלות ה-inference.
מסמך ארוך אינו מתאים לפרומפט יחיד.
→הקלט חורג מחלון ההקשר של המודל (מספר אסימונים מקסימלי לקלט + פלט). חלק את המסמך עבור RAG או בחר מודל בעל הקשר ארוך יותר.
למה: חלון ההקשר הוא מגבלה קשה; כל מה שמעבר לו נקטע ואובד בשקט.
הפעל חיפוש סמנטי או אחזור RAG על טקסט.
→השתמש במודל embedding להמרת טקסט לווקטורים צפופים, ולאחר מכן אחזר לפי דמיון קוסינוס/מכפלה וקטורית ממאגר וקטורים.
למה: Embeddings ממקמים טקסטים דומים סמנטית זה ליד זה, ומאפשרים אחזור מבוסס משמעות ולא אחזור מבוסס מילות מפתח.
בחר התנהגות פלט: דטרמיניסטית לעומת יצירתית.
→טמפרטורה נמוכה (~0.0-0.3) ← ממוקד, ניתן לשחזור. טמפרטורה גבוהה (~0.7-1.0) ← מגוון, יצירתי. השתמש בערך קרוב ל-0 לסיווג או חילוץ.
למה: טמפרטורה מכיילת את התפלגות ההסתברות לפני דגימה; ערכים נמוכים יותר מרכזים מסה על האסימונים המובילים.
הגבל את מאגר האסימונים המועמדים מעבר לטמפרטורה.
→Top-k שומר על k האסימונים הסבירים ביותר; top-p (nucleus) שומר על הקבוצה הקטנה ביותר שההסתברות המצטברת שלה מגיעה ל-p.
למה: Top-p מתאים את קבוצת המועמדים לצורת ההתפלגות; top-k הוא ברוחב קבוע ללא קשר לרמת הביטחון.
זהה כיצד LLMs לומדים מטקסט ללא תווית.
→למידה בפיקוח עצמי (self-supervised learning) — חיזוי האסימון הבא (causal) או אסימון מוסווה יוצר תוויות מהטקסט עצמו, ללא סימון אנושי.
למה: זה מה שמאפשר ל-LLMs להתאמן על קורפוסים בגודל האינטרנט ללא תיוג ידני.
התאם ארכיטקטורה למשפחת משימות.
→יצירה (Generation) ← decoder-only (בסגנון GPT). הבנה/סיווג ← encoder-only (בסגנון BERT). תרגום/סיכום בסגנון Seq-to-seq ← encoder-decoder (בסגנון T5).
למה: מודלי Decoder-only מנבאים משמאל לימין; encoders רואים הקשר דו-כיווני, טוב יותר למשימות ייצוג.
גרום למודל בסיס לעקוב אחר הוראות ולהעדיף תשובות מועילות ובטוחות.
→כיוונון הוראות (instruction tuning) ולאחריו יישור (alignment) כגון RLHF — למידת חיזוק מדירוג העדפות אנושי.
למה: מודל גולמי שאומן מראש מנבא טקסט; יישור מכוון אותו להתנהגות עוזר מיועדת.
המודל מצהיר על עובדות בטוחות אך מפוברקות.
→הזיה (Hallucination). צמצם על ידי ביסוס עם RAG, הורדת טמפרטורה, ציון מקורות, והוספת guardrails בתוספת סקירה אנושית עבור פלטים בעלי חשיבות גבוהה.
למה: LLMs מנבאים אסימונים סבירים, לא עובדות מאומתות; ביסוס מספק את הראיות החסרות.
הבחן בין גודל מודל לגודל נתוני אימון.
→Parameters = משקלים נלמדים (קיבולת מודל). Tokens = נפח טקסט אימון. שניהם מכיילים יכולת תחת חוקי קנה מידה.
למה: מודל גדול יותר שאומן יתר על המידה על מעט מדי אסימונים מציג ביצועים נמוכים יותר ממודל קטן יותר שאומן היטב (התובנה של Chinchilla).
הפרד את שני השלבים עתירי ה-GPU במחזור החיים של LLM.
→אימון (Training) מעדכן משקלים מנתונים (חד פעמי, באצ'ים). Inference מריץ את המודל הקפוא כדי לייצר פלטים (מתמשך, רגיש לשיהוי).
למה: כלי אופטימיזציה שונים: אימון משתמש בפריימוורקים מקבילים; inference משתמש ב-TensorRT-LLM ו-Triton.
מודל מכוונן דק שונא דוגמאות אימון ונכשל בקלטים חדשים.
→התאמת יתר (Overfitting). צמצם עם יותר/מגוון נתונים, עצירה מוקדמת, קצב למידה נמוך יותר, פחות אימונים, או רגולריזציה כמו dropout.
למה: פער גדול בין אימון לוולידציה פירושו שהמודל התאים רעש במקום תבניות ניתנות להכללה.