Prompt engineering מגיע למישור במשימת תחום צר הזקוקה לסגנון עקבי.
→הפעל prompt tuning ב-Tuning Studio כדי ללמוד soft prompt (וקטור מכוונן) על דוגמאות מתויגות.
למה: Prompt tuning מתאים התנהגות מבלי לשנות משקולות בסיס – זול יותר מ-fine-tuning, אמין יותר מ-prompts ארוכים.
מקור↗
המודל חסר ידע עדכני ועובדתי ברמת הארגון.
→השתמש ב-RAG כדי לבסס תשובות במסמכים מאוחזרים במקום לכווונן את המודל על עובדות אלו.
למה: Tuning מלמד סגנון/התנהגות, לא עובדות טריות; RAG מזריק הקשר מבוסס עדכני וקל לעדכון.
החלטה בין prompt tuning לבין fine-tuning מלא עבור פרויקט watsonx ברמת עמית.
→העדף prompt tuning: הוא מאמן הרבה פחות פרמטרים, פועל מהר יותר, והוא הנתיב הנתמך ב-Tuning Studio.
למה: Full fine-tuning יקר, דורש מערכי נתונים גדולים, ומסכן שכחה קטסטרופלית; prompt tuning הוא ברירת המחדל של watsonx.
הכנת נתונים לכוונון prompt של מודל סיכום.
→ספק זוגות קלט/פלט בפורמט JSON/JSONL הצפוי, מחולקים לערכות אימון ואימות.
למה: זוגות נקיים וייצוגיים מניעים את איכות הכוונון; יש צורך בערכת אימות שמורה כדי לקרוא הכללה.
עקומת אובדן הכוונון משתטחת מוקדם בזמן שאובדן האימות מתחיל לעלות.
→עצור או צמצם epochs — המודל מתחיל להתאים יתר על המידה לסט האימון.
למה: אובדן אימון/אימות מתפצל הוא אות ה-overfit הקלאסי; יותר epochs ישננו, לא יכלילו.
תוצאות ה-prompt-tuning אינן יציבות על פני הרצות.
→כוונן את learning rate, מספר ה-epochs, batch size, ומספר ה-virtual tokens בתצורת הכוונון.
למה: learning rate גבוה מדי מערער את היציבות של האימון; אלה הם המנופים ש-Tuning Studio חושף לצורך התכנסות.
צריך להשוות שני prompts או נכסים מכווננים באופן אובייקטיבי.
→הערך באמצעות מדדי משימות (לדוגמה ROUGE/BLEU עבור סיכום, exact-match/F1 עבור חילוץ) בתוספת סקירה אנושית.
למה: איכות יצירה היא רב-ממדית; מדדים אוטומטיים מזהים רגרסיות אך סקירה אנושית שופטת נאמנות.
מודל מכוונן עדיין ממציא עובדות שאינן קיימות במקור.
→בסס באמצעות RAG, הורד את ה-temperature, והנחה את המודל לענות רק מההקשר שסופק או לומר שהוא אינו יודע.
למה: הזיה היא בעיית ביסוס ו-decoding יותר מאשר בעיית משקולות; אחזור בתוספת אילוצים מתקנים את רוב הבעיה.
רק כמה עשרות דוגמאות מתויגות זמינות להתאמה.
→הישאר עם few-shot prompting או prompt tuning קל; אל תבצע fine-tuning על נתונים זעירים.
למה: מערכי נתונים קטנים עוברים overfit רע תחת fine-tuning מלא; דוגמאות בתוך ההקשר מכלילות טוב יותר בקנה מידה זה.
בחירה באיזה מודל בסיס לכוונון prompt עבור משימת סיווג.
→בחר מודל בסיס Granite הניתן לכוונון ש-Tuning Studio תומך בו עבור prompt tuning, בגודל המתאים למשימה.
למה: לא כל מודל בקטלוג ניתן לכוונון; כוונון מודל קטן יותר נתמך זול יותר ולעתים קרובות מספיק לסיווג.
יש לעקוב אחר איכות הפלט הגנרטיבי באופן רציף בייצור.
→הגדר מדדי הערכה של watsonx.governance (איכות, סחף, מדדי generative-AI) מול הפריסה.
למה: Governance הופך הערכה חד-פעמית לספי מדדים מנוטרים עם התראות, ולא בדיקה נקודתית ידנית.
אותו prompt מכוונן חייב לשרת קלטים רבים עם שדות שונים.
→הגדר את תבנית ה-prompt עם משתנים בעלי שם וספק ערכים בזמן ההסקה.
למה: משתנים שומרים תבנית אחת ניתנת לשימוש חוזר במקום קידוד קשיח של קלטים, והם ממפים באופן נקי לפרמטרי API.
מודל מתעלם מהוראת המשימה וממשיך את הטקסט.
→השתמש במודל מכוונן להוראות ומסגר את ה-prompt כהנחיה מפורשת, לא כקטע להשלמה.
למה: מודלי completion בסיסיים ממשיכים דפוסים; מודלי instruct מאומנים לקיים הנחיות.