פלט דיפוזיה מתעלם מההנחיה; העלאת הנאמנות לטקסט מבלי להרוס את איכות התמונה.
→הגבר את קנה מידת ההכוונה ללא מסווג; חפש רוויית יתר/ארטיפקטים וסגת.
למה: CFG גבוה יותר מהדק את ההיצמדות להנחיה אך גבוה מדי גורם לצבעים שרופים ולפרטים לא טבעיים — זהו פשרה, לא מנוף חינם.
דגימת דיפוזיה איטית מדי עבור הדגמה אינטראקטיבית; צמצם שלבים ללא אובדן איכות ברור.
→עבור לדוגם ODE מהיר יותר (DPM-Solver++ / Euler) והפחת שלבים; אמת עם FID, לא בהערכה ויזואלית.
למה: דוגמים מודרניים מגיעים לאיכות דומה בהרבה פחות שלבים מדגימת DDPM קדומה.
ל-pipeline מולטימודלי יש חלקים נעים רבים ותוצאה חלשה אחת; החלטה מה לשנות הבא.
→הרץ אבלציה מבוקרת — שנה רכיב אחד בכל פעם ומדוד מול סט הערכה קבוע.
למה: שינוי מספר גורמים בו-זמנית הופך את התוצאה לבלתי ניתנת לפירוש; בודד את הגורם לפני הגדלת קנה מידה.
תוצאות יצירה משתנות מהרצה להרצה ואינך יכול להשוות הוגן בין שתי וריאציות של הנחיה.
→תקן את הגרעין האקראי (והדוגם) כך שההבדל היחיד יהיה המשתנה הנבדק.
למה: דיפוזיה היא סטוכסטית; ללא גרעין קבוע אתה משווה רעש, לא את השינוי שלך.
תמונות שנוצרו ממשיכות לכלול אלמנט לא רצוי (למשל, טקסט, סימן מים, גפיים נוספות).
→הוסף הנחיה שלילית המתארת מה יש להוציא; שלב עם CFG.
למה: הנחיה שלילית מסיטה את הענף הבלתי מותנה ממפשעים מוגדרים — זול יותר מאימון מחדש.
בחירת המדד הנכון להנעת ניסוי טקסט לתמונה.
→השתמש ב-FID לאיכות תמונה התפלגותית, ב-CLIPScore ליישור הנחיה-תמונה, ובהעדפה אנושית להחלטה הסופית.
למה: מדד בודד מטעה: מודל יכול להשיג ציון FID מצוין תוך התעלמות מההנחיה. השתמש בשני הצירים.
משימת כיתוב של מודל שפה-חזון מספקת כיתובים לא עקביים ומזויפים (hallucinated).
→הורד טמפרטורת פענוח / השתמש בגישה חמדנית (greedy) או ב-top-p נמוך לכיתוב עובדתי.
למה: טמפרטורה גבוהה מגבירה יצירתיות והזיות; כיתוב דורש דטרמיניזם וביסוס.
איטרציה על תנאי איטית מכיוון שכל סבב מעריך את כל מערך הנתונים.
→בנה סט הערכה זהב קטן וייצוגי לאיטרציה מהירה; הרץ הערכה מלאה רק על מועמדים.
למה: לולאות משוב הדוקות עדיפות על פני לולאות ממצות אך איטיות בשלב הניסוי.
צריך שתמונות שנוצרו יעקבו אחר תנוחה, עומק או פריסת קצוות מדויקים.
→הוסף התניה מבנית (בסגנון ControlNet: תנוחה/עומק/canny) בנוסף להנחיה הטקסטואלית.
למה: הנחיות טקסט אינן יכולות לציין מבנה מרחבי מדויק; מפה התנייה עזר יכולה.
שתי נקודות בקרה מקבלות ציוני FID/CLIPScore כמעט זהים; בחירה איזו מהן לשלוח.
→הרץ בדיקת A/B עיוורת של העדפה אנושית על סט הנחיות שמור.
למה: מדדים אוטומטיים מגיעים לרוויה; העדפה אנושית היא שובר השוויון לאיכות יצירה.
המודל נראה נהדר על ההנחיות שעליהן כיילת, אך גרוע על הנחיות חדשות.
→החזק סט הנחיות נפרד שמעולם לא שימש במהלך הכיול ודווח עליו.
למה: כיול מול הנחיות ההערכה שלך גורם להתאמת יתר של הניסוי, לא של המודל.
הפלט קרוב לסגנון היעד אך לא לגמרי; החלטה בין טריקים של הנחיות לאימון.
→מצה הנחיה/התניה וכיוונון עדין קל בסגנון LoRA לפני אימון מלא מחדש.
למה: התערבות זולה ביותר תחילה — אימון מלא מחדש מוצדק לעיתים רחוקות על ידי פער סגנוני.