डिफ्यूजन आउटपुट प्रॉम्प्ट को अनदेखा करते हैं; छवि गुणवत्ता को नुकसान पहुँचाए बिना टेक्स्ट के प्रति वफादारी बढ़ाना।
→क्लासिफायर-फ्री गाइडेंस स्केल बढ़ाएँ; ओवर-सैचुरेशन/आर्टिफैक्ट्स पर नज़र रखें और पीछे हटें।
क्यों: उच्चतर CFG प्रॉम्प्ट के पालन को बढ़ाता है, लेकिन बहुत अधिक होने पर जले हुए रंग और अप्राकृतिक विवरण आते हैं — यह एक समझौता है, न कि मुफ्त लीवर।
एक इंटरैक्टिव डेमो के लिए डिफ्यूजन सैंपलिंग बहुत धीमी है; स्पष्ट गुणवत्ता हानि के बिना चरणों को कम करें।
→तेज़ ODE सैंपलर (DPM-Solver++ / Euler) पर स्विच करें और चरणों को कम करें; FID से मान्य करें, न कि केवल देखकर।
क्यों: आधुनिक सैंपलर पैतृक DDPM सैंपलिंग की तुलना में बहुत कम चरणों में तुलनीय गुणवत्ता प्राप्त करते हैं।
एक multimodal पाइपलाइन में कई चलते-फिरते हिस्से हैं और एक कमजोर परिणाम है; यह तय करना कि आगे क्या बदलना है।
→एक नियंत्रित अबलेशन चलाएँ — एक समय में एक घटक बदलें और एक निश्चित मूल्यांकन सेट के विरुद्ध मापें।
क्यों: एक साथ कई नॉब बदलने से परिणाम अस्पष्ट हो जाता है; स्केल अप करने से पहले कारण को अलग करें।
जेनरेशन परिणाम रन-टू-रन भिन्न होते हैं और आप दो प्रॉम्प्ट वेरिएंट की निष्पक्ष तुलना नहीं कर सकते।
→रैंडम सीड (और सैंपलर) को ठीक करें ताकि एकमात्र अंतर परीक्षण के तहत परिवर्तनीय हो।
क्यों: डिफ्यूजन स्टोकेस्टिक है; एक निश्चित सीड के बिना आप शोर की तुलना कर रहे हैं, न कि अपने परिवर्तन की।
जनरेट की गई छवियों में एक अवांछित तत्व (जैसे टेक्स्ट, वॉटरमार्क, अतिरिक्त अंग) शामिल होते रहते हैं।
→क्या बाहर करना है इसका वर्णन करने वाला एक नकारात्मक प्रॉम्प्ट जोड़ें; CFG के साथ संयोजित करें।
क्यों: नेगेटिव प्रॉम्प्टिंग बिना शर्त शाखा को नामित अवधारणाओं से दूर ले जाती है — यह पुनः प्रशिक्षण से सस्ता है।
एक टेक्स्ट-टू-इमेज प्रयोग को चलाने के लिए सही मीट्रिक का चयन करना।
→वितरणात्मक छवि गुणवत्ता के लिए FID, प्रॉम्प्ट-इमेज अलाइनमेंट के लिए CLIPScore, और अंतिम निर्णय के लिए मानवीय पसंद का उपयोग करें।
क्यों: एकल मीट्रिक भ्रामक होता है: एक मॉडल प्रॉम्प्ट को अनदेखा करते हुए भी शानदार FID स्कोर कर सकता है। दोनों अक्षों का उपयोग करें।
एक vision-language model कैप्शनिंग कार्य में असंगत, भ्रामक कैप्शन आते हैं।
→फैक्चुअल कैप्शनिंग के लिए डिकोडिंग टेम्परेचर कम करें / ग्रीडी या कम टॉप-पी का उपयोग करें।
क्यों: उच्च तापमान रचनात्मकता और भ्रम को बढ़ाता है; कैप्शनिंग को नियतिवाद और आधार की आवश्यकता होती है।
कंडीशनिंग पर पुनरावृति धीमी है क्योंकि प्रत्येक दौर पूरे डेटासेट का मूल्यांकन करता है।
→तेज़ पुनरावृति के लिए एक छोटा, प्रतिनिधि गोल्डन मूल्यांकन सेट बनाएँ; पूर्ण मूल्यांकन केवल उम्मीदवारों पर चलाएँ।
क्यों: प्रयोग चरण के लिए गहन फीडबैक लूप व्यापक लेकिन धीमी फीडबैक लूप से बेहतर होते हैं।
जनरेट की गई छवियों को सटीक मुद्रा, गहराई या किनारे के लेआउट का पालन करने की आवश्यकता है।
→टेक्स्ट प्रॉम्प्ट के शीर्ष पर स्ट्रक्चरल कंडीशनिंग (ControlNet-शैली: मुद्रा/गहराई/कैन्य) जोड़ें।
क्यों: टेक्स्ट प्रॉम्प्ट सटीक स्थानिक संरचना निर्दिष्ट नहीं कर सकते हैं; एक सहायक कंडीशनिंग मैप कर सकता है।
दो चेकपॉइंट लगभग समान FID/CLIPScore स्कोर करते हैं; यह तय करना कि किसे शिप करना है।
→एक अलग रखे गए प्रॉम्प्ट सेट पर ब्लाइंड A/B मानवीय पसंद का परीक्षण चलाएँ।
क्यों: स्वचालित मेट्रिक्स संतृप्त होते हैं; जनरेटिव गुणवत्ता के लिए मानवीय पसंद टाईब्रेकर है।
मॉडल उन प्रॉम्प्ट्स पर बहुत अच्छा दिखता है जिन पर आपने ट्यून किया था लेकिन नए प्रॉम्प्ट्स पर खराब।
→एक अलग प्रॉम्प्ट सेट को अलग रखें जिसका उपयोग ट्यूनिंग के दौरान कभी नहीं किया गया था और उस पर रिपोर्ट करें।
क्यों: अपने मूल्यांकन प्रॉम्प्ट्स के विरुद्ध ट्यूनिंग प्रयोग को ओवरफिट करती है, मॉडल को नहीं।
आउटपुट लक्ष्य शैली के करीब हैं लेकिन बिल्कुल नहीं; प्रॉम्प्ट ट्रिक्स और प्रशिक्षण के बीच निर्णय लेना।
→पूर्ण पुनः प्रशिक्षण से पहले प्रॉम्प्टिंग/कंडीशनिंग और LoRA-शैली के हल्के फाइन-ट्यून को पूरी तरह से उपयोग करें।
क्यों: सबसे सस्ता हस्तक्षेप पहले — पूर्ण पुनः प्रशिक्षण शायद ही कभी एक शैलीगत अंतर से उचित होता है।