Prompt engineering एक संकीर्ण डोमेन कार्य पर स्थिर हो जाता है जिसे सुसंगत शैली की आवश्यकता होती है।
→लेबल किए गए उदाहरणों पर एक सॉफ्ट प्रॉम्प्ट (ट्यून किया गया वेक्टर) सीखने के लिए Tuning Studio में prompt tuning चलाएँ।
क्यों: Prompt tuning आधार भार को बदले बिना व्यवहार को अनुकूलित करता है — fine-tuning से सस्ता, लंबे प्रॉम्प्ट की तुलना में अधिक विश्वसनीय।
संदर्भ↗
मॉडल में अद्यतन, तथ्यात्मक एंटरप्राइज़ ज्ञान की कमी है।
→उन तथ्यों पर मॉडल को ट्यून करने के बजाय पुनर्प्राप्त दस्तावेजों में उत्तरों को आधार बनाने के लिए RAG का उपयोग करें।
क्यों: Tuning शैली/व्यवहार सिखाता है, न कि ताज़ा तथ्य; RAG वर्तमान आधारित संदर्भ को इंजेक्ट करता है और अपडेट करना आसान है।
एक सहयोगी-स्तर के watsonx प्रोजेक्ट के लिए prompt tuning और पूर्ण fine-tuning के बीच निर्णय लेना।
→Prompt tuning को प्राथमिकता दें: यह बहुत कम मापदंडों को प्रशिक्षित करता है, तेजी से चलता है, और Tuning Studio में समर्थित मार्ग है।
क्यों: पूर्ण fine-tuning महंगा है, बड़े डेटासेट की आवश्यकता होती है, और विनाशकारी भूलने का जोखिम होता है; prompt tuning watsonx का डिफ़ॉल्ट है।
सारांश मॉडल को prompt-tune करने के लिए डेटा तैयार करना।
→अपेक्षित JSON/JSONL प्रारूप में इनपुट/आउटपुट जोड़े प्रदान करें, उन्हें प्रशिक्षण और सत्यापन सेट में विभाजित करें।
क्यों: स्वच्छ, प्रतिनिधि जोड़े ट्यूनिंग गुणवत्ता को बढ़ाते हैं; सामान्यीकरण को पढ़ने के लिए एक अलग सत्यापन सेट की आवश्यकता होती है।
ट्यूनिंग लॉस कर्व जल्दी सपाट हो जाता है जबकि सत्यापन लॉस बढ़ने लगता है।
→युगों को रोकें या कम करें — मॉडल प्रशिक्षण सेट पर ओवरफिट होना शुरू हो रहा है।
क्यों: विचलनकारी ट्रेन/सत्यापन लॉस क्लासिक ओवरफिट सिग्नल है; अधिक युग याद करेंगे, सामान्यीकरण नहीं करेंगे।
Prompt-tuning परिणाम रन भर में अस्थिर हैं।
→ट्यूनिंग कॉन्फ़िग में सीखने की दर, युगों की संख्या, बैच आकार और वर्चुअल टोकन की संख्या समायोजित करें।
क्यों: बहुत अधिक सीखने की दर प्रशिक्षण को अस्थिर करती है; ये वे लीवर हैं जिन्हें Tuning Studio अभिसरण के लिए उजागर करता है।
दो प्रॉम्प्ट या ट्यून किए गए संपत्तियों की वस्तुनिष्ठ रूप से तुलना करने की आवश्यकता है।
→कार्य मेट्रिक्स (जैसे सारांश के लिए ROUGE/BLEU, निष्कर्षण के लिए exact-match/F1) और मानव समीक्षा के साथ मूल्यांकन करें।
क्यों: उत्पादक गुणवत्ता बहु-आयामी है; स्वचालित मेट्रिक्स प्रतिगमन को पकड़ते हैं लेकिन मानव समीक्षा निष्ठा का न्याय करती है।
ट्यून किया गया मॉडल अभी भी ऐसे तथ्य गढ़ता है जो स्रोत में मौजूद नहीं हैं।
→RAG के साथ आधार दें, तापमान कम करें, और मॉडल को केवल प्रदान किए गए संदर्भ से उत्तर देने या यह कहने का निर्देश दें कि उसे नहीं पता।
क्यों: मतिभ्रम एक भार समस्या से अधिक एक आधार और डिकोडिंग समस्या है; पुनर्प्राप्ति और बाधाएं इसका अधिकांश हिस्सा ठीक करती हैं।
अनुकूलन के लिए केवल कुछ दर्जन लेबल किए गए उदाहरण उपलब्ध हैं।
→few-shot prompting या हल्के prompt tuning के साथ रहें; छोटे डेटा पर fine-tune न करें।
क्यों: छोटे डेटासेट पूर्ण fine-tuning के तहत बुरी तरह से ओवरफिट होते हैं; इन-संदर्भ उदाहरण उस पैमाने पर बेहतर सामान्यीकरण करते हैं।
वर्गीकरण कार्य के लिए किस आधार मॉडल को prompt-tune करना है, यह चुनना।
→एक ट्यून करने योग्य Granite आधार मॉडल चुनें जिसे Tuning Studio prompt tuning के लिए समर्थन करता है, जो कार्य के आकार के अनुसार हो।
क्यों: हर कैटलॉग मॉडल ट्यून करने योग्य नहीं होता है; एक छोटे समर्थित मॉडल को ट्यून करना सस्ता है और अक्सर वर्गीकरण के लिए पर्याप्त होता है।
उत्पादन में जनरेटिव आउटपुट गुणवत्ता को लगातार ट्रैक किया जाना चाहिए।
→परिनियोजन पर थ्रेशोल्ड और अलर्ट के साथ watsonx.governance बहाव और गुणवत्ता मॉनिटर कॉन्फ़िगर करें।
क्यों: शासन एक-एक मूल्यांकन को अलर्ट के साथ निगरानी वाले थ्रेशोल्ड में बदल देता है, न कि मैन्युअल स्पॉट चेक में।
वही ट्यून किया गया प्रॉम्प्ट विभिन्न क्षेत्रों के साथ कई इनपुट को सेवा प्रदान करना चाहिए।
→नामित चर के साथ प्रॉम्प्ट टेम्पलेट को पैरामीटराइज़ करें और अनुमान समय पर मान प्रदान करें।
क्यों: चर इनपुट को हार्ड-कोडिंग करने के बजाय एक पुनः प्रयोज्य टेम्पलेट रखते हैं, और वे API मापदंडों के लिए स्पष्ट रूप से मैप करते हैं।
एक मॉडल कार्य निर्देश को अनदेखा करता है और केवल पाठ को जारी रखता है।
→एक निर्देश-ट्यून किए गए मॉडल का उपयोग करें और प्रॉम्प्ट को एक स्पष्ट निर्देश के रूप में तैयार करें, न कि पूरा करने के लिए एक खंड के रूप में।
क्यों: बेस कंप्लीशन मॉडल पैटर्न-जारी रखते हैं; instruct मॉडल निर्देशों का पालन करने के लिए प्रशिक्षित होते हैं।