ट्रांसफ़ॉर्मर को अगले टोकन को जनरेट करते समय दूर के टोकन का वज़न करने की अनुमति क्या देता है, समझाएं।
→सेल्फ-अटेंशन। प्रत्येक टोकन क्वेरी/की/वैल्यू प्रोजेक्शन के माध्यम से हर दूसरे टोकन पर ध्यान देता है, जिससे संदर्भ-भारित प्रतिनिधित्व उत्पन्न होता है।
क्यों: अटेंशन, न कि रिकरेंस, ट्रांसफ़ॉर्मर को लंबी दूरी का संदर्भ और समानांतर प्रशिक्षण देता है।
LLM में नया ज्ञान या व्यवहार कैसे डालें, यह चुनें।
→अक्सर बदलने वाले नए तथ्य → RAG। नया कार्य व्यवहार/शैली → फ़ाइन-ट्यून। बड़े पैमाने पर नई आधार क्षमता/शब्दावली → निरंतर प्री-ट्रेनिंग।
क्यों: RAG डेटा को बाहरी और अपडेट करने योग्य रखता है; फ़ाइन-ट्यूनिंग व्यवहार को वज़न में डालता है; प्री-ट्रेनिंग सबसे महंगा लीवर है।
परिभाषित करें कि किसी मॉडल को फाउंडेशन मॉडल क्या बनाता है।
→एक बड़ा मॉडल जो व्यापक, अधिकतर अचिह्नित डेटा पर प्री-ट्रेन किया गया है और प्रॉम्प्टिंग, RAG या फ़ाइन-ट्यूनिंग के माध्यम से कई डाउनस्ट्रीम कार्यों के लिए अनुकूलनीय है।
अनुमान लगाएं कि टेक्स्ट मॉडल इनपुट इकाइयों में कैसे मैप होता है और लागत को क्या बढ़ाता है।
→टेक्स्ट को एक टोकेनाइज़र (जैसे BPE) द्वारा उप-शब्द टोकन में विभाजित किया जाता है। लागत और संदर्भ सीमाएं टोकन में मापी जाती हैं, न कि वर्णों या शब्दों में।
क्यों: दुर्लभ या गैर-अंग्रेजी शब्द अधिक टोकन में विभाजित होते हैं, जिससे संदर्भ उपयोग और अनुमान लागत बढ़ जाती है।
एक लंबा दस्तावेज़ एक ही प्रॉम्प्ट में फिट नहीं होता है।
→इनपुट मॉडल की कॉन्टेक्स्ट विंडो (इनपुट + आउटपुट के लिए अधिकतम टोकन) से अधिक है। RAG के लिए दस्तावेज़ को चंक करें या लंबी-कॉन्टेक्स्ट वाला मॉडल चुनें।
क्यों: कॉन्टेक्स्ट विंडो एक कठिन सीमा है; इसके आगे सब कुछ काट दिया जाता है और चुपचाप खो जाता है।
टेक्स्ट पर semantic search या RAG retrieval को शक्ति दें।
→टेक्स्ट को सघन वैक्टर में बदलने के लिए एक embedding model का उपयोग करें, फिर एक vector store से कोसाइन/डॉट-प्रोडक्ट समानता द्वारा retrieve करें।
क्यों: Embeddings अर्थपूर्ण रूप से समान टेक्स्ट को एक-दूसरे के पास रखती हैं, जिससे कीवर्ड retrieval के बजाय अर्थ-आधारित retrieval सक्षम होता है।
आउटपुट व्यवहार चुनें: नियतात्मक बनाम रचनात्मक।
→कम तापमान (~0.0-0.3) → केंद्रित, दोहराने योग्य। उच्च तापमान (~0.7-1.0) → विविध, रचनात्मक। वर्गीकरण या extraction के लिए लगभग-0 का उपयोग करें।
क्यों: तापमान सैंपलिंग से पहले संभावना वितरण को स्केल करता है; कम मान शीर्ष टोकन पर द्रव्यमान केंद्रित करते हैं।
तापमान से परे उम्मीदवार टोकन पूल को सीमित करें।
→Top-k सबसे संभावित k टोकन रखता है; top-p (न्यूक्लियस) सबसे छोटा सेट रखता है जिसकी संचयी संभावना p तक पहुँचती है।
क्यों: Top-p उम्मीदवार सेट को वितरण आकार के अनुकूल बनाता है; top-k आत्मविश्वास की परवाह किए बिना निश्चित-चौड़ाई वाला होता है।
पहचानें कि LLM बिना लेबल वाले टेक्स्ट से कैसे सीखते हैं।
→सेल्फ-सुपरवाइज़्ड लर्निंग — अगला-टोकन (कॉज़ल) या मास्क्ड-टोकन प्रेडिक्शन टेक्स्ट से ही लेबल बनाता है, कोई मानवीय एनोटेशन नहीं।
क्यों: यह वह है जो LLM को इंटरनेट-स्केल कॉर्पोरा पर बिना मैनुअल लेबलिंग के प्रशिक्षित होने देता है।
वास्तुकला को कार्य परिवार से मिलाएं।
→जनरेशन → decoder-only (GPT-style)। समझ/वर्गीकरण → encoder-only (BERT-style)। Seq-to-seq अनुवाद/सारांश → encoder-decoder (T5-style)।
क्यों: Decoder-only मॉडल बाएं से दाएं भविष्यवाणी करते हैं; एन्कोडर द्विदिशात्मक संदर्भ देखते हैं, जो प्रतिनिधित्व कार्यों के लिए बेहतर है।
एक बेस मॉडल को निर्देशों का पालन करने और सहायक, सुरक्षित उत्तरों को प्राथमिकता देने के लिए बनाएं।
→Instruction tuning जिसके बाद RLHF जैसे अलाइनमेंट — मानवीय प्राथमिकता रैंकिंग से reinforcement learning।
क्यों: एक कच्चा प्री-ट्रेन्ड मॉडल टेक्स्ट की भविष्यवाणी करता है; अलाइनमेंट इसे इच्छित assistant व्यवहार की ओर निर्देशित करता है।
मॉडल आत्मविश्वास से भरे लेकिन मनगढ़ंत तथ्य बताता है।
→मतिभ्रम। RAG के साथ ग्राउंडिंग करके, तापमान कम करके, स्रोतों का हवाला देकर, और guardrails के साथ-साथ उच्च-दांव वाले आउटपुट के लिए मानवीय समीक्षा जोड़कर इसे कम करें।
क्यों: LLM प्रशंसनीय टोकन की भविष्यवाणी करते हैं, न कि सत्यापित तथ्यों की; ग्राउंडिंग गुम हुए सबूत प्रदान करती है।
मॉडल के आकार को प्रशिक्षण डेटा के आकार से अलग करें।
→पैरामीटर = सीखे गए वज़न (मॉडल क्षमता)। टोकन = प्रशिक्षण टेक्स्ट की मात्रा। दोनों स्केलिंग नियमों के तहत क्षमता को स्केल करते हैं।
क्यों: बहुत कम टोकन पर अंडर-ट्रेन किया गया एक बड़ा मॉडल एक छोटे, अच्छी तरह से प्रशिक्षित मॉडल से खराब प्रदर्शन करता है (चिंचिला अंतर्दृष्टि)।
एक LLM जीवनचक्र के दो GPU-भारी चरणों को अलग करें।
→प्रशिक्षण डेटा से वज़न अपडेट करता है (एक-बार, बैच)। अनुमान आउटपुट उत्पन्न करने के लिए जमे हुए मॉडल को चलाता है (चल रहा, लेटेंसी-संवेदनशील)।
क्यों: अनुकूलन उपकरण भिन्न होते हैं: प्रशिक्षण parallelism frameworks का उपयोग करता है; अनुमान TensorRT-LLM और Triton का उपयोग करता है।
एक फ़ाइन-ट्यून्ड मॉडल प्रशिक्षण उदाहरणों को याद कर लेता है और नए इनपुट पर विफल हो जाता है।
→ओवरफिटिंग। इसे अधिक/विविध डेटा, अर्ली स्टॉपिंग, कम लर्निंग रेट, कम इपॉक्स, या dropout जैसे regularization से कम करें।
क्यों: एक बड़ा ट्रेन-बनाम-वैलिडेशन अंतर का मतलब है कि मॉडल ने सामान्यीकरण योग्य पैटर्न के बजाय नॉइज़ को फिट किया।