मार्गदर्शिका — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

अंतिम समीक्षा: जून 2026

NCA-GENL परीक्षा द्वारा परखे जाने वाले architectural patterns का स्कैन-योग्य संदर्भ। ऊपर से नीचे पढ़ें या किसी section पर जाएं।

मुख्य मशीन लर्निंग और AI ज्ञान

ट्रांसफ़ॉर्मर को अगले टोकन को जनरेट करते समय दूर के टोकन का वज़न करने की अनुमति क्या देता है, समझाएं।

सेल्फ-अटेंशन। प्रत्येक टोकन क्वेरी/की/वैल्यू प्रोजेक्शन के माध्यम से हर दूसरे टोकन पर ध्यान देता है, जिससे संदर्भ-भारित प्रतिनिधित्व उत्पन्न होता है।

क्यों: अटेंशन, न कि रिकरेंस, ट्रांसफ़ॉर्मर को लंबी दूरी का संदर्भ और समानांतर प्रशिक्षण देता है।

LLM में नया ज्ञान या व्यवहार कैसे डालें, यह चुनें।

अक्सर बदलने वाले नए तथ्य → RAG। नया कार्य व्यवहार/शैली → फ़ाइन-ट्यून। बड़े पैमाने पर नई आधार क्षमता/शब्दावली → निरंतर प्री-ट्रेनिंग।

क्यों: RAG डेटा को बाहरी और अपडेट करने योग्य रखता है; फ़ाइन-ट्यूनिंग व्यवहार को वज़न में डालता है; प्री-ट्रेनिंग सबसे महंगा लीवर है।

परिभाषित करें कि किसी मॉडल को फाउंडेशन मॉडल क्या बनाता है।

एक बड़ा मॉडल जो व्यापक, अधिकतर अचिह्नित डेटा पर प्री-ट्रेन किया गया है और प्रॉम्प्टिंग, RAG या फ़ाइन-ट्यूनिंग के माध्यम से कई डाउनस्ट्रीम कार्यों के लिए अनुकूलनीय है।

अनुमान लगाएं कि टेक्स्ट मॉडल इनपुट इकाइयों में कैसे मैप होता है और लागत को क्या बढ़ाता है।

टेक्स्ट को एक टोकेनाइज़र (जैसे BPE) द्वारा उप-शब्द टोकन में विभाजित किया जाता है। लागत और संदर्भ सीमाएं टोकन में मापी जाती हैं, न कि वर्णों या शब्दों में।

क्यों: दुर्लभ या गैर-अंग्रेजी शब्द अधिक टोकन में विभाजित होते हैं, जिससे संदर्भ उपयोग और अनुमान लागत बढ़ जाती है।

एक लंबा दस्तावेज़ एक ही प्रॉम्प्ट में फिट नहीं होता है।

इनपुट मॉडल की कॉन्टेक्स्ट विंडो (इनपुट + आउटपुट के लिए अधिकतम टोकन) से अधिक है। RAG के लिए दस्तावेज़ को चंक करें या लंबी-कॉन्टेक्स्ट वाला मॉडल चुनें।

क्यों: कॉन्टेक्स्ट विंडो एक कठिन सीमा है; इसके आगे सब कुछ काट दिया जाता है और चुपचाप खो जाता है।

टेक्स्ट पर semantic search या RAG retrieval को शक्ति दें।

टेक्स्ट को सघन वैक्टर में बदलने के लिए एक embedding model का उपयोग करें, फिर एक vector store से कोसाइन/डॉट-प्रोडक्ट समानता द्वारा retrieve करें।

क्यों: Embeddings अर्थपूर्ण रूप से समान टेक्स्ट को एक-दूसरे के पास रखती हैं, जिससे कीवर्ड retrieval के बजाय अर्थ-आधारित retrieval सक्षम होता है।

आउटपुट व्यवहार चुनें: नियतात्मक बनाम रचनात्मक।

कम तापमान (~0.0-0.3) → केंद्रित, दोहराने योग्य। उच्च तापमान (~0.7-1.0) → विविध, रचनात्मक। वर्गीकरण या extraction के लिए लगभग-0 का उपयोग करें।

क्यों: तापमान सैंपलिंग से पहले संभावना वितरण को स्केल करता है; कम मान शीर्ष टोकन पर द्रव्यमान केंद्रित करते हैं।

तापमान से परे उम्मीदवार टोकन पूल को सीमित करें।

Top-k सबसे संभावित k टोकन रखता है; top-p (न्यूक्लियस) सबसे छोटा सेट रखता है जिसकी संचयी संभावना p तक पहुँचती है।

क्यों: Top-p उम्मीदवार सेट को वितरण आकार के अनुकूल बनाता है; top-k आत्मविश्वास की परवाह किए बिना निश्चित-चौड़ाई वाला होता है।

पहचानें कि LLM बिना लेबल वाले टेक्स्ट से कैसे सीखते हैं।

सेल्फ-सुपरवाइज़्ड लर्निंग — अगला-टोकन (कॉज़ल) या मास्क्ड-टोकन प्रेडिक्शन टेक्स्ट से ही लेबल बनाता है, कोई मानवीय एनोटेशन नहीं।

क्यों: यह वह है जो LLM को इंटरनेट-स्केल कॉर्पोरा पर बिना मैनुअल लेबलिंग के प्रशिक्षित होने देता है।

वास्तुकला को कार्य परिवार से मिलाएं।

जनरेशन → decoder-only (GPT-style)। समझ/वर्गीकरण → encoder-only (BERT-style)। Seq-to-seq अनुवाद/सारांश → encoder-decoder (T5-style)।

क्यों: Decoder-only मॉडल बाएं से दाएं भविष्यवाणी करते हैं; एन्कोडर द्विदिशात्मक संदर्भ देखते हैं, जो प्रतिनिधित्व कार्यों के लिए बेहतर है।

एक बेस मॉडल को निर्देशों का पालन करने और सहायक, सुरक्षित उत्तरों को प्राथमिकता देने के लिए बनाएं।

Instruction tuning जिसके बाद RLHF जैसे अलाइनमेंट — मानवीय प्राथमिकता रैंकिंग से reinforcement learning।

क्यों: एक कच्चा प्री-ट्रेन्ड मॉडल टेक्स्ट की भविष्यवाणी करता है; अलाइनमेंट इसे इच्छित assistant व्यवहार की ओर निर्देशित करता है।

मॉडल आत्मविश्वास से भरे लेकिन मनगढ़ंत तथ्य बताता है।

मतिभ्रम। RAG के साथ ग्राउंडिंग करके, तापमान कम करके, स्रोतों का हवाला देकर, और guardrails के साथ-साथ उच्च-दांव वाले आउटपुट के लिए मानवीय समीक्षा जोड़कर इसे कम करें।

क्यों: LLM प्रशंसनीय टोकन की भविष्यवाणी करते हैं, न कि सत्यापित तथ्यों की; ग्राउंडिंग गुम हुए सबूत प्रदान करती है।

मॉडल के आकार को प्रशिक्षण डेटा के आकार से अलग करें।

पैरामीटर = सीखे गए वज़न (मॉडल क्षमता)। टोकन = प्रशिक्षण टेक्स्ट की मात्रा। दोनों स्केलिंग नियमों के तहत क्षमता को स्केल करते हैं।

क्यों: बहुत कम टोकन पर अंडर-ट्रेन किया गया एक बड़ा मॉडल एक छोटे, अच्छी तरह से प्रशिक्षित मॉडल से खराब प्रदर्शन करता है (चिंचिला अंतर्दृष्टि)।

एक LLM जीवनचक्र के दो GPU-भारी चरणों को अलग करें।

प्रशिक्षण डेटा से वज़न अपडेट करता है (एक-बार, बैच)। अनुमान आउटपुट उत्पन्न करने के लिए जमे हुए मॉडल को चलाता है (चल रहा, लेटेंसी-संवेदनशील)।

क्यों: अनुकूलन उपकरण भिन्न होते हैं: प्रशिक्षण parallelism frameworks का उपयोग करता है; अनुमान TensorRT-LLM और Triton का उपयोग करता है।

एक फ़ाइन-ट्यून्ड मॉडल प्रशिक्षण उदाहरणों को याद कर लेता है और नए इनपुट पर विफल हो जाता है।

ओवरफिटिंग। इसे अधिक/विविध डेटा, अर्ली स्टॉपिंग, कम लर्निंग रेट, कम इपॉक्स, या dropout जैसे regularization से कम करें।

क्यों: एक बड़ा ट्रेन-बनाम-वैलिडेशन अंतर का मतलब है कि मॉडल ने सामान्यीकरण योग्य पैटर्न के बजाय नॉइज़ को फिट किया।

सॉफ्टवेयर विकास

एक OpenAI-संगत API के साथ एक अनुकूलित LLM को एक प्रोडक्शन microservice के रूप में तेज़ी से डिप्लॉय करें।

एक NVIDIA NIM microservice का उपयोग करें — एक prebuilt, containerized, TensorRT-LLM-optimized model endpoint।

क्यों: NIM मॉडल, रनटाइम और अनुकूलित इंजन को पैक करता है ताकि आप मैन्युअल TensorRT-LLM और Triton वायरिंग को छोड़ सकें।

मार्गदर्शिका — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

मुख्य मशीन लर्निंग और AI ज्ञान

सॉफ्टवेयर विकास

प्रयोग

डेटा विश्लेषण

विश्वसनीय AI

मार्गदर्शिका — NCA-GENL NVIDIA-Certified Associate: Generative AI LLMs

मुख्य मशीन लर्निंग और AI ज्ञान

सॉफ्टवेयर विकास

प्रयोग

डेटा विश्लेषण

विश्वसनीय AI