NCA-ADSमार्गदर्शिका

मार्गदर्शिका — NCA-ADS NVIDIA-Certified Associate: Accelerated Data Science

अंतिम समीक्षा: जून 2026

NCA-ADS परीक्षा द्वारा परखे जाने वाले architectural patterns का स्कैन-योग्य संदर्भ। ऊपर से नीचे पढ़ें या किसी section पर जाएं।

डेटा हेरफेर और तैयारी

CPU पर 40 GB CSV पर मौजूदा pandas पाइपलाइन बहुत धीमी है।

pandas को cuDF से बदलें; अधिकांश read/filter/groupby/join कॉल वही API रखते हैं और GPU पर चलते हैं।

क्यों: cuDF डिज़ाइन के अनुसार pandas API को दर्शाता है, इसलिए माइग्रेशन ज्यादातर एक इंपोर्ट परिवर्तन है बजाय एक पुनर्लेखन के।

संदर्भ

टीम मौजूदा pandas कोड को छुए बिना GPU स्पीडअप चाहती है।

cudf.pandas accelerator (%load_ext cudf.pandas या python -m cudf.pandas) लोड करें; यह GPU पर ऑपरेशन चलाता है और स्वचालित रूप से CPU पर वापस आ जाता है।

क्यों: पारदर्शी CPU फॉलबैक के साथ ज़ीरो-कोड-परिवर्तन एक्सेलेरेशन असमर्थित ऑप्स को काम करता रहता है।

संदर्भ

GPU पर एक बड़े एनालिटिक्स डेटासेट का सबसे तेज़ कॉलम लोड चाहिए।

Parquet के रूप में स्टोर करें और cudf.read_parquet के साथ पढ़ें; कॉलम प्रूनिंग और प्रेडिकेट पुशडाउन डिवाइस ट्रांसफर को कम करते हैं।

क्यों: Columnar Parquet Arrow-backed cuDF के साथ साफ-सुथरा मैप करता है और पंक्ति-उन्मुख CSV की तुलना में बहुत तेज़ी से पढ़ता है।

50 MB की फ़ाइल पर cuDF, pandas की तुलना में धीमा है।

छोटे डेटा को CPU पर रखें; होस्ट-से-डिवाइस ट्रांसफर और कर्नेल-लॉन्च ओवरहेड ~1–2 GB से नीचे हावी होते हैं।

क्यों: GPU एक्सेलेरेशन बड़े पैमाने पर लाभ देता है; छोटे डेटा के लिए कॉपी लागत कंप्यूट जीत से अधिक होती है।

एक से अधिक आंकड़ों के साथ कुंजी द्वारा अरबों पंक्तियों को समूहित करें।

cuDF में df.groupby(key).agg({...}) का उपयोग करें; एग्रीगेशन समानांतर GPU कर्नेल के रूप में चलते हैं।

GPU स्केल पर एक उच्च-कार्डिनलिटी टेक्स्ट कॉलम को साफ़ और सामान्य करें।

cuDF's .str accessor (lower, strip, replace, contains, split) का उपयोग करें; स्ट्रिंग ऑप्स libcudf के माध्यम से GPU-त्वरित होते हैं।

क्यों: cuDF में एक समर्पित GPU स्ट्रिंग लेयर है, इसलिए टेक्स्ट क्लीनिंग के लिए CPU पर वापस जाने की आवश्यकता नहीं है।

साझा कुंजी पर दो बड़े डिवाइस DataFrames को जॉइन करें।

जॉइन कुंजी के साथ cudf.merge / df.merge का उपयोग करें; हैश जॉइन GPU पर निष्पादित होते हैं।

क्यों: राउंड-ट्रिप से बचने के लिए दोनों फ़्रेम पहले से ही डिवाइस पर होने चाहिए; pandas और cuDF को मिलाने से होस्ट कॉपी मजबूर होती है।

डेटासेट में गुम मान हैं जो डाउनस्ट्रीम cuML प्रशिक्षण को तोड़ते हैं।

फिटिंग से पहले cuDF fillna/dropna और स्पष्ट dtype कास्ट का उपयोग करें; cuML साफ न्यूमेरिक डिवाइस एरेज़ की उम्मीद करता है।

मिश्रित/ऑब्जेक्ट dtypes cuDF में त्रुटियां या मेमोरी ब्लोट का कारण बनते हैं।

GPU मेमोरी फ़ुटप्रिंट को कम करने के लिए कॉम्पैक्ट न्यूमेरिक या कैटगोरिकल dtypes (int32/float32, category) में जल्दी कास्ट करें।

क्यों: डाउनकास्टिंग डिवाइस-मेमोरी दबाव को कम करता है, जो एक सिंगल GPU पर सबसे आम बॉटलनेक है।

प्रशिक्षण से पहले कैटगोरिकल सुविधाओं के लिए लेबल/वन-हॉट एन्कोडिंग की आवश्यकता है।

डेटा को ऑन-डिवाइस रखने के लिए .cat.codes के साथ cuDF कैटगोरिकल dtype या cuML प्रीप्रोसेसिंग एनकोडर का उपयोग करें।

cuDF DataFrame API द्वारा उजागर न किए गए रॉ न्यूमेरिक एरे मैथ की आवश्यकता है।

df.values या to_cupy() के माध्यम से कनवर्ट करें और CuPy (NumPy-संगत GPU एरेज़) के साथ ऑपरेट करें, फिर परिणाम वापस लाएँ।

क्यों: cuDF और CuPy __cuda_array_interface__ के माध्यम से डिवाइस मेमोरी साझा करते हैं, इसलिए रूपांतरण शून्य-कॉपी होता है।

RAPIDS के साथ मशीन लर्निंग

एक scikit-learn प्रशिक्षण स्क्रिप्ट को GPU पर पोर्ट करें।

cuML एस्टीमेटर (LinearRegression, LogisticRegression, KMeans, RandomForest) का उपयोग करें; फिट/प्रेडिक्ट sklearn API को प्रतिबिंबित करते हैं।

क्यों: cuML sklearn API संगतता को लक्षित करता है, इसलिए इंपोर्ट को बदलना आमतौर पर पर्याप्त होता है।

संदर्भ

एक बड़े सारणीबद्ध डेटासेट पर ग्रेडिएंट-बूस्टेड ट्री, CPU पर प्रशिक्षण बहुत धीमा है।

device="cuda" (tree_method="hist") के साथ XGBoost को प्रशिक्षित करें; यह सीधे cuDF/CuPy डेटा का उपभोग करता है।

क्यों: XGBoost's का नेटिव GPU हिस्टोग्राम विधि बड़ी गति बढ़ाती है और RAPIDS के साथ कसकर एकीकृत होती है।

सेगमेंटेशन के लिए लाखों बिंदुओं को तेज़ी से क्लस्टर करें।

cuML KMeans (या घनत्व-आधारित के लिए DBSCAN) का उपयोग करें; दोनों पूरी तरह से GPU पर चलते हैं।

बड़े पैमाने पर विज़ुअलाइज़ेशन के लिए उच्च-आयामी डेटा को 2D तक कम करें।

cuML UMAP या t-SNE का उपयोग करें; GPU कार्यान्वयन उन डेटासेट को संभालते हैं जो CPU पर अव्यावहारिक हैं।

क्यों: UMAP/t-SNE कंप्यूट-भारी हैं; GPU संस्करण इंटरैक्टिव-स्केल एम्बेडिंग को संभव बनाते हैं।

फ़ीचर महत्व के साथ एक सटीक एन्सेम्बल क्लासिफायरियर की आवश्यकता है।

cuML RandomForestClassifier का उपयोग करें; डिवाइस एरेज़ पर प्रशिक्षित करें और तेज़ अनुमान के लिए FIL को निर्यात करें।

उच्च-थ्रूपुट बैच स्कोरिंग के लिए एक ट्री मॉडल तैनात करें।

बड़े बैचों पर GPU-त्वरित भविष्यवाणियां चलाने के लिए मॉडल को Forest Inference Library (FIL) में लोड करें।

क्यों: FIL XGBoost/LightGBM/cuML फ़ॉरेस्ट के लिए अनुमान को प्रति-ट्री CPU स्कोरिंग से कहीं अधिक तेज़ करता है।

आपको जिस एल्गोरिथम की आवश्यकता है, उसमें कोई cuML GPU कार्यान्वयन नहीं है।

cuML डॉक्स में कवरेज की पुष्टि करें; यदि अनुपस्थित है, तो उस चरण को scikit-learn पर रखें और बाकी को गति दें।

क्यों: हर एस्टीमेटर GPU-समर्थित नहीं है — पूर्ण समानता मानने के बजाय समर्थित सेट को जानें।

cuML प्रशिक्षण के दौरान शांत होस्ट कॉपी से बचें।

cuDF/CuPy डिवाइस डेटा को सीधे fit() में पास करें; NumPy/pandas को मिलाने से होस्ट-टू-डिवाइस ट्रांसफर शुरू होता है।

डेटा साइंस पाइपलाइन और वर्कफ़्लो ऑटोमेशन

डेटासेट एक सिंगल GPU की मेमोरी से बड़ा है।

डेटा को कई GPUs/नोड्स में विभाजित करने और समानांतर में विभाजन को संसाधित करने के लिए dask-cuDF का उपयोग करें।

क्यों: Dask आउट-ऑफ-कोर और मल्टी-GPU डिस्ट्रीब्यूशन को संभालता है जो एक सिंगल cuDF फ्रेम नहीं कर सकता है।

संदर्भ

एक मल्टी-GPU बॉक्स पर सभी GPUs का उपयोग करना चाहते हैं।

dask-cuda से LocalCUDACluster शुरू करें और एक Client कनेक्ट करें; प्रति GPU एक वर्कर पिन किया जाता है।

क्यों: LocalCUDACluster प्रत्येक Dask वर्कर को एक विशिष्ट GPU से जोड़ता है ताकि शेड्यूलर कार्य को संतुलित कर सके।

एक मल्टी-स्टेप Dask पाइपलाइन बनाना जो बहुत बार पुनर्गणना करती है।

आलस्यपूर्वक लिखें और अंत में एक बार .compute() कॉल करें; GPU मेमोरी में पुन: उपयोग किए गए इंटरमीडिएट्स को कैश करने के लिए persist() का उपयोग करें।

क्यों: Dask आलसी है — बहुत जल्दी या बार-बार गणना शुरू करने से काम दोहराया जाता है।

तिरछे विभाजन के कारण कुछ GPU वर्कर पीछे रह जाते हैं।

संतुलित आकारों में पुन: विभाजन करें और विभाजन कुंजियों को डाउनस्ट्रीम जॉइन/ग्रुपबाय के साथ संरेखित करें।

क्यों: असमान विभाजन ऐसे स्ट्रगलर बनाते हैं जो पूरे कार्य को बाधित करते हैं।

एक ETL → ट्रेन → स्कोर वर्कफ़्लो को पूरी तरह से GPU पर रखें।

बीच में pandas में परिवर्तित किए बिना cuDF तैयारी को cuML/XGBoost में चेन करें, जिससे डेटा डिवाइस पर ही रहे।

क्यों: प्रत्येक CPU राउंड-ट्रिप ट्रांसफर लागत जोड़ता है; ऑन-डिवाइस रहने से एंड-टू-एंड गति बनी रहती है।

समीक्षा के लिए समान रूप से पुन: चलने वाले वर्कफ़्लो की आवश्यकता है।

RAPIDS/CUDA संस्करणों को पिन करें, रैंडम सीड सेट करें, और इनपुट को पैरामीटराइज़ करें ताकि पाइपलाइन नियतात्मक और पुन: निष्पादन योग्य हो।

वर्णनात्मक विश्लेषण और विज़ुअलाइज़ेशन

एक अरब-पंक्ति तालिका में सारांश आंकड़े कंप्यूट करें।

cuDF describe/mean/std/quantile और corr का उपयोग करें; एग्रीगेशन GPU कर्नेल के रूप में चलते हैं।

100M बिंदुओं का स्कैटर प्लॉट ओवरप्लॉट करता है और अपठनीय है।

Datashader के साथ रेंडर करें, जो प्रत्येक मार्कर को खींचने के बजाय GPU पर बिंदुओं को घनत्व छवि में रैस्टराइज़ करता है।

क्यों: Datashader पिक्सेल में एकत्रित होता है, इसलिए प्लॉट लागत छवि आकार से बंधी होती है, न कि बिंदु संख्या से।

एक विशाल GPU DataFrame पर एक इंटरेक्टिव क्रॉस-फ़िल्टरिंग डैशबोर्ड की आवश्यकता है।

cuDF डेटा पर GPU-त्वरित क्रॉस-फ़िल्टरिंग के साथ चार्ट को लिंक करने के लिए cuxfilter का उपयोग करें।

क्यों: cuxfilter डेटा को ऑन-डिवाइस रखता है ताकि ब्रशिंग/फ़िल्टरिंग बड़े पैमाने पर इंटरैक्टिव बनी रहे।

एक बड़े न्यूमेरिक कॉलम के वितरण को विज़ुअलाइज़ करें।

GPU पर cuDF/CuPy के साथ बिन करें, फिर Plotly या Matplotlib के साथ छोटे एकत्रित परिणाम को प्लॉट करें।

क्यों: पहले GPU पर एकत्रित करें; केवल छोटे सारांश को प्लॉटिंग लाइब्रेरी तक पहुंचने की आवश्यकता है।

मॉडलिंग से पहले फ़ीचर संबंधों का आकलन करें।

GPU पर cuDF में df.corr() कंप्यूट करें, फिर छोटे मैट्रिक्स को हीटमैप के रूप में रेंडर करें।

GPU डेटा द्वारा समर्थित घोषणात्मक इंटरेक्टिव चार्ट चाहते हैं।

उच्च-मात्रा, इंटरेक्टिव विज़ुअलाइज़ेशन के लिए HoloViews/hvPlot को Datashader और cuDF के साथ जोड़ें।

त्वरित डेटा साइंस की नींव

एक डेटा वर्कलोड के लिए GPU एक्सेलेरेशन को उचित ठहराएं।

बड़े डेटासेट पर बड़े पैमाने पर डेटा-समानांतर, थ्रूपुट-बाउंड ऑप्स के लिए GPUs का उपयोग करें; छोटे, ब्रांच वाले, या लेटेंसी-संवेदनशील काम को CPU पर रखें।

क्यों: GPUs कई तत्वों में SIMT समानांतरता पर जीतते हैं; वे छोटे या नियंत्रण-भारी कार्यों पर हारते हैं।

बताएं कि RAPIDS cuDF, CuPy, और ML libs के बीच बिना कॉपी के डेटा कैसे साझा करता है।

RAPIDS Apache Arrow columnar मेमोरी फ़ॉर्मेट पर बना है, जो GPU लाइब्रेरीज़ के बीच ज़ीरो-कॉपी इंटरचेंज को सक्षम बनाता है।

क्यों: एक साझा ऑन-डिवाइस कॉलम लेआउट घटकों को बिना क्रमबद्धता के डेटा सौंपने देता है।

एक पाइपलाइन GPU-त्वरित है लेकिन शायद ही तेज़ है।

डेटा मूवमेंट को प्रोफ़ाइल करें; बार-बार होस्ट↔डिवाइस कॉपी अक्सर हावी होती हैं। चरणों के बीच डेटा को GPU पर ही रखें।

क्यों: PCIe ट्रांसफर एक छिपा हुआ टैक्स है — कॉपी को कम करना आमतौर पर सबसे बड़ी एकल जीत है।

समझें कि GPU पर क्या कार्य निष्पादित करता है।

CUDA SIMT मॉडल के तहत ब्लॉक/ग्रिड में समूहित हजारों थ्रेड्स में कर्नेल लॉन्च करता है; RAPIDS लाइब्रेरीज़ इन्हें रैप करती हैं ताकि आप शायद ही कभी खुद कर्नेल लिखें।

एक सिंगल GPU पर वर्कलोड आउट-ऑफ-मेमोरी त्रुटि देता है।

dtype आकार कम करें, चंक्स में संसाधित करें, या Dask के साथ स्केल आउट करें; GPU VRAM होस्ट RAM से बहुत छोटा है।

क्यों: डिवाइस मेमोरी GPU डेटा साइंस में पहली बाधा है — इसके इर्द-गिर्द डिज़ाइन करें।

एक CPU डेटा-साइंस कार्य को सही RAPIDS लाइब्रेरी से मैप करें।

DataFrames के लिए cuDF, ML के लिए cuML, ग्राफ़ के लिए cuGraph, भू-स्थानिक के लिए cuSpatial, स्केल-आउट के लिए Dask।

संदर्भ

परिचयात्मक MLOps अभ्यास

कई प्रशिक्षण रन और उनके मेट्रिक्स की तुलना करने की आवश्यकता है।

MLflow Tracking में पैरामीटर, मेट्रिक्स और आर्टिफैक्ट्स को लॉग करें; UI से रन को क्वेरी और तुलना करें।

क्यों: केंद्रीकृत प्रयोग ट्रैकिंग परिणामों को पुनरुत्पादित करने योग्य और रन के बीच तुलनीय बनाती है।

लाइव डैशबोर्ड और टीम-साझा प्रयोग लॉग चाहते हैं।

मेट्रिक्स स्ट्रीम करने और विज़ुअल प्रयोग डैशबोर्ड साझा करने के लिए Weights & Biases (wandb.init/log) का उपयोग करें।

ट्रैक करें कि कौन सा प्रशिक्षित मॉडल स्टेजिंग में है बनाम उत्पादन में।

MLflow Model Registry में संस्करणों को पंजीकृत करें और मेटाडेटा के साथ चरणों के माध्यम से बढ़ावा दें।

क्यों: एक रजिस्ट्री मॉडल वंशावली और पदोन्नति के लिए सत्य का एक एकल स्रोत देती है।

एक मॉडल महीनों बाद पुनरुत्पादित नहीं किया जा सकता है।

डेटा, कोड, पर्यावरण और सीड को एक साथ संस्करणित करें; प्रत्येक रन के साथ पूर्ण कॉन्फ़िग को लॉग करें।

क्यों: पुनरुत्पादकता के लिए सभी चार को कैप्चर करने की आवश्यकता होती है — केवल कोड पर्याप्त नहीं है।

एक प्रशिक्षित मॉडल को सेवा की ओर ले जाएं।

मॉडल और निर्भरताओं को पैकेज करें (जैसे, कंटेनर इमेज), फिर बैच या REST अनुमान को उजागर करें; तेज़ GPU ट्री स्कोरिंग के लिए FIL का उपयोग करें।

उन्नत डेटा संरचनाएं

एक बड़े ग्राफ़ में नोड्स को प्रभाव के आधार पर रैंक करें।

एक एज लिस्ट से cuGraph Graph बनाएं और GPU पर cugraph.pagerank चलाएं।

क्यों: cuGraph PageRank, BFS, और सेंट्रलिटी को CPU लाइब्रेरीज़ के लिए बहुत बड़े ग्राफ़ पर चलाता है।

संदर्भ

एक नेटवर्क डेटासेट में क्लस्टर/समुदाय खोजें।

cuGraph connected-components या Louvain का उपयोग करें; एक cuDF DataFrame से एजेस को इनजेस्ट करें।

डेटा उच्च-आयामी और ज्यादातर शून्य है।

मेमोरी को फिट करने और कंप्यूट को तेज़ करने के लिए घने एरेज़ के बजाय GPU विरल स्वरूपों (CSR/COO via CuPy sparse) का उपयोग करें।

क्यों: विरल स्टोरेज VRAM और कर्नेल को शून्य प्रविष्टियों पर बर्बाद करने से बचाता है।

सॉफ़्टवेयर और पर्यावरण प्रबंधन

एक काम करने वाला RAPIDS वातावरण स्थापित करें।

अपने CUDA/Python संस्करणों से मेल खाने के लिए RAPIDS Release Selector का उपयोग करके conda, pip, या Docker के माध्यम से स्थापित करें।

क्यों: चयनकर्ता संगत पैकेज बिल्ड को पिन करता है, जो इंस्टॉलेशन विफलताओं का सबसे आम स्रोत है।

संदर्भ

RAPIDS इंपोर्ट विफल हो जाता है या इंस्टॉलेशन के बाद कोई GPU नहीं दिखता है।

सत्यापित करें कि NVIDIA ड्राइवर और CUDA टूलकिट संस्करण RAPIDS बिल्ड आवश्यकताओं को पूरा करते हैं; GPU की पुष्टि करने के लिए nvidia-smi चलाएं।

क्यों: ड्राइवर/CUDA बेमेल "नो CUDA डिवाइस" त्रुटियों का शीर्ष कारण है।

एक पुनरुत्पादित करने योग्य, पूर्व-कॉन्फ़िगर RAPIDS वातावरण चाहते हैं।

NVIDIA NGC से RAPIDS कंटेनर खींचें; यह मिलान किए गए CUDA, ड्राइवर और लाइब्रेरीज़ को शिप करता है।

क्यों: NGC इमेज संस्करण-मिलान अनुमान को हटाती हैं और मशीनों में पर्यावरण को मानकीकृत करती हैं।

संदर्भ