Azure DP-100: डेटा साइंटिस्ट एसोसिएट के लिए 6-सप्ताह की अध्ययन योजना

Azure ML SDK v2, MLflow, डिजाइनर और परिनियोजन को कवर करने वाली एक यथार्थवादी 6-सप्ताह की DP-100 योजना — साथ ही वे गलतियाँ जो अन्यथा तैयार उम्मीदवारों को विफल कर देती हैं।

लेखक: CertLabPro TeamMarch 25, 20268 min read

DP-100, Azure पर डेटा साइंस समाधान को डिजाइन और कार्यान्वित करने की परीक्षा है। $165 USD, 100 मिनट में 40-60 प्रश्न (केस स्टडीज के कारण संख्या भिन्न होती है), एक या दो केस-स्टडी सेक्शन, 700/1000 का स्केल्ड पासिंग स्कोर। यह Azure Machine Learning पर काम करने वाले डेटा साइंटिस्ट्स के लिए भूमिका-आधारित एसोसिएट सर्ट है।

यदि आपको पहले से ही Python, scikit-learn, और बुनियादी ML अवधारणाओं का ज्ञान है, तो सप्ताह में 8-10 घंटे के हिसाब से छह सप्ताह पर्याप्त हैं। यदि आप ML खरोंच से सीख रहे हैं, तो DP-100 अभी सही परीक्षा नहीं है — पहले एक मॉडल-प्रशिक्षण कोर्स करें। परीक्षा Azure ML का परीक्षण करती है, न कि इस बात का कि आपको कन्फ्यूजन मैट्रिक्स समझ में आता है या नहीं।

DP-100 वास्तव में क्या परीक्षण करता है

वर्तमान परीक्षा गाइड (SDK v1 को हटाने और v2 पर पूरी तरह से ध्यान केंद्रित करने के लिए 2024 में ताज़ा की गई) मोटे तौर पर इस प्रकार विभाजित है:

Azure ML संसाधनों (वर्कस्पेस, कंप्यूट, डेटास्टोर, वातावरण) का प्रबंधन करें — लगभग 25%
प्रयोग चलाएं और मॉडल प्रशिक्षित करें (जॉब्स, MLflow ट्रैकिंग, AutoML, हाइपरड्राइव) — लगभग 25%
ML समाधानों को परिनियोजित और क्रियान्वित करें (प्रबंधित ऑनलाइन एंडपॉइंट्स, बैच एंडपॉइंट्स, मॉनिटरिंग) — लगभग 25%
जिम्मेदार ML लागू करें (निष्पक्षता, व्याख्यात्मकता, डिफरेंशियल प्राइवेसी) — लगभग 25%

व्यवहार में इसका क्या अर्थ है: आपको Azure ML Python SDK v2 में पारंगत होना चाहिए, Azure ML Studio (डिजाइनर के साथ-साथ नोटबुक) में सहज होना चाहिए, और Azure ML में MLflow ट्रैकिंग, सारणीबद्ध / इमेज / NLP के लिए AutoML, और हाइपरपैरामीटर ट्यूनिंग के लिए HyperDrive / स्वीप जॉब्स के बीच के अंतरों को स्पष्ट रूप से समझना चाहिए। परिनियोजन वाले हिस्से में आपको प्रबंधित ऑनलाइन एंडपॉइंट्स (रियल-टाइम, ट्रैफिक स्प्लिटिंग और ब्लू-ग्रीन के साथ) बनाम बैच एंडपॉइंट्स (बड़े पैमाने पर स्कोरिंग) जानने की आवश्यकता है।

वास्तविक आवश्यकताएं जो आपको चाहिए

सप्ताह 1 से पहले, आपको निम्न में पारंगत होना चाहिए:

Python, सहजता से। फ़ंक्शन, क्लास, डेकोरेटर, वर्चुअल वातावरण को पढ़ना और लिखना।
pandas + numpy कामकाजी स्तर पर।
scikit-learn, जिसमें Pipeline, train_test_split, बुनियादी रिग्रेसर्स और क्लासिफायर्स, और ColumnTransformer शामिल हैं।
वैचारिक ML: ट्रेन/वैलिडेशन/टेस्ट स्प्लिट, क्रॉस-वैलिडेशन, ओवरफिटिंग, रेगुलराइज़ेशन, रिग्रेशन और क्लासिफिकेशन मेट्रिक्स के बीच का अंतर।
कुछ Azure एक्सपोजर — कम से कम, AZ-900 शब्दावली। रिसोर्स ग्रुप्स, RBAC, स्टोरेज अकाउंट्स, और Key Vault परीक्षा में दोबारा नहीं समझाए जाएंगे।

यदि वे बुलेट अस्थिर लगते हैं, तो नीचे दी गई योजना शुरू करने से पहले उन्हें मजबूत करने में दो सप्ताह बिताएं।

सप्ताह 1: वर्कस्पेस और कंप्यूट

पहले प्लेटफॉर्म पर हाथ आजमाएं। अभी परीक्षा गाइड को शुरू से अंत तक न पढ़ें।

यदि आपके पास Azure फ्री अकाउंट नहीं है, तो एक बनाएं। पोर्टल के माध्यम से एक Azure ML वर्कस्पेस बनाएं। ध्यान दें कि इसके साथ क्या बनाया जाता है: स्टोरेज अकाउंट, Key Vault, कंटेनर रजिस्ट्री, Application Insights। परीक्षा इनके बारे में पूछती है।
एक कंप्यूट इंस्टेंस (एक छोटा — D2s_v3 ठीक है) और न्यूनतम नोड्स = 0 के साथ एक कंप्यूट क्लस्टर प्रदान करें। ध्यान दें कि कंप्यूट इंस्टेंस निष्क्रिय होने पर भी बिल किए जाते हैं, लेकिन क्लस्टर नोड्स शून्य तक स्केल करते हैं। यह परीक्षा में आता है।
Azure ML Studio UI को देखें। डेटास्टोर्स, डेटासेट्स / डेटा एसेट्स, एन्वायरमेंट्स, मॉडल्स, एंडपॉइंट्स पर क्लिक करें। आप अभी निर्माण नहीं कर रहे हैं — आप लेआउट को समझ रहे हैं।
कंप्यूट इंस्टेंस पर एक नोटबुक अटैच करें। azure-ai-ml (SDK v2 पैकेज — azureml-core नहीं, जो v1 है और अब उपयोग में नहीं है) इंस्टॉल करें। DefaultAzureCredential से प्रमाणित करें और एक MLClient बनाएं। वर्कस्पेस का नाम प्रिंट करें। यह आपका "हैलो वर्ल्ड" है।

सप्ताह के अंत का चेकपॉइंट: आप बिना कुछ देखे 60 सेकंड से कम समय में एक नोटबुक से अपने वर्कस्पेस से कनेक्ट कर सकते हैं।

सप्ताह 2: डेटा, वातावरण, जॉब्स

अब आप वास्तविक चीजें बनाते हैं।

एक CSV को Data एसेट (URI फाइल या MLTable) के रूप में रजिस्टर करें। इसे ml_client.data.get(...) का उपयोग करके एक नोटबुक से पढ़ें। परीक्षा को uri_file, uri_folder, और mltable डेटा एसेट प्रकारों के बीच का अंतर बहुत पसंद है — प्रत्येक के उपयोग के मामले को याद रखें।
एक कस्टम वातावरण बनाएं। या तो conda.yaml लिखें या एक क्यूरेटेड वातावरण के साथ एक अतिरिक्त pip dep का उपयोग करें। एक command जॉब सबमिट करें जो एक प्रशिक्षण स्क्रिप्ट (आपके द्वारा अभी पंजीकृत डेटासेट पर एक 30-लाइन scikit-learn क्लासिफायर) चलाता है।
अपनी स्क्रिप्ट में MLflow ऑटोलॉगिंग का उपयोग करें (mlflow.sklearn.autolog() फिर फिट करें)। देखें कि मेट्रिक्स और आर्टिफैक्ट्स जॉब में कैसे दिखाई देते हैं। इसकी तुलना mlflow.log_metric() के साथ मैन्युअल लॉगिंग से करें।
जॉब को अपने कंप्यूट इंस्टेंस के बजाय कंप्यूट क्लस्टर पर सबमिट करें। देखें कि क्लस्टर 0 से ऊपर कैसे आता है और फिर नीचे जाता है।

ध्यान देने योग्य बात: SDK v2 में, जॉब्स azure.ai.ml से command फ़ंक्शन के माध्यम से सबमिट किए जाते हैं, न कि ScriptRunConfig (जो v1 में था) के माध्यम से। परीक्षा आपको गलत-उत्तर विकल्पों में v1-शैली का कोड देगी। उसे पहचानने के लिए अपनी आंखों को प्रशिक्षित करें।

सप्ताह 3: AutoML, HyperDrive, पाइपलाइन

भारी ML सप्ताह।

उसी डेटासेट के विरुद्ध SDK से एक AutoML क्लासिफिकेशन जॉब चलाएं। इसे 30 मिनट और max_trials=10 तक सीमित करें ताकि आपके क्रेडिट खर्च न हों। लीडरबोर्ड देखें।
एक कस्टम प्रशिक्षण स्क्रिप्ट पर एक स्वीप / HyperDrive जॉब चलाएं। पहले random सैंपलिंग आज़माएं, फिर bayesian (जो प्रारंभिक समाप्ति का समर्थन नहीं करता है — यह एक परीक्षा प्रश्न है)।
प्रारंभिक समाप्ति नीतियों के बारे में पढ़ें: bandit, median stopping, truncation selection। प्रत्येक के इंटरफ़ेस को जानें — विशेष रूप से bandit के slack_factor और slack_amount टॉगल को।
कम से कम दो घटकों — एक डेटा प्रेप घटक और एक प्रशिक्षण घटक — को एक साथ जोड़कर एक पाइपलाइन जॉब बनाएं। पाइपलाइन परीक्षा में बहुत महत्वपूर्ण नहीं हैं, लेकिन वे इतनी बार दिखाई देते हैं कि आप परीक्षा के दिन YAML का अनुमान लगाना नहीं चाहेंगे।

सप्ताह के अंत का चेकपॉइंट: आप जोर से बता सकते हैं कि Random, Grid, और Bayesian सैंपलिंग क्या करते हैं, किसे कब उपयोग करना है, और Bayesian bandit के साथ क्यों नहीं जुड़ता है।

सप्ताह 4: परिनियोजन

यहीं पर अधिकांश उम्मीदवार अंक खो देते हैं।

एक जॉब के आउटपुट से एक मॉडल रजिस्टर करें। दोनों तरीकों से अभ्यास करें: ml_client.models.create_or_update के साथ SDK से, और स्टूडियो UI से।
मॉडल को एक प्रबंधित ऑनलाइन एंडपॉइंट पर परिनियोजित करें। एक ही एंडपॉइंट के पीछे कम से कम दो परिनियोजन स्थापित करें और उनके बीच ट्रैफिक को 90/10 में विभाजित करें। यह ब्लू/ग्रीन पैटर्न है जिसका माइक्रोसॉफ्ट सीधे परीक्षण करता है।
उसी मॉडल को एक बैच एंडपॉइंट पर परिनियोजित करें। इनपुट फाइलों के एक फ़ोल्डर को स्कोर करें। ध्यान दें कि बैच एंडपॉइंट्स कंप्यूट को निष्क्रिय नहीं रखते हैं; वे प्रत्येक इन्वोकेशन पर क्लस्टर को चालू करते हैं।
परिनियोजन पर डेटा ड्रिफ्ट मॉनिटरिंग सेट करें। एक Application Insights अलर्ट कॉन्फ़िगर करें। परीक्षा Model Monitor (SDK v1 में जिसे Data Drift Monitor कहा जाता था उसका नया नाम) के बारे में कम से कम एक प्रश्न पूछेगी।

ध्यान देने योग्य बात: प्रबंधित ऑनलाइन एंडपॉइंट्स अंतर्निहित VM द्वारा बिल किए जाते हैं, चाहे आप ट्रैफिक भेज रहे हों या नहीं। परीक्षा एक ऐसा परिदृश्य स्थापित करेगी जहाँ सबसे सस्ता उत्तर एक बैच एंडपॉइंट होगा और गलत उत्तर सभी ऑनलाइन एंडपॉइंट्स पर डिफ़ॉल्ट होंगे। चुनने से पहले "पूर्वानुमानों को वास्तविक समय में होने की आवश्यकता नहीं है" के लिए प्रश्न पढ़ें।

सप्ताह 5: जिम्मेदार ML और केस स्टडीज

कम कोड, अधिक पढ़ना।

एक प्रशिक्षित मॉडल के लिए Microsoft के Responsible AI डैशबोर्ड को देखें। निष्पक्षता मेट्रिक्स, त्रुटि विश्लेषण, मॉडल व्याख्यात्मकता (SHAP) मान उत्पन्न करें। परीक्षा शब्दावली का परीक्षण करती है, न कि कार्यान्वयन की गहराई का।
Azure ML में डिफरेंशियल प्राइवेसी के बारे में पढ़ें — azureml-opendp-smartnoise मौजूद है लेकिन परीक्षा इसे वैचारिक रखती है।
समयबद्ध परिस्थितियों में अपनी पहली पूर्ण-लंबाई वाली अभ्यास परीक्षा दें। लगातार दो केस स्टडीज 30+ मिनट खा जाएंगी। लय की आदत डालें।
अभ्यास स्कोर से कमजोर डोमेन की पहचान करें। अधिकांश उम्मीदवारों के लिए यह या तो परिनियोजन आंतरिक या हाइपरपैरामीटर ट्यूनिंग नीतियां होती हैं — सप्ताह 3 या 4 पर वापस जाएं।

सप्ताह 6: अभ्यास और शिप करें

हर दूसरे दिन अभ्यास परीक्षा दें। प्रत्येक के बाद, उन सेवाओं या अवधारणाओं को लिखें जिन्हें आपने गलत किया। पैटर्न सामने आएंगे — आमतौर पर वातावरण (क्यूरेटेड बनाम कस्टम बनाम पंजीकृत), डेटा एसेट प्रकार, और कौन सा मॉनिटरिंग टूल सही उत्तर है (Application Insights बनाम Azure Monitor बनाम Log Analytics workspace) के आसपास।

परीक्षा को सप्ताह के अंत के लिए शेड्यूल करें। यदि आप समयबद्ध परिस्थितियों में लगातार दो अभ्यास परीक्षाओं में 80% से अधिक स्कोर कर रहे हैं, तो आप तैयार हैं। 70% से कम का मतलब है एक और सप्ताह आगे बढ़ाना — $165 का रिटेक और 24 घंटे का कूलडाउन सात दिनों से अधिक महंगा है।

DP-100, AI-102 और DP-900 के साथ कैसे फिट बैठता है

DP-100 डेटा-साइंटिस्ट ट्रैक है; AI-102 AI-इंजीनियर ट्रैक है। ओवरलैप कम है। DP-100 चाहता है कि आप Azure ML में कस्टम मॉडल को प्रशिक्षित और परिनियोजित करें; AI-102 चाहता है कि आप Azure AI सेवाओं (Vision, Language, OpenAI) को अनुप्रयोगों में जोड़ें। यदि आप डेटा साइंटिस्ट हैं, तो DP-100 अकेला पर्याप्त है। यदि आप Copilot-शैली की सुविधाएँ बनाने वाले सॉफ्टवेयर इंजीनियर हैं, तो AI-102 बेहतर फिट है और DP-100 अनावश्यक है।

DP-900 एक दोस्ताना वार्मअप है — यदि आप सामान्य रूप से Azure डेटा सेवाओं के लिए नए हैं तो उपयोगी है, यदि आपने पहले ही Azure ML पर शिप कर दिया है तो अनावश्यक है।

जब आप प्रश्नों का अभ्यास करने के लिए तैयार हों, तो CertLabPro पर DP-100 प्रश्न बैंक ब्राउज़ करें या एक समयबद्ध सिमुलेशन शुरू करें। केस-स्टडी प्रश्न वे हैं जहाँ समय का दबाव महसूस होता है — उनका घड़ी के नीचे अभ्यास करें, न कि कॉफी-शॉप में दोपहर की पढ़ाई में।