🏠होम 📚सर्टिफिकेशन 📱मोबाइल ऐप्स

🎓परीक्षा जानकारी

✍️ब्लॉग 💼करियर 📊प्रगति 📅कैलेंडर 💬सहायता

गोपनीयता नीति उपयोग की शर्तें हमसे संपर्क करें कुकी नीति अस्वीकरण सुगम्यता DMCA / कॉपीराइट

सामग्री पर जाएँ

MLA-C01मार्गदर्शिका

मार्गदर्शिका — MLA-C01 AWS Certified Machine Learning Engineer Associate

अंतिम समीक्षा: मई 2026

MLA-C01 परीक्षा द्वारा परखे जाने वाले architectural patterns का स्कैन-योग्य संदर्भ। ऊपर से नीचे पढ़ें या किसी section पर जाएं।

अनुभाग

ML के लिए डेटा तैयार करना22 प्रविष्टियां
ML मॉडल विकास19 प्रविष्टियां
ML वर्कफ़्लो का परिनियोजन और ऑर्केस्ट्रेशन18 प्रविष्टियां
ML समाधान की निगरानी, रखरखाव और सुरक्षा18 प्रविष्टियां

ML के लिए डेटा तैयार करना

एक विज़ुअल डेटा-प्रेप टूल चुनें।

ML-केंद्रित, SageMaker Studio + फ्लो के साथ एकीकृत → प्रोसेसिंग जॉब → पाइपलाइन → नोटबुक एक्सपोर्ट → SageMaker Data Wrangler। पुनः प्रयोज्य रेसिपी, प्रोफाइलिंग, SageMaker निर्भरता के बिना सामान्य डेटा सफाई → AWS Glue DataBrew। कस्टम कोड के साथ 50 TB+ Spark → Amazon EMR।

क्यों: Data Wrangler SageMaker-नेटिव विकल्प है (300+ ट्रांसफॉर्म, डेटटाइम एक्सट्रैक्शन, पाइपलाइन/प्रोसेसिंग में एक्सपोर्ट)। DataBrew रेसिपी-आधारित और स्रोत-अज्ञेयवादी है। EMR स्केल और आर्बिटरेरी Spark को हैंडल करता है।

संदर्भ

S3, RDS, DynamoDB में डेटा को कैटलॉग करें ताकि विश्लेषक और SageMaker डेटासेट खोज सकें।

AWS Glue Crawlers, AWS Glue Data Catalog को स्कीमा + मेटाडेटा से भरते हैं। Athena, Redshift Spectrum और SageMaker सभी इसका उपयोग करते हैं।

संदर्भ

ऑडिट लॉगिंग के साथ डेटा लेक पर कॉलम- और रो-लेवल एक्सेस कंट्रोल की आवश्यकता है।

AWS Lake Formation। IAM और S3 बकेट नीतियां संरचित डेटा पर कॉलम-स्तर की ग्रैन्युलैरिटी प्रदान नहीं करती हैं।

क्यों: Lake Formation Glue Data Catalog के लिए गवर्नेंस को केंद्रीकृत करता है और ऑडिट के लिए CloudTrail के साथ एकीकृत होता है।

संदर्भ

बिना कुछ प्रोविजन किए S3 डेटा पर एड-हॉक SQL चलाएं।

Amazon Athena। सर्वरलेस, प्रति TB-स्कैन भुगतान। लागत और समय कम करने के लिए डेटा को पार्टिशन करें और Parquet का उपयोग करें।

संदर्भ

मौजूदा PySpark कोड के साथ 50 TB की फीचर इंजीनियरिंग, 4 घंटे में पूरी होनी चाहिए।

Spark के साथ Amazon EMR। ट्यूनेबल क्लस्टर साइज, Spot सपोर्ट, मौजूदा कोड को अपरिवर्तित चलाता है।

क्यों: Glue ETL भी Spark चलाता है, लेकिन EMR क्लस्टर के आकार पर अधिक नियंत्रण देता है; SageMaker Processing छोटे पैमाने के सिंगल-कंटेनर जॉब्स के लिए है।

संदर्भ

प्रशिक्षण से पहले एक कस्टम scikit-learn / pandas प्रीप्रोसेसिंग स्क्रिप्ट चलाएं। क्षणिक कंप्यूट, कोई निष्क्रिय लागत नहीं।

SKLearn (या PySpark) कंटेनर के साथ SageMaker Processing job। प्रोविजन करता है, चलाता है, समाप्त करता है।

क्यों: नोटबुक (चालू रहता है, पैसे लगते हैं) या Lambda (15 मिनट की सीमा, मेमोरी कैप) पर चलाने से बेहतर है।

संदर्भ

100,000 छवियों को लागत-कुशलता से लेबल करें — मानव + स्वचालित लेबलिंग चाहते हैं।

स्वचालित डेटा लेबलिंग सक्षम के साथ Amazon SageMaker Ground Truth। प्रारंभिक मानव-लेबल वाले सबसेट के बाद, Ground Truth एक मॉडल को प्रशिक्षित करता है और उच्च-विश्वास वाले सैंपलों को स्वतः-लेबल करता है।

क्यों: एक्टिव लर्निंग आमतौर पर लेबलिंग लागत को 70% तक कम कर देता है। A2I मॉडल की भविष्यवाणियों की मानव समीक्षा के लिए है, न कि बल्क लेबलिंग के लिए।

संदर्भ

कई एनोटेटर असहमत हैं; लेबल के एक नमूने को सत्यापित करने के लिए एक वरिष्ठ समीक्षक की आवश्यकता है।

Ground Truth लेबल सत्यापन (ऑडिट) वर्कफ़्लो। लेबल का एक सबसेट एक समीक्षा कार्यबल को भेजा जाता है जो अनुमोदित करता है, अस्वीकृत करता है या समायोजित करता है। मल्टी-वर्कर बहुमत वोटिंग के लिए एनोटेशन समेकन के साथ मिलाएं।

संदर्भ

प्रशिक्षण (बैच) और अनुमान (10ms से कम) पर समान इंजीनियर फीचर्स की आवश्यकता है।

Amazon SageMaker Feature Store जिसमें फीचर ग्रुप पर ऑनलाइन + ऑफलाइन दोनों स्टोर सक्षम हैं। ऑनलाइन स्टोर रियल-टाइम GetRecord को बैक करता है; ऑफलाइन स्टोर (S3 में Parquet) प्रशिक्षण को बैक करता है।

क्यों: कस्टम DynamoDB ↔ S3 सिंक के बिना ट्रेन/सर्व स्क्यू को समाप्त करता है।

संदर्भ

एक फीचर ग्रुप को परिभाषित करना — क्या अनिवार्य है।

रिकॉर्ड पहचानकर्ता नाम (प्रति रिकॉर्ड अद्वितीय कुंजी) और इवेंट टाइम फीचर नाम (पॉइंट-इन-टाइम क्वेरीज़ के लिए टाइमस्टैम्प)।

संदर्भ

भविष्य के फीचर मूल्यों को लीक किए बिना प्रशिक्षण के लिए दो फीचर ग्रुप्स को जोड़ें।

इवेंट-टाइम कॉलम का उपयोग करके ऑफलाइन स्टोर के खिलाफ पॉइंट-इन-टाइम जॉइन। प्रत्येक प्रशिक्षण पंक्ति केवल उन्हीं फीचर मूल्यों को देखती है जो उसके इवेंट टाइमस्टैम्प पर मौजूद थे।

क्यों: नवीनतम मानों पर प्लेन JOIN पोस्ट-इवेंट फीचर ड्रिफ्ट को मॉडल तक पहुंचाकर डेटा लीकेज का कारण बनता है।

संदर्भ

500 GB डेटासेट के लिए SageMaker प्रशिक्षण डेटा इनपुट मोड चुनें।

फाइल मोड → पूरा डेटासेट पहले डाउनलोड होता है (धीमी शुरुआत, EBS लागत)। पाइप मोड → S3 से स्ट्रीम होता है, कम स्टार्टअप, कम स्टोरेज। FastFile मोड → लेजी फाइल-लेवल स्ट्रीमिंग। डाउनलोड से बचने के लिए बड़े डेटासेट के लिए पाइप (या FastFile) का उपयोग करें।

संदर्भ

लाखों छोटी फाइलें (प्रत्येक ~50 KB) — पाइप मोड थ्रूपुट खराब है।

Amazon RecordIO (protobuf) में बंडल करें और पाइप मोड के माध्यम से स्ट्रीम करें। अनुक्रमिक रिकॉर्ड प्रति-फाइल S3 GET ओवरहेड को समाप्त करते हैं।

संदर्भ

अक्सर कॉलम-सबसेट रीड्स + पार्टिशन फिल्टर के साथ S3 पर ML डेटा लेक के लिए एक स्टोरेज फॉर्मेट और लेआउट चुनें।

Parquet (कॉलमनार, कंप्रेस्ड) को सबसे अधिक फ़िल्टर किए गए कॉलम (उदाहरण के लिए, तिथि या क्षेत्र) द्वारा पार्टिशन किया गया। Athena और SageMaker में कॉलम प्रूनिंग + पार्टिशन प्रूनिंग को चलाता है।

संदर्भ

Glue ETL हर रन पर पहले से हैंडल की गई फाइलों को फिर से प्रोसेस करता है।

Glue जॉब बुकमार्क सक्षम करें। PAUSE विकल्प का उपयोग करें ताकि एक विफल रन बुकमार्क को आगे न बढ़ाए; केवल आवश्यकता पड़ने पर रीसेट करें।

संदर्भ

Glue ETL पाइपलाइन के भीतर स्कीमा, प्रकार, मान श्रेणियों और नल बाधाओं को मान्य करें।

DQDL नियमों के साथ AWS Glue Data Quality। जब चेक विफल हो जाते हैं तो पाइपलाइन को रोक देता है।

संदर्भ

श्रेणीबद्ध विशेषताओं को एन्कोड करें। कुछ क्रमित हैं (Basic/Standard/Premium), कुछ नहीं हैं (US राज्य)।

क्रमित → ऑर्डिनल एन्कोडिंग (रैंक को संरक्षित करता है)। अक्रमित → वन-हॉट एन्कोडिंग (नकली क्रमबद्धता से बचता है)। अक्रमित विशेषताओं पर लेबल एन्कोडिंग से बचें। टारगेट एन्कोडिंग को लीकेज से बचने के लिए सावधान CV की आवश्यकता होती है।

न्यूमेरिकल कॉलम में गुम मान हैं जो किसी अन्य विशेषता से सहसंबद्ध हैं (उदाहरण के लिए, आय की कमी रोजगार के प्रकार पर निर्भर करती है)।

समूह-आधारित मीडियन इम्पुटेशन (प्रति रोजगार प्रकार मीडियन)। संबंध को संरक्षित करता है; माध्य आउटलायर्स के प्रति संवेदनशील होता है; ड्रॉप करने से डेटा खो जाता है; शून्य पूर्वाग्रह जोड़ता है।

0.3% पॉजिटिव क्लास के साथ बाइनरी क्लासिफिकेशन।

केवल प्रशिक्षण फोल्ड पर SMOTE ओवरसैंपलिंग (स्प्लिट के बाद)। PR-curve / F1 मूल्यांकन के साथ मिलाएं, सटीकता के साथ नहीं।

क्यों: लीकेज से बचने के लिए स्प्लिटिंग के बाद ओवरसैंपलिंग लागू करें। असंतुलित डेटा पर सटीकता भ्रामक होती है।

राइट-स्क्यूड न्यूमेरिक फीचर (उदाहरण के लिए, आय) लीनियर-मॉडल प्रदर्शन को नुकसान पहुंचाता है।

लॉग ट्रांसफॉर्म। राइट टेल को संपीड़ित करता है और अधिक सममित वितरण पैदा करता है। स्टैंडर्डाइजेशन/मिन-मैक्स स्केल को बदलते हैं, आकार को नहीं।

50 अत्यधिक सहसंबद्ध विशेषताएं; विचरण को संरक्षित करते हुए कम आयाम चाहते हैं।

PCA। सहसंबद्ध विशेषताओं को विचरण द्वारा रैंक किए गए असंबद्ध मुख्य घटकों में बदलता है।

एक ट्रेन/वैल/टेस्ट स्प्लिट चुनें।

असंतुलित क्लासिफिकेशन → स्ट्रेटिफाइड स्प्लिट (क्लास अनुपात को संरक्षित करता है)। टाइम-सीरीज → कालानुक्रमिक स्प्लिट (प्रारंभिक अवधि पर प्रशिक्षित करें, नवीनतम पर परीक्षण करें); कभी भी रैंडम-शफल न करें। IID टैबुलर → रैंडम।

ML मॉडल विकास

एक SageMaker बिल्ट-इन एल्गोरिथम चुनें।

टैबुलर क्लासिफिकेशन/रिग्रेशन → XGBoost या Linear Learner। बड़े पैमाने पर मल्टी-क्लास टेक्स्ट क्लासिफिकेशन → BlazingText (पर्यवेक्षित)। संबंधित सीरीज और मौसमीता के साथ टाइम-सीरीज → DeepAR। न्यूमेरिक पर अनपर्यवेक्षित विसंगति का पता लगाना → Random Cut Forest। टॉपिक मॉडलिंग → Neural Topic Model। अनुवाद / Seq2Seq → Sequence-to-Sequence। पिक्सेल-लेवल क्लासेस → Semantic Segmentation। युग्मित-एंटिटी एम्बेडिंग (उपयोगकर्ता/आइटम) → Object2Vec।

संदर्भ

टैबुलर डेटा पर स्वचालित रूप से कई एल्गोरिदम की तुलना करें; एक लीडरबोर्ड और उसके पीछे के नोटबुक चाहते हैं।

SageMaker Autopilot। एल्गोरिदम आज़माता है, फीचर इंजीनियरिंग करता है, हाइपरपैरामीटर्स को ट्यून करता है, उम्मीदवार नोटबुक उत्पन्न करता है।

संदर्भ

बिल्ट-इन में कस्टम प्रशिक्षण फ्रेमवर्क / प्रोप्रायटरी टोकेनाइज़र नहीं है।

BYOC (ब्रिंग योर ओन कंटेनर): कोड और निर्भरताओं के साथ Docker इमेज, Amazon ECR पर पुश करें, SageMaker प्रशिक्षण में संदर्भ दें। अनुकूलन को छोड़े बिना प्रबंधित इंफ्रा (Spot, वितरित, जीवनचक्र) रखता है।

संदर्भ

चिकित्सा वर्गीकरण के लिए छोटा इमेज डेटासेट (~2,000)।

ImageNet (उदाहरण के लिए ResNet) पर प्री-प्रशिक्षित मॉडल से ट्रांसफर लर्निंग। अंतिम परतों को फाइन-ट्यून करें। SageMaker Image Classification इसे सीधे सपोर्ट करता है।

क्यों: छोटे डेटा पर खरोंच से प्रशिक्षण से ओवरफिटिंग होती है। प्री-प्रशिक्षित विशेषताएं (किनारे, बनावट) चिकित्सा इमेजरी में साफ-सुथरा स्थानांतरित होती हैं।

कस्टम प्रशिक्षण कोड लिखे बिना एक प्री-प्रशिक्षित फाउंडेशन मॉडल को तेजी से फाइन-ट्यून करें।

SageMaker JumpStart फाइन-ट्यूनिंग API: मॉडल ID चुनें, अपेक्षित प्रारूप में डेटासेट प्रदान करें (आमतौर पर JSONL), एक फाइन-ट्यूनिंग जॉब लॉन्च करें, JumpStart से एक एंडपॉइंट पर डिप्लॉय करें।

संदर्भ

एक LLM को एक डोमेन के अनुकूल बनाएं। बहुत अधिक स्थिर ज्ञान → RAG बनाम फाइन-ट्यूनिंग बनाम केवल प्रॉम्प्ट चुनें।

बार-बार बदलने वाला डोमेन ज्ञान → Bedrock Knowledge Bases के माध्यम से RAG। ब्रांड वॉयस / लेबल वाले उदाहरणों के साथ सुसंगत शैली → Bedrock मॉडल अनुकूलन (फाइन-ट्यूनिंग, अक्सर पैरामीटर-कुशल एडेप्टर)। छोटा स्थिर मार्गदर्शन → कुछ-शॉट के साथ प्रॉम्प्ट इंजीनियरिंग।

संदर्भ

8 हाइपरपैरामीटर्स को ट्यून करें; प्रत्येक प्रशिक्षण कार्य 30 मिनट का है; सीमित कंप्यूट।

Bayesian ऑप्टिमाइज़ेशन (डिफ़ॉल्ट) के साथ SageMaker Automatic Model Tuning। उद्देश्य का एक संभाव्य मॉडल बनाता है और आशाजनक क्षेत्रों का नमूना लेता है।

क्यों: ग्रिड सर्च संयोजनात्मक रूप से फैलता है; रैंडम सर्च बजट बर्बाद करता है। उद्देश्य मीट्रिक (उदाहरण के लिए `validation:auc`) और प्रकार (`Maximize`) निर्दिष्ट करें।

संदर्भ

50 नौकरियों के बाद ट्यूनिंग पठार पर आ गया।

माता-पिता के कार्यों को पूर्व के रूप में उपयोग करके और सर्वश्रेष्ठ प्रदर्शन करने वाले कॉन्फ़िगरेशन पर केंद्रित संकीर्ण सीमाओं के साथ वार्म स्टार्ट के साथ नई ट्यूनिंग नौकरी।

संदर्भ

मौजूदा मॉडल को मासिक नए लेबलों पर प्रशिक्षित करना जारी रखें — खरोंच से शुरू न करें।

वृद्धिशील प्रशिक्षण: पिछले मॉडल आर्टिफैक्ट्स को इनपुट के रूप में पास करें। Image Classification, Object Detection, Semantic Segmentation बिल्ट-इन्स द्वारा समर्थित।

संदर्भ

एक वितरित-प्रशिक्षण रणनीति चुनें।

मॉडल एक GPU पर फिट बैठता है लेकिन डेटा बहुत बड़ा है → डेटा पैरेललिज्म (मॉडल को दोहराएं, बैचों को विभाजित करें, AllReduce ग्रेडिएंट्स)। मॉडल एक GPU पर फिट नहीं बैठता है → मॉडल पैरेललिज्म (GPU में परतें/टेंसर विभाजित करें)। 10B+ पैरामीटर → SageMaker मॉडल पैरेलल लाइब्रेरी (टेंसर + पाइपलाइन पैरेलल)।

संदर्भ

PyTorch / TensorFlow प्रशिक्षण बहुत धीमा है; सटीकता बदले बिना ग्राफ-स्तर अनुकूलन चाहते हैं।

SageMaker Training Compiler। मॉडल ग्राफ को संकलित करता है; प्रशिक्षण समय को 50% तक कम कर सकता है।

संदर्भ

लंबे प्रशिक्षण कार्य जो रुकावटों को सहन कर सकते हैं; बड़ी लागत बचत चाहते हैं।

SageMaker Managed Spot Training (90% तक की छूट)। S3 पर चेकपॉइंट्स कॉन्फ़िगर करें ताकि SageMaker रुकावट के बाद फिर से शुरू हो सके।

संदर्भ

प्रशिक्षण हानि गिरती रहती है, 50 युग के बाद सत्यापन हानि बढ़ने लगती है।

ओवरफिटिंग। सत्यापन-हानि न्यूनतम पर अर्ली स्टॉपिंग लागू करें, साथ ही ड्रापआउट / L2 वेट डिके। अधिक परतें इसे बदतर बनाती हैं।

सही वर्गीकरण मीट्रिक चुनें।

असंतुलित + दुर्लभ सकारात्मक मायने रखता है → रिकॉल, F1, PR कर्व / एवरेज प्रिसिजन (ROC AUC नहीं, जो कई TNs द्वारा फुलाया जाता है)। असंतुलन के साथ मल्टी-क्लास → मैक्रो-एवरेज्ड F1। थ्रेशोल्ड-स्वतंत्र रैंकिंग → AUC। संभाव्यता अंशांकन → लॉग लॉस / ब्रियर।

रिग्रेशन मॉडल उच्च अंत पर अधिक भविष्यवाणी करता है और निम्न अंत पर कम भविष्यवाणी करता है।

अवशेषों बनाम अनुमानित मान को प्लॉट करें; व्यवस्थित पूर्वाग्रह के लिए मीन एरर (हस्ताक्षरित) का उपयोग करें। RMSE / MAE / R² दिशा को छिपाते हैं।

प्रत्येक इनपुट एक साथ कई वर्गों से संबंधित हो सकता है।

बाइनरी क्रॉस-एंट्रॉपी लॉस (स्वतंत्र संभावनाएं) के साथ प्रति आउटपुट न्यूरॉन सिगमॉइड सक्रियण। सॉफ्टमैक्स + श्रेणीबद्ध क्रॉस-एंट्रॉपी पारस्परिक रूप से अनन्य वर्गों को मानता है।

एक मेटा-लर्नर के साथ कई बेस मॉडल स्टैक करें।

k-फोल्ड क्रॉस-वैलिडेशन: प्रत्येक बेस मॉडल अपने होल्ड-आउट फोल्ड पर आउट-ऑफ-फोल्ड भविष्यवाणियां उत्पन्न करता है; फोल्ड्स में इकट्ठा करें और उन पर मेटा-लर्नर को प्रशिक्षित करें।

क्यों: बेस मॉडल को प्रशिक्षित करना और उसी प्रशिक्षण सेट पर भविष्यवाणी करना मेटा-लर्नर में जानकारी लीक करता है।

कई प्रशिक्षण रनों (पैरामीटर, मेट्रिक्स, आर्टिफैक्ट्स) को ट्रैक और तुलना करें।

SageMaker Experiments। प्रशिक्षण कार्य को `experiment_config` (एक्सपेरिमेंट + ट्रायल + ट्रायल कंपोनेंट) पास करें; SageMaker हाइपरपैरामीटर्स, इनपुट कॉन्फिग, मेट्रिक्स और आर्टिफैक्ट्स को स्वतः-लॉग करता है।

संदर्भ

स्क्रिप्ट को फिर से लिखे बिना प्रशिक्षण पैथोलॉजी (लुप्तप्राय ग्रेडिएंट, हानि में कमी नहीं, विस्फोटक टेंसर) का पता लगाएं।

बिल्ट-इन नियमों (`VanishingGradient`, `LossNotDecreasing`, `ExplodingTensor`, `Overfit`) के साथ SageMaker Debugger। हुक के माध्यम से टेंसर कैप्चर करता है; नियमों का मूल्यांकन तुरंत करता है।

संदर्भ

ML वर्कफ़्लो का परिनियोजन और ऑर्केस्ट्रेशन

एक SageMaker अनुमान मोड चुनें।

स्थिर निम्न-विलंबता तुल्यकालिक → रियल-टाइम एंडपॉइंट। स्पाइकी / निष्क्रिय ट्रैफ़िक, GPU की आवश्यकता नहीं → सर्वरलेस अनुमान (कोल्ड स्टार्ट को खत्म करने के लिए प्रोविज़नड कॉन्करेंसी कॉन्फ़िगर करें)। प्रति-अनुरोध लंबे समय तक चलने वाला (>60 सेकंड) या बड़े पेलोड → एसिंक्रोनस अनुमान। S3 रिकॉर्ड्स का बल्क ऑफ़लाइन स्कोरिंग → बैच ट्रांसफॉर्म।

संदर्भ

कई कम-ट्रैफ़िक मॉडल — प्रत्येक के लिए एक एंडपॉइंट बहुत महंगा है।

SageMaker मल्टी-मॉडल एंडपॉइंट (MME)। मॉडल साझा इंस्टेंस में मांग पर लोड होते हैं। एक एंडपॉइंट, कई मॉडल, कम लागत।

संदर्भ

एक एंडपॉइंट से प्रति अनुरोध समानांतर में दो स्वतंत्र मॉडल इन्वोक किए गए।

डायरेक्ट इन्वोकेशन मोड में मल्टी-कंटेनर एंडपॉइंट। कॉलर प्रत्येक कंटेनर को स्वतंत्र रूप से लक्षित करता है।

संदर्भ

प्रति अनुरोध अनुक्रमिक: टोकनाइज करें → एम्बेड करें → वर्गीकृत करें, प्रत्येक एक अलग कंटेनर में।

SageMaker Inference Pipeline (सीरियल मोड)। 15 कंटेनर तक श्रृंखलाबद्ध; प्रत्येक का आउटपुट अगले को फीड करता है; एक एंडपॉइंट।

संदर्भ

रियल-टाइम एंडपॉइंट को 1000 req/s के पीक को अवशोषित करना चाहिए लेकिन रात में लगभग शून्य तक स्केल करना चाहिए।

`InvocationsPerInstance` पर एप्लीकेशन ऑटो स्केलिंग टारगेट-ट्रैकिंग। ट्रैफ़िक बदलने पर एंडपॉइंट के पीछे इंस्टेंस जोड़ता/हटाता है।

संदर्भ

10% ट्रैफ़िक पर एक नया मॉडल रोल आउट करें, 30 मिनट तक बेक करें, अलार्म पर स्वतः-रोलबैक करें।

कैनरी या लीनियर ट्रैफ़िक शिफ्टिंग + ऑटो-रोलबैक के लिए CloudWatch अलार्म के साथ SageMaker एंडपॉइंट डिप्लॉयमेंट कॉन्फ़िगरेशन।

संदर्भ

उपयोगकर्ताओं को प्रभावित किए बिना उत्पादन ट्रैफ़िक के खिलाफ एक नए मॉडल को मान्य करें।

शैडो वेरिएंट। उत्पादन ट्रैफ़िक को शैडो मॉडल में डुप्लिकेट किया जाता है; केवल उत्पादन मॉडल ग्राहक को वापस लौटता है।

संदर्भ

एक एंडपॉइंट पर 90/10 ट्रैफ़िक स्प्लिट के साथ दो मॉडल वर्जन चलाएं।

`initial_variant_weight` 0.9 / 0.1 के साथ SageMaker उत्पादन वेरिएंट। `UpdateEndpointWeightsAndCapacities` के साथ अपडेट करें।

संदर्भ

लागत / विलंबता / थ्रूपुट के आधार पर एक रियल-टाइम एंडपॉइंट के लिए सही इंस्टेंस प्रकार चुनें।

SageMaker Inference Recommender। उम्मीदवार इंस्टेंस प्रकारों में मॉडल को बेंचमार्क करता है और सिफारिशें रिपोर्ट करता है।

संदर्भ

मॉडल के संस्करण बनाएं, औपचारिक अनुमोदन के साथ उत्पादन परिनियोजन को गेट करें, वंश को ट्रैक करें।

SageMaker मॉडल रजिस्ट्री। अनुमोदन स्थिति (PendingApproval / Approved / Rejected), वंश को ट्रैक करता है, पाइपलाइन और CI/CD के साथ एकीकृत होता है।

संदर्भ

नेटिव ML वर्कफ़्लो: प्रशिक्षित करें → मूल्यांकन करें → सशर्त रूप से रजिस्टर/डिप्लॉय करें।

TrainingStep → ConditionStep (मीट्रिक थ्रेशोल्ड) → RegisterModel → Lambda स्टेप (या CreateModel/Endpoint) के साथ SageMaker Pipelines। नेटिव SageMaker इंटीग्रेशन, पैरामीटराइजेशन, कैशिंग, लीनेज।

संदर्भ

पाइपलाइन को Glue ETL + Lambda + SageMaker प्रशिक्षण + SNS / DynamoDB का समन्वय करना चाहिए।

AWS Step Functions। स्टैक में नेटिव सर्विस इंटीग्रेशन; गैर-SageMaker स्टेप्स के लिए पाइपलाइन की तुलना में अधिक समृद्ध।

क्यों: पाइपलाइन शुद्ध-ML वर्कफ़्लो के लिए सही विकल्प है; Step Functions सही विकल्प है जब आपको व्यापक AWS सेवा एकीकरण की आवश्यकता होती है।

संदर्भ

प्री-बिल्ट MLOps CI/CD स्केफोल्डिंग (CodePipeline + CodeBuild + Pipelines) चाहते हैं।

SageMaker MLOps प्रोजेक्ट टेम्पलेट्स। एक क्लिक में रेपो + पाइपलाइन + IAM + पाइपलाइन स्टेप्स उत्पन्न करता है।

संदर्भ

जब मॉडल मॉनिटर ड्रिफ्ट का पता लगाता है तो स्वतः-पुनःप्रशिक्षित करें।

मॉडल मॉनिटर → उल्लंघन मीट्रिक पर CloudWatch अलार्म → EventBridge नियम → SageMaker पाइपलाइन निष्पादन शुरू करें।

संदर्भ

ARM एज डिवाइस पर एक TensorFlow मॉडल डिप्लॉय करें; इसे छोटा + तेज चाहिए।

SageMaker Neo। लक्षित हार्डवेयर के लिए संकलित करता है; 25 गुना तक तेज, ~1/10वीं मेमोरी। DLR रनटाइम के माध्यम से डिप्लॉय करें; ऑफ़लाइन एज के लिए IoT Greengrass के साथ मिलाएं।

संदर्भ

छोटा मॉडल (<50 MB), <100 req/दिन, ≤10 सेकंड की विलंबता सहनीय, सबसे कम लागत चाहते हैं।

कंटेनर इमेज (10 GB तक) के साथ AWS Lambda। प्रति अनुरोध भुगतान करें, कोई निष्क्रिय लागत नहीं; SageMaker एंडपॉइंट्स प्रति घंटे बिल करते हैं।

अनुमान में 60+ सेकंड लगते हैं (LLM लॉन्ग-फॉर्म)। रियल-टाइम एंडपॉइंट टाइम आउट हो जाता है।

SageMaker एसिंक्रोनस अनुमान। तुरंत S3 स्थान लौटाता है; 60 मिनट तक प्रोसेस करता है; पूरा होने पर SNS सूचना।

संदर्भ

स्वतंत्र रिकॉर्ड्स के साथ अधिकतम थ्रूपुट के लिए बैच ट्रांसफॉर्म को ट्यून करें।

एक बड़े `MaxPayloadInMB` के साथ `BatchStrategy=MultiRecord` सेट करें, और इंस्टेंस में समानांतर करने के लिए `MaxConcurrentTransforms` बढ़ाएं।

संदर्भ

ML समाधान की निगरानी, रखरखाव और सुरक्षा

पता लगाएं कि इनपुट फीचर वितरण प्रशिक्षण-समय बेसलाइन से भटक गए हैं।

SageMaker मॉडल मॉनिटर — डेटा क्वालिटी। अनुमान डेटा कैप्चर करें, प्रशिक्षण डेटा से गणना की गई बेसलाइन के विरुद्ध तुलना करें, ड्रिफ्ट पर अलार्म करें।

क्यों: सेटअप क्रम लॉक है: (1) बेसलाइन जॉब → (2) मॉनिटरिंग शेड्यूल → (3) बाधा-उल्लंघन मेट्रिक्स पर CloudWatch अलार्म।

संदर्भ

जब ग्राउंड ट्रुथ देरी से आता है तो भविष्यवाणी-गुणवत्ता में गिरावट (सटीकता / F1 / RMSE) का पता लगाएं।

SageMaker मॉडल मॉनिटर — मॉडल क्वालिटी। कैप्चर की गई भविष्यवाणियों को देरी से आए ग्राउंड-ट्रुथ लेबल के साथ मर्ज करता है; जब मेट्रिक्स बेसलाइन से नीचे गिरते हैं तो अलार्म करता है।

संदर्भ

इनपुट वितरण अपरिवर्तित दिखता है लेकिन भविष्यवाणी की गुणवत्ता बदल गई है।

SageMaker Clarify फीचर एट्रिब्यूशन ड्रिफ्ट मॉनिटर (SHAP-आधारित)। शिफ्टिंग फीचर महत्व के माध्यम से कॉन्सेप्ट ड्रिफ्ट का पता लगाता है। जब ग्राउंड ट्रुथ उपलब्ध हो तो मॉडल क्वालिटी मॉनिटर के साथ जोड़ें।

संदर्भ

सटीकता गिर गई लेकिन इनपुट फीचर वितरण अपरिवर्तित हैं।

कॉन्सेप्ट ड्रिफ्ट (लेबल/फीचर संबंध बदल गया)। डेटा ड्रिफ्ट को खारिज कर दिया गया था। फिक्स: हाल ही के लेबल वाले डेटा पर पुनःप्रशिक्षित करें।

प्रशिक्षण से पहले डेटासेट में पूर्वाग्रह की जांच करें।

SageMaker Clarify प्री-ट्रेनिंग पूर्वाग्रह मेट्रिक्स। नमूना-आकार असमानता के लिए क्लास इम्बैलेंस (CI); लेबल-दर असमानता के लिए लेबल के सकारात्मक अनुपातों में अंतर (DPL); वितरण संबंधी अंतराल के लिए KL/JS डायवर्जेंस।

संदर्भ

प्रशिक्षित मॉडल में पूर्वाग्रह की जांच करें।

SageMaker Clarify पोस्ट-ट्रेनिंग पूर्वाग्रह मेट्रिक्स। Disparate Impact (DI), एक्यूरेसी डिफरेंस (AD), कंडीशनल एक्सेप्टेंस, ट्रीटमेंट इक्वैलिटी। मॉडल भविष्यवाणियों के खिलाफ चलाएं।

क्यों: प्री-ट्रेन DPL साफ लेकिन पोस्ट-ट्रेन DI पक्षपाती = मॉडल स्वयं एक प्रॉक्सी वेरिएबल को बढ़ाता है। विशेषताओं की जांच करें (उदाहरण के लिए ज़िप कोड)।

संदर्भ

नियामक को प्रति-भविष्यवाणी फीचर एट्रिब्यूशन की आवश्यकता है।

SageMaker Clarify SHAP मान। प्रति भविष्यवाणी प्रत्येक विशेषता के योगदान का परिमाण + दिशा। मॉडल कार्ड्स के साथ एकीकृत होता है।

संदर्भ

अनुपालन के लिए प्रत्येक उत्पादन मॉडल (इच्छित उपयोग, प्रशिक्षण डेटा, मूल्यांकन, नैतिकता, सीमाएं) के संरचित दस्तावेज़ीकरण की आवश्यकता होती है।

SageMaker मॉडल कार्ड्स। संस्करणित; मॉडल रजिस्ट्री के साथ एकीकृत।

संदर्भ

ऑडिट करें कि किसने कौन सा प्रशिक्षण कार्य / एंडपॉइंट / नोटबुक कब बनाया।

AWS CloudTrail। सभी SageMaker API कॉल (पहचान, समय, IP, पैरामीटर) कैप्चर करता है। S3 में स्टोर करें, Athena के साथ क्वेरी करें।

संदर्भ

एंडपॉइंट 5xx त्रुटियों / विलंबता स्पाइक्स पर अलर्ट करें।

`Invocation5XXErrors`, `Invocation4XXErrors`, `ModelLatency`, `OverheadLatency` पर CloudWatch अलार्म। SNS के माध्यम से सूचित करें।

संदर्भ

नोटबुक को एक S3 बकेट से प्रशिक्षण डेटा पढ़ने और कलाकृतियों को दूसरे में लिखने की आवश्यकता है।

कस्टम IAM नीति: प्रशिक्षण बकेट/प्रीफिक्स पर `s3:GetObject` और कलाकृतियों बकेट/प्रीफिक्स पर `s3:PutObject`, SageMaker निष्पादन भूमिका से जुड़ा हुआ। `AmazonS3FullAccess` से बचें।

संदर्भ

SageMaker संसाधनों में प्रति-टीम अलगाव।

IAM शर्त `aws:ResourceTag/project` के साथ विशेषता-आधारित एक्सेस कंट्रोल (ABAC)। `project=A` टैग किए गए संसाधन केवल उन भूमिकाओं के लिए सुलभ हैं जिनकी नीतियां मेल खाती हैं।

संदर्भ

ग्राहक-प्रबंधित कुंजियों + रोटेशन के साथ प्रशिक्षण डेटा और मॉडल कलाकृतियों को एन्क्रिप्ट करें।

कस्टमर मैनेज्ड की (CMK) के साथ SSE-KMS। KMS रोटेशन, कुंजी नीतियां, CloudTrail ऑडिट। SageMaker द्वारा उपयोग के लिए प्रशिक्षण कार्य + एंडपॉइंट कॉन्फ़िग (वॉल्यूम + आउटपुट) में KMS कुंजी निर्दिष्ट करें।

संदर्भ

कई इंस्टेंस पर वितरित प्रशिक्षण; प्रशिक्षण कंटेनरों के बीच ट्रैफ़िक को एन्क्रिप्ट करें।

प्रशिक्षण कार्य पर `EnableInterContainerTrafficEncryption=true` सेट करें। वितरित कंटेनरों के बीच TLS जोड़ता है।

संदर्भ

कंटेनर को आउटबाउंड नेटवर्क कॉल नहीं करने चाहिए; डेटा SageMaker कॉपी-चैनल के अंदर रहना चाहिए।

प्रशिक्षण/प्रोसेसिंग जॉब या एंडपॉइंट पर `EnableNetworkIsolation=true` सेट करें। SageMaker कंटेनर चलने से पहले S3 इनपुट चैनलों को कॉपी करता है; कंटेनर का कोई आउटबाउंड नहीं होता।

संदर्भ

प्रशिक्षण को सार्वजनिक इंटरनेट को नहीं छूना चाहिए।

SageMaker को बिना NAT/इंटरनेट गेटवे के एक निजी सबनेट में चलाएं। VPC एंडपॉइंट्स जोड़ें — S3 के लिए गेटवे एंडपॉइंट, SageMaker API + Runtime + ECR + STS + CloudWatch Logs के लिए इंटरफ़ेस एंडपॉइंट्स।

संदर्भ

ML पाइपलाइन RDS से फीचर्स खींचती है — क्रेडेंशियल स्वचालित रूप से घुमाए जाने चाहिए।

स्वचालित रोटेशन सक्षम के साथ AWS Secrets Manager (RDS के लिए बिल्ट-इन Lambda रोटेशन)।

संदर्भ

यह सुनिश्चित करें कि सभी SageMaker संसाधन VPC + KMS + अनुमोदित इंस्टेंस प्रकारों का उपयोग करें।

निवारक → SageMaker Service Catalog उत्पाद (पूर्व-अनुमोदित कॉन्फ़िग) और IAM कंडीशन कीज़ (`sagemaker:VpcSecurityGroupIds`, `sagemaker:VolumeKmsKey`) जो गैर-अनुपालन API कॉल को अस्वीकार करते हैं। जासूसी → AWS Config प्रबंधित/कस्टम नियम।

संदर्भ