मार्गदर्शिका — C1000-177 IBM Certified watsonx Data Scientist - Associate

अंतिम समीक्षा: जून 2026

C1000-177 परीक्षा द्वारा परखे जाने वाले architectural patterns का स्कैन-योग्य संदर्भ। ऊपर से नीचे पढ़ें या किसी section पर जाएं।

व्यावसायिक समस्या का मूल्यांकन करें

हितधारक बिना किसी लेबल वाले परिणाम के "ग्राहकों में पैटर्न खोजने" के लिए कहते हैं।

इसे अनसुपरवाइज्ड (clustering / segmentation) के रूप में फ्रेम करें। लेबल वाला target variable मौजूद होने पर supervised learning को आरक्षित करें।

क्यों: कोई target column न होने का मतलब है कि भविष्यवाणी करने के लिए कुछ भी नहीं है; एक supervised setup को मजबूर करने से एक लेबल बनता है और परिणाम में पक्षपात होता है।

छोड़ने की भविष्यवाणी (हाँ/नहीं) और खर्च की भविष्यवाणी ($) के बीच निर्णय लेना।

छोड़ना एक binary classification है; खर्च regression है। लक्ष्य का डेटा प्रकार कार्य और metric family को संचालित करता है।

क्यों: कार्य को लक्ष्य से मेल न खाने पर निरर्थक metrics उत्पन्न होते हैं — जैसे हाँ/नहीं लेबल पर RMSE।

व्यवसाय "धोखाधड़ी को कम करना" चाहता है लेकिन डेटा में कोई fraud flag मौजूद नहीं है।

मॉडलिंग से पहले लक्ष्य को परिभाषित करें — एक परिचालन fraud definition पर सहमत हों और ऐतिहासिक रिकॉर्ड को लेबल करें, या इसे anomaly detection के रूप में मानें।

क्यों: मापने योग्य लक्ष्य के बिना एक अस्पष्ट उद्देश्य का मॉडलिंग नहीं किया जा सकता; लक्ष्य परिभाषा एक व्यावसायिक निर्णय है, तकनीकी नहीं।

marketing-response मॉडल के लिए एक सफलता metric चुनना।

metric को व्यावसायिक मूल्य से जोड़ें — जैसे अभियान बजट पर precision/recall, या राजस्व में अपेक्षित uplift — केवल raw accuracy नहीं।

क्यों: Accuracy उच्च दिख सकती है जबकि मॉडल उन दुर्लभ responders को छोड़ देता है जिनकी व्यवसाय वास्तव में परवाह करता है।

एक डेटा science प्रोजेक्ट को end-to-end अनुक्रमित करने के लिए कहा गया।

CRISP-DM का पालन करें: business understanding → data understanding → data preparation → modelling → evaluation → deployment।

क्यों: CRISP-DM वह कार्यप्रणाली है जिसके साथ IBM संरेखित है; डेटा तैयारी पुनरावृत्त होती है और आमतौर पर सबसे बड़ा प्रयास होता है।

अनुरोध है "पिछले तिमाही की कुल बिक्री को क्षेत्र के अनुसार रिपोर्ट करें"।

aggregation / BI reporting से हल करें, मॉडल से नहीं। किसी भविष्यवाणी की आवश्यकता नहीं है।

क्यों: निश्चित lookups और aggregations को queries की आवश्यकता होती है, मशीन लर्निंग की नहीं; इसे पहचानने से over-engineering से बचा जा सकता है।

लक्ष्य को एक ऐसे feature की आवश्यकता है जिसे संगठन एकत्र नहीं करता है।

पहले उपलब्ध डेटा के विरुद्ध व्यवहार्यता को सीमित करें; लक्ष्य को कम करें या मॉडल का वादा करने से पहले डेटा संग्रह शुरू करें।

क्यों: डेटा उपलब्धता ही प्राप्त करने योग्य सीमा है; आदर्श डेटा को मानने से ऐसे प्रोजेक्ट बनते हैं जिन्हें वितरित नहीं किया जा सकता।

एक्सप्लोरेटरी डेटा एनालिसिस करें

नया सारणीबद्ध dataset अभी-अभी एक notebook में लोड किया गया है।

counts, dtypes, ranges, और स्पष्ट nulls को पढ़ने के लिए pandas `df.describe()`, `df.info()`, और `df.head()` से शुरू करें।

क्यों: संक्षेप में statistics, missing values, गलत dtypes, और scale differences को किसी भी plotting या modelling से पहले सतह पर लाते हैं।

एकल numeric feature के आकार को समझने की आवश्यकता है।

आकार के लिए एक histogram या KDE plot का उपयोग करें और फैलाव/outliers के लिए एक box plot का उपयोग करें।

क्यों: वितरण का आकार (skew, modality) बाद के transform और scaling विकल्पों को संचालित करता है।

Income feature में एक लंबी दाहिनी पूंछ है।

इसे right-skewed (mean ≫ median) के रूप में flag करें; preprocessing के दौरान एक log या power transform की योजना बनाएं।

क्यों: Skewed inputs, distance- और variance-आधारित मॉडल को विकृत करते हैं; EDA में skew की पहचान करने से सुधार की जानकारी मिलती है।

कई numeric features के बीच संबंधों की जाँच करना।

एक correlation matrix की गणना करें और इसे एक heatmap के रूप में visualise करें; ~0.8 से ऊपर |r| वाले जोड़ों का निरीक्षण करें।

क्यों: High pairwise correlation, redundancy और संभावित multicollinearity को flag करता है जिसे linear models से पहले संबोधित करना होगा।

Box plot whiskers से बहुत दूर के बिंदुओं को दिखाता है।

IQR नियम (Q1−1.5·IQR से नीचे या Q3+1.5·IQR से ऊपर) या z-score से quantify करें; हटाने से पहले जांच करें।

क्यों: Outliers त्रुटियाँ हो सकती हैं या वास्तविक दुर्लभ घटनाएँ — EDA उन्हें अलग करता है ताकि आप वास्तविक signal को discard न करें।

यह exploring करना कि क्या दो numeric features एक साथ चलते हैं।

एक scatter plot का उपयोग करें; दिशा, शक्ति और समूहन प्रकट करने के लिए एक trend line या hue by class जोड़ें।

क्यों: Scatter plots गैर-रेखीय संबंधों को उजागर करते हैं जिन्हें एक एकल correlation coefficient छिपाता है।

अज्ञात cardinality के साथ एक categorical column का profiling करना।

स्तर आवृत्तियों और दुर्लभ categories को देखने के लिए `value_counts()` और एक bar chart का उपयोग करें।

क्यों: High cardinality और दुर्लभ स्तर encoding strategy को बदलते हैं और overfitting के जोखिम की चेतावनी देते हैं।

अज्ञात class balance के साथ बाइनरी लक्ष्य।

लक्ष्य वितरण को शुरुआती दौर में plot करें; positive-class अनुपात (जैसे 3% fraud) पर ध्यान दें।

क्यों: EDA में पाई गई imbalance, resampling और metric के चुनाव (accuracy नहीं) को निर्धारित करती है।

कई columns में बिखरे हुए nulls।

प्रति column nulls को quantify करें (`df.isnull().sum()`) और जांचें कि क्या missingness random है या systematic।

क्यों: Missing-not-at-random patterns signal ले जा सकते हैं; तंत्र imputation के निर्णय को चलाता है।

मैनेजर पूछता है "EDA ने हमें क्या बताया?" मॉडलिंग से पहले।

डेटा गुणवत्ता मुद्दों, उम्मीदवार predictive features, और परीक्षण करने के लिए hypotheses का सारांश दें — केवल charts नहीं।

क्यों: EDA का उद्देश्य hypotheses बनाना और preprocessing/feature विकल्पों का मार्गदर्शन करना है, न कि सजावट उत्पन्न करना।

विकास उपकरण और तकनीकें

watsonx के भीतर एक डेटा science प्रयास का आयोजन करना।

एक Watson Studio project बनाएँ; डेटा, notebooks, और models को एक सामान्य storage और runtime साझा करने वाली assets के रूप में जोड़ें।

क्यों: Projects, watsonx में collaboration, access control, और asset lineage की इकाई हैं।

संदर्भ

Watson Studio में Python कोड कहाँ निष्पादित होता है, यह चुनना।

workload के लिए आकार के एक environment/runtime से notebook को attach करें; compute लागत को नियंत्रित करने के लिए निष्क्रिय होने पर इसे release करें।

क्यों: Runtimes capacity units का उपभोग करते हैं; right-sizing प्रदर्शन और खर्च को संतुलित करता है।

सीमित समय में जल्दी से एक मजबूत baseline मॉडल की आवश्यकता है।

एक AutoAI experiment चलाएं; यह algorithms को ऑटो-सेलेक्ट करता है, pipelines उत्पन्न करता है, और उन्हें एक leaderboard पर rank करता है।

क्यों: AutoAI, baselining और feature engineering को तेज करता है; आप अभी भी शीर्ष pipeline को validate और refine करते हैं।

संदर्भ

हितधारक notebooks के बजाय एक visual, low-code pipeline पसंद करते हैं।

एक SPSS Modeler flow बनाएँ — import, prep, modelling, और scoring के लिए drag-and-drop nodes।

क्यों: Modeler उन टीमों के लिए उपयुक्त है जिन्हें transparent, code-light pipelines की आवश्यकता होती है; notebooks code-first customisation के लिए उपयुक्त हैं।

code-first analysis के लिए libraries चुनना।

डेटा के लिए pandas/NumPy, modelling के लिए scikit-learn, plots के लिए matplotlib/seaborn का उपयोग करें — watsonx डिफ़ॉल्ट stack।

क्यों: ये libraries Watson Studio runtimes में pre-installed हैं और exam द्वारा मान ली गई हैं।

एक टीममेट को अगली तिमाही में आपके analysis को फिर से चलाना होगा।

notebooks और डेटा को project assets के रूप में version करें, library versions को pin करें, और runtime को document करें।

क्यों: Reproducibility, captured code, डेटा, और environment पर निर्भर करती है — एक one-off local session पर नहीं।

प्री-प्रोसेसिंग और फ़ीचर इंजीनियरिंग

train/test में विभाजित करने से पहले features को scale करना।

पहले विभाजित करें, फिर केवल train पर transformers फिट करें और test पर लागू करें (`transform`)। चरणों को एक scikit-learn Pipeline में wrap करें।

क्यों: पूर्ण dataset पर fitting करने से test statistics training में लीक होते हैं और evaluation scores को बढ़ाते हैं।

एक numeric column में 8% missing values हैं।

`SimpleImputer` के माध्यम से median (skew के प्रति robust) से impute करें; एक missing-indicator flag पर विचार करें।

क्यों: Median outliers का विरोध करती है; एक indicator signal को संरक्षित करता है जब missingness स्वयं जानकारीपूर्ण होती है।

एक categorical column में gaps हैं।

mode या एक स्पष्ट "Unknown" / "Missing" category से impute करें।

क्यों: एक स्पष्ट category, missingness pattern को उपयोग करने योग्य signal के रूप में रखती है बजाय पंक्तियों को discard करने के।

Low-cardinality nominal feature (जैसे 5 मानों वाला region)।

one-hot encoding (`OneHotEncoder`) लागू करें; यदि मॉडल को कोई collinearity की आवश्यकता नहीं है तो एक column छोड़ दें।

क्यों: One-hot, nominal categories पर एक गलत क्रम लगाने से बचता है; एक स्तर को छोड़ने से dummy trap को रोका जा सकता है।

Feature में एक प्राकृतिक क्रम है (low / medium / high)।

rank को संरक्षित करने वाले ordinal encoding का उपयोग करें।

क्यों: One-hot, ordering को discard कर देगा; rank-aware encoding मॉडल को इसका लाभ उठाने देता है।

हजारों स्तरों वाला categorical (जैसे ZIP code)।

one-hot के बजाय target/frequency encoding या grouping का उपयोग करें।

क्यों: One-hot dimensionality को explode करता है; target encoding compact होता है लेकिन leakage से बचने के लिए इसे CV के अंदर फिट किया जाना चाहिए।

distance-based मॉडल से पहले features बहुत अलग scales में फैले हुए हैं।

लगभग Gaussian features के लिए StandardScaler (zero mean, unit variance); [0,1] को बांधने के लिए MinMaxScaler।

क्यों: KNN, SVM, PCA, और gradient descent scale-sensitive होते हैं; tree models नहीं होते हैं।

एक right-skewed positive feature एक linear मॉडल को नुकसान पहुँचाता है।

पूंछ को संपीड़ित करने के लिए एक log या Box-Cox/Yeo-Johnson power transform लागू करें।

क्यों: Skew को कम करने से variance स्थिर होता है और linear और distance-based models के लिए संबंधों को linearises करता है।

एक linear मॉडल में एक गैर-रेखीय आयु प्रभाव को पकड़ना चाहते हैं।

continuous feature को ranges (equal-width या quantile) में bin करें और categorical के रूप में मानें।

क्यों: Binning, linear models को step changes को पकड़ने देता है, कुछ जानकारी के नुकसान की कीमत पर।

वास्तविक extreme values मॉडल training को अस्थिर करते हैं।

एक percentile पर cap/winsorise करें या एक robust scaler का उपयोग करें; केवल पुष्टि की गई त्रुटियों को हटाएँ।

क्यों: Capping, extremes के leverage को सीमित करता है जबकि records को रखता है; विलोपन वास्तविक rare-event signal को खो देता है।

Positive class training rows का केवल 3% है।

Resample — SMOTE/oversample minority या undersample majority — केवल training fold पर fitting; या class weights सेट करें।

क्यों: Test set को संतुलित करने से गलत रीडिंग मिलेगी; resampling training pipeline के अंदर होता है।

Raw timestamps और amounts under-perform करते हैं।

Features engineer करें — day-of-week, time-since-last-event, ratios, प्रति ग्राहक aggregates।

क्यों: Domain-informed derived features अक्सर algorithm को बदलने से अधिक लाभ जोड़ते हैं।

सैकड़ों features, कई redundant या noisy।

filter (correlation/mutual information), wrapper (RFE), या embedded (L1/tree importances) methods के माध्यम से select करें।

क्यों: कम, प्रासंगिक features overfitting, training cost को कम करते हैं, और interpretability में सुधार करते हैं।

कई correlated numeric features training को धीमा करते हैं और overfit करते हैं।

PCA को शीर्ष components पर project करने के लिए लागू करें जो अधिकांश variance को कैप्चर करते हैं; पहले scale करें।

क्यों: PCA multicollinearity को हटाता है और dimensionality को संपीड़ित करता है, कुछ interpretability को stability के लिए trade करता है।

Multiple preprocessing steps को train और serving में समान रूप से लागू होना चाहिए।

इंप्यूटर्स, एनकोडर्स, और स्कैलर्स को एक `Pipeline` / `ColumnTransformer` में चेन करें जिसे केवल training डेटा पर फिट किया गया हो।

क्यों: एक एकल fitted pipeline लगातार transforms की गारंटी देता है और folds के पार leakage को रोकता है।

संदर्भ

एक raw date column कम predictive value जोड़ता है।

साल, महीना, सप्ताह का दिन, is-weekend, और cyclical sin/cos encodings में decompose करें।

क्यों: Models raw timestamp से calendar semantics को नहीं पढ़ सकते हैं; स्पष्ट भाग seasonality को उजागर करते हैं।

मॉडल चयन, प्रशिक्षण और मूल्यांकन

generalisation का एक ईमानदार अनुमान चाहिए।

train / validation / test में विभाजित करें; validation पर tune करें, अछूते test set पर अंतिम numbers रिपोर्ट करें।

क्यों: Tuning के लिए test set का पुन: उपयोग जानकारी को लीक करता है और वास्तविक दुनिया के प्रदर्शन को अतिरंजित करता है।

छोटा dataset एक एकल split को अविश्वसनीय बनाता है।

k-fold cross-validation (classification के लिए stratified) का उपयोग करें ताकि folds के पार प्रदर्शन को औसत किया जा सके।

क्यों: CV एक कम-variance अनुमान देता है और training और validation दोनों के लिए सभी डेटा का उपयोग करता है।

Train accuracy उच्च, test accuracy कम।

Overfitting (high variance) का निदान करें; regularisation जोड़ें, मॉडल को सरल बनाएं, या अधिक डेटा प्राप्त करें।

क्यों: इसका उल्टा — दोनों scores कम — underfitting (high bias) है, जिसके लिए एक richer मॉडल या features की आवश्यकता होती है।

Fraud model 97% accuracy रिपोर्ट करता है लेकिन अधिकांश fraud को छोड़ देता है।

accuracy के बजाय precision, recall, F1, और ROC-AUC / PR-AUC का उपयोग करें।

क्यों: Imbalanced targets पर एक constant majority prediction उच्च accuracy स्कोर करता है जबकि बेकार होता है।

यह देखने की आवश्यकता है कि एक classifier कहाँ गलतियाँ करता है।

confusion matrix पढ़ें; इससे precision (FP cost) और recall (FN cost) प्राप्त करें।

क्यों: सही threshold इस बात पर निर्भर करता है कि false positives या false negatives अधिक महंगे हैं।

एक continuous-target मॉडल का मूल्यांकन करना।

त्रुटि परिमाण के लिए RMSE/MAE और व्याख्या किए गए variance के लिए R² रिपोर्ट करें; जब बड़ी त्रुटियाँ सबसे अधिक मायने रखती हैं तो RMSE चुनें।

क्यों: RMSE बड़ी त्रुटियों को MAE से अधिक दंडित करता है; R² अकेला गैर-रेखीय fits पर गुमराह कर सकता है।

डिफ़ॉल्ट मॉडल parameters प्रदर्शन को छोड़ देते हैं।

cross-validation के तहत grid या randomized search के साथ tune करें; बड़े search spaces के लिए randomized को प्राथमिकता दें।

क्यों: जब कई parameters इंटरैक्ट करते हैं तो Random search, exhaustive grids की तुलना में अच्छे क्षेत्रों को तेजी से पाता है।

AutoAI से कई उम्मीदवार pipelines की तुलना करना।

चुने गए metric द्वारा AutoAI leaderboard पर rank करें, फिर deploy से पहले held-out डेटा पर शीर्ष pipeline को validate करें।

क्यों: Leaderboard चयन को तेज करता है, लेकिन अंतिम चुनाव को अछूते डेटा पर खरा उतरना चाहिए।