מדריך — C1000-177 IBM Certified watsonx Data Scientist - Associate

נבדק לאחרונה: יוני 2026

מדריך מקוצר ובר-סריקה לדפוסי ארכיטקטורה שמבחן C1000-177 בודק. קראו מלמעלה למטה, או דלגו לסעיף.

הערכת הבעיה העסקית

בעל עניין מבקש "למצוא דפוסים בלקוחות" ללא תוצאה מתויגת.

מסגר כבלתי מפוקח (אשכולות / פילוח). שמור למידה מפוקחת למקרים שבהם קיים משתנה יעד מתויג.

למה: ללא עמודת יעד אין מה לחזות; כפיית הגדרה מפוקחת ממציאה תווית ומטה את התוצאה.

החלטה בין חיזוי נטישה (כן/לא) לבין חיזוי הוצאות ($).

נטישה היא סיווג בינארי; הוצאה היא רגרסיה. סוג הנתונים של היעד קובע את המשימה ואת משפחת המדדים.

למה: אי-התאמה בין המשימה ליעד מייצרת מדדים חסרי משמעות – למשל, RMSE על תווית כן/לא.

העסק רוצה "להפחית הונאות" אך אין דגל הונאה קיים בנתונים.

הגדר את היעד לפני המודלינג – הסכם על הגדרת הונאה תפעולית ותייג רשומות היסטוריות, או התייחס לכך כזיהוי אנומליות.

למה: יעד מעורפל ללא יעד מדיד אינו ניתן למודלינג; הגדרת היעד היא החלטה עסקית, לא טכנית.

בחירת מדד הצלחה למודל תגובה שיווקית.

קשור את המדד לערך עסקי – למשל, Precision/Recall בתקציב הקמפיין, או עלייה צפויה בהכנסות – לא רק דיוק גולמי.

למה: דיוק יכול להיראות גבוה בעוד שהמודל מחמיץ את המגיבים הנדירים שלעסק באמת אכפת מהם.

התבקשת לרצף פרויקט מדעי נתונים מקצה לקצה.

עקוב אחר CRISP-DM: הבנה עסקית ← הבנת נתונים ← הכנת נתונים ← מודלינג ← הערכה ← פריסה.

למה: CRISP-DM היא המתודולוגיה ש-IBM תואמת אליה; הכנת הנתונים היא איטרטיבית ובדרך כלל המאמץ הגדול ביותר.

הבקשה היא "דווח על סך המכירות ברבעון האחרון לפי אזור".

פתור באמצעות צבירה / דיווחי BI, לא מודל. אין צורך בחיזוי.

למה: שאילתות ואגרגציות דטרמיניסטיות דורשות שאילתות, לא למידת מכונה; זיהוי זה מונע הנדסת יתר.

יעד דורש תכונה שהארגון אינו אוסף.

הערך היתכנות אל מול הנתונים הזמינים תחילה; צמצם את היעד או התחל איסוף נתונים לפני הבטחת מודל.

למה: זמינות הנתונים מגבילה את מה שניתן להשיג; הנחת נתונים אידיאליים מובילה לפרויקטים שלא ניתנים לביצוע.

ביצוע ניתוח נתונים אקספלורטורי (EDA)

סט נתונים טבלאי חדש נטען זה עתה למחברת.

התחל עם pandas `df.describe()`, `df.info()`, ו-`df.head()` כדי לקרוא ספירות, סוגי נתונים, טווחים וערכי Null ברורים.

למה: סטטיסטיקות סיכום חושפות ערכים חסרים, סוגי נתונים שגויים והבדלי סקאלה לפני כל תרשים או מודלינג.

צורך להבין את הצורה של תכונה מספרית אחת.

השתמש בהיסטוגרמה או בגרף KDE לצורה ובגרף תיבה לפיזור/חריגים.

למה: צורת ההתפלגות (הטיה, אופנויות) מנחה בחירות טרנספורמציה וסקאלה מאוחרות יותר.

לתכונת ההכנסה יש זנב ימני ארוך.

סמן אותה כבעלת הטיה ימנית (ממוצע ≫ חציון); תכנן טרנספורמציית לוג או חזקה במהלך העיבוד המקדים.

למה: קלט מוטה מעוות מודלים מבוססי מרחק ושונות; זיהוי הטיה ב-EDA מנחה את התיקון.

בדיקת קשרים בין תכונות מספריות רבות.

חשב מטריצת קורלציה והצג אותה כ-heatmap; בדוק זוגות עם |r| מעל ~0.8.

למה: קורלציה זוגית גבוהה מסמנת יתירות וקוליניאריות מרובה פוטנציאלית שיש לטפל בהן לפני מודלים ליניאריים.

גרף תיבה מציג נקודות הרחק מעבר לשפמים.

כמת באמצעות כלל ה-IQR (מתחת ל-Q1−1.5·IQR או מעל Q3+1.5·IQR) או ציון Z; חקור לפני מחיקה.

למה: חריגים יכולים להיות שגיאות או אירועים נדירים אמיתיים – EDA מבחין ביניהם כדי שלא תזרוק אותות אמיתיים.

בדיקה אם שתי תכונות מספריות נעות יחד.

השתמש בגרף פיזור; הוסף קו מגמה או גוון לפי מחלקה כדי לחשוף כיוון, חוזק וקיבוצים.

למה: גרפי פיזור חושפים קשרים לא ליניאריים שמקדם קורלציה בודד מסתיר.

אפיון עמודה קטגורית עם קרדינליות לא ידועה.

השתמש ב-`value_counts()` ובגרף עמודות כדי לראות תדירות רמות וקטגוריות נדירות.

למה: קרדינליות גבוהה ורמות נדירות משנות את אסטרטגיית הקידוד ומזהירות מפני סיכון של התאמת יתר (overfitting).

יעד בינארי עם איזון מחלקות לא ידוע.

הצג את התפלגות היעד מוקדם; שים לב ליחס המחלקה החיובית (למשל, 3% הונאה).

למה: חוסר איזון שמתגלה ב-EDA מכתיב דגימה מחדש ובחירת מדדים (לא דיוק) בהמשך הדרך.

ערכי Null מפוזרים על פני מספר עמודות.

כמת ערכי Null לכל עמודה (`df.isnull().sum()`) ובדוק האם החסר אקראי או שיטתי.

למה: דפוסים של "חסר שאינו אקראי" יכולים לשאת אות; המנגנון מניע את החלטת ההשלמה.

מנהל שואל "מה ה-EDA סיפר לנו?" לפני המודלינג.

סכם בעיות איכות נתונים, תכונות חיזוי מועמדות והשערות לבדיקה – לא רק גרפים.

למה: מטרת ה-EDA היא לגבש השערות ולהנחות בחירות עיבוד מקדים/תכונות, לא לייצר קישוטים.

כלי וטכניקות פיתוח

ארגון מאמץ של מדעי הנתונים בתוך watsonx.

צור פרויקט Watson Studio; הוסף נתונים, מחברות ומודלים כנכסים החולקים אחסון וזמן ריצה משותפים.

למה: פרויקטים הם יחידת שיתוף הפעולה, בקרת הגישה ושקיפות הנכסים ב-watsonx.

מקור

בחירה היכן קוד Python יבוצע ב-Watson Studio.

חבר את המחברת לסביבה/זמן ריצה בגודל המתאים לעומס העבודה; שחרר אותה כשהיא אינה בשימוש כדי לשלוט בעלות החישובית.

למה: זמני ריצה צורכים יחידות קיבולת; קביעת גודל נכון מאזנת ביצועים והוצאות.

צורך במודל בסיס חזק במהירות ובזמן מוגבל.

הרצה של ניסוי AutoAI; הוא בוחר אלגוריתמים אוטומטית, יוצר צינורות עבודה ומדרג אותם בטבלת המובילים.

למה: AutoAI מאיץ את יצירת קו הבסיס והנדסת התכונות; עדיין תצטרך לאמת ולשפר את צינור העבודה המוביל.

מקור

בעלי עניין מעדיפים צינור עבודה ויזואלי עם קוד נמוך על פני מחברות.

בנה זרימת SPSS Modeler – גרירה ושחרור של צמתים לייבוא, הכנה, מודלינג וניקוד.

למה: Modeler מתאים לצוותים הזקוקים לצינורות עבודה שקופים ודלי קוד; מחברות מתאימות להתאמה אישית עם קוד תחילה.

בחירת ספריות לניתוח שמתחיל בקוד.

השתמש ב-pandas/NumPy לנתונים, scikit-learn למודלינג, matplotlib/seaborn לגרפים – ערימת ברירת המחדל של watsonx.

למה: ספריות אלו מותקנות מראש בזמני הריצה של Watson Studio ומונחות לצורך הבחינה.

חבר צוות חייב להפעיל מחדש את הניתוח שלך ברבעון הבא.

בצע גיבוי גרסאות למחברות ולנתונים כנכסי פרויקט, קבע גרסאות ספריות ותעד את זמן הריצה.

למה: שחזוריות תלויה בקוד, בנתונים ובסביבה שתועדו – לא בהפעלה חד-פעמית מקומית.

עיבוד מקדים והנדסת תכונות

קנה מידה לתכונות לפני פיצול לאימון/בדיקה.

פצל תחילה, ואז התאם את הטרנספורמטורים רק על נתוני האימון ויישם (`transform`) על נתוני הבדיקה. עטוף את השלבים ב-scikit-learn Pipeline.

למה: התאמה על כל הסט דולפת סטטיסטיקות בדיקה לאימון ומנפחת ציוני הערכה.

עמודה מספרית כוללת 8% ערכים חסרים.

השלם באמצעות חציון (עמיד להטיה) דרך `SimpleImputer`; שקול דגל מחוון חסר.

למה: חציון עמיד בפני חריגים; מחוון שומר על אות כאשר חוסר הנתונים עצמו אינפורמטיבי.

עמודה קטגורית כוללת פערים.

השלם באמצעות השכיח או קטגוריה מפורשת "לא ידוע" / "חסר".

למה: קטגוריה מפורשת שומרת על דפוס החסר כאות שמיש במקום לזרוק שורות.

תכונה נומינלית עם קרדינליות נמוכה (למשל, אזור עם 5 ערכים).

החל קידוד One-Hot (`OneHotEncoder`); השמט עמודה אחת אם המודל אינו זקוק לקולינאריות.

למה: One-Hot נמנע מהטלת סדר שגוי על קטגוריות נומינליות; השמטת רמה מונעת את מלכודת הבובה.

לתכונה יש סדר טבעי (נמוך / בינוני / גבוה).

השתמש בקידוד אורדינלי השומר על הדירוג.

למה: One-Hot היה זורק את הסדר; קידוד מודע לדירוג מאפשר למודל לנצל אותו.

קטגורית עם אלפי רמות (למשל, מיקוד).

השתמש בקידוד יעד/תדירות או קיבוץ במקום One-Hot.

למה: One-Hot מנפח את הממדיות; קידוד יעד קומפקטי אך חייב להתאים בתוך CV כדי למנוע דליפה.

תכונות משתרעות על סולמות שונים מאוד לפני מודל מבוסס מרחק.

StandardScaler (ממוצע אפס, שונות יחידה) לתכונות גאוסיאניות בקירוב; MinMaxScaler לתחום [0,1].

למה: KNN, SVM, PCA וירידה בגרדיאנט רגישים לסולם; מודלי עץ אינם.

תכונה חיובית עם הטיה ימנית פוגעת במודל ליניארי.

החל טרנספורמציית לוג או Box-Cox/Yeo-Johnson כדי לדחוס את הזנב.

למה: הפחתת הטיה מייצבת שונות ומיישרת קשרים עבור מודלים ליניאריים ומבוססי מרחק.

רוצה ללכוד אפקט גיל לא ליניארי במודל ליניארי.

חלק את התכונה הרציפה לטווחים (רוחב שווה או קוונטיל) והתייחס אליה כאל קטגורית.

למה: בינינג מאפשר למודלים ליניאריים ללכוד שינויים מדורגים, במחיר של אובדן מידע מסוים.

ערכים קיצוניים אמיתיים מערערים את יציבות אימון המודל.

גביל/וינסורייז באחוזון או השתמש בסקאלר חזק; מחק רק שגיאות מאושרות.

למה: גיבול מגביל את ההשפעה של קיצוניים תוך שמירה על הרשומות; מחיקה מאבדת אות אמיתי של אירועים נדירים.

מחלקה חיובית מהווה רק 3% משורות האימון.

דגום מחדש – SMOTE/oversample מיעוט או undersample רוב – התאם רק על קיפול האימון; או הגדר משקולות מחלקה.

למה: איזון סט הבדיקה היה נותן קריאה שגויה; דגימה מחדש שייכת לתוך צינור האימון.

חותמות זמן וסכומים גולמיים מציגים ביצועים נמוכים.

בנה תכונות – יום בשבוע, זמן מאז האירוע האחרון, יחסים, אגרגציות ללקוח.

למה: תכונות נגזרות מודעות לתחום מוסיפות לעיתים קרובות יותר שיפור מאשר החלפת האלגוריתם.

מאות תכונות, רבות מהן יתירות או רועשות.

בחר באמצעות שיטות סינון (קורלציה/אינפורמציה הדדית), עטיפה (RFE), או מוטמעות (L1/חשיבויות עץ).

למה: פחות תכונות רלוונטיות מפחיתות התאמת יתר, עלות אימון ומשפרות את יכולת הפירוש.

תכונות מספריות רבות קשורות זו לזו מאטות אימון וגורמות להתאמת יתר.

החל PCA כדי להקרין לרכיבים העליונים התופסים את מרבית השונות; קנה מידה תחילה.

למה: PCA מסיר קולינאריות מרובה ודוחס ממדיות, תוך החלפת יכולת פירוש מסוימת ביציבות.

יש ליישם מספר שלבי עיבוד מקדים באופן זהה באימון ובהגשה.

שרשר משלימים, מקודדים ומדרגים ב-`Pipeline` / `ColumnTransformer` שהותאם רק על נתוני אימון.

למה: צינור עבודה מותאם יחיד מבטיח טרנספורמציות עקביות ומונע דליפה על פני קיפולים.

מקור

עמודת תאריך גולמית מוסיפה מעט ערך חיזויי.

פרק לשנה, חודש, יום בשבוע, האם סוף שבוע, וקידודי סינוס/קוסינוס מחזוריים.

למה: מודלים אינם יכולים לקרוא סמנטיקת לוח שנה מחותמת זמן גולמית; חלקים מפורשים חושפים עונתיות.

בחירת מודל, אימון והערכה

צורך באומדן כנה של הכללה.

פצל לאימון / אימות / בדיקה; כוונן על נתוני אימות, דווח על המספרים הסופיים על סט הבדיקה שלא נגעו בו.

למה: שימוש חוזר בסט הבדיקה לצורך כוונון מדליף מידע ומגזים בביצועי העולם האמיתי.

סט נתונים קטן הופך פיצול יחיד לבלתי אמין.

השתמש באימות צולב k-fold (מרובדים לסיווג) כדי למצוע ביצועים על פני קיפולים.

למה: אימות צולב מספק אומדן עם שונות נמוכה יותר ומשתמש בכל הנתונים הן לאימון והן לאימות.

דיוק אימון גבוה, דיוק בדיקה נמוך.

אבחן התאמת יתר (שונות גבוהה); הוסף רגולריזציה, פשט את המודל, או השג יותר נתונים.

למה: ההפך – שני הציונים נמוכים – הוא תת-התאמה (הטיה גבוהה), הדורשת מודל או תכונות עשירים יותר.

מודל הונאה מדווח על דיוק של 97% אך מחמיץ את רוב ההונאות.

השתמש ב-Precision, Recall, F1, ו-ROC-AUC / PR-AUC במקום דיוק.

למה: על יעדים לא מאוזנים, חיזוי רוב קבוע משיג דיוק גבוה בעודו חסר תועלת.

צורך לראות היכן מסווג מבצע טעויות.

קרא את מטריצת הבלבול; גזור ממנה Precision (עלות FP) ו-Recall (עלות FN).

למה: הסף הנכון תלוי בשאלה אם False Positives או False Negatives יקרים יותר.

הערכת מודל יעד רציף.

דווח על RMSE/MAE עבור גודל השגיאה ועל R² עבור השונות המוסברת; בחר RMSE כאשר טעויות גדולות חשובות ביותר.

למה: RMSE מעניש טעויות גדולות יותר מאשר MAE; R² לבדו יכול להטעות בהתאמות לא ליניאריות.

פרמטרי מודל ברירת המחדל משאירים ביצועים על השולחן.

כוונן עם חיפוש רשת או אקראי תחת אימות צולב; העדף חיפוש אקראי למרחבי חיפוש גדולים.

למה: חיפוש אקראי מוצא אזורים טובים מהר יותר מרשתות ממצות כאשר פרמטרים רבים מ взаимодейמים.

השוואת מספר צינורות עבודה מועמדים מ-AutoAI.

דרג בטבלת המובילים של AutoAI לפי המדד שנבחר, ולאחר מכן אמת את צינור העבודה המוביל על נתונים שלא נגעו בהם לפני הפריסה.

למה: טבלת המובילים מאיצה את הבחירה, אך הבחירה הסופית חייבת להחזיק מעמד על נתונים שלא נגעו בהם.

מקור

הערכת הבעיה העסקית

בעל עניין מבקש "למצוא דפוסים בלקוחות" ללא תוצאה מתויגת.

מסגר כבלתי מפוקח (אשכולות / פילוח). שמור למידה מפוקחת למקרים שבהם קיים משתנה יעד מתויג.

למה: ללא עמודת יעד אין מה לחזות; כפיית הגדרה מפוקחת ממציאה תווית ומטה את התוצאה.

החלטה בין חיזוי נטישה (כן/לא) לבין חיזוי הוצאות ($).

נטישה היא סיווג בינארי; הוצאה היא רגרסיה. סוג הנתונים של היעד קובע את המשימה ואת משפחת המדדים.

למה: אי-התאמה בין המשימה ליעד מייצרת מדדים חסרי משמעות – למשל, RMSE על תווית כן/לא.

העסק רוצה "להפחית הונאות" אך אין דגל הונאה קיים בנתונים.

למה: יעד מעורפל ללא יעד מדיד אינו ניתן למודלינג; הגדרת היעד היא החלטה עסקית, לא טכנית.

בחירת מדד הצלחה למודל תגובה שיווקית.

קשור את המדד לערך עסקי – למשל, Precision/Recall בתקציב הקמפיין, או עלייה צפויה בהכנסות – לא רק דיוק גולמי.

למה: דיוק יכול להיראות גבוה בעוד שהמודל מחמיץ את המגיבים הנדירים שלעסק באמת אכפת מהם.

התבקשת לרצף פרויקט מדעי נתונים מקצה לקצה.

עקוב אחר CRISP-DM: הבנה עסקית ← הבנת נתונים ← הכנת נתונים ← מודלינג ← הערכה ← פריסה.

למה: CRISP-DM היא המתודולוגיה ש-IBM תואמת אליה; הכנת הנתונים היא איטרטיבית ובדרך כלל המאמץ הגדול ביותר.

הבקשה היא "דווח על סך המכירות ברבעון האחרון לפי אזור".

פתור באמצעות צבירה / דיווחי BI, לא מודל. אין צורך בחיזוי.

למה: שאילתות ואגרגציות דטרמיניסטיות דורשות שאילתות, לא למידת מכונה; זיהוי זה מונע הנדסת יתר.

יעד דורש תכונה שהארגון אינו אוסף.

הערך היתכנות אל מול הנתונים הזמינים תחילה; צמצם את היעד או התחל איסוף נתונים לפני הבטחת מודל.

למה: זמינות הנתונים מגבילה את מה שניתן להשיג; הנחת נתונים אידיאליים מובילה לפרויקטים שלא ניתנים לביצוע.

ביצוע ניתוח נתונים אקספלורטורי (EDA)

סט נתונים טבלאי חדש נטען זה עתה למחברת.

התחל עם pandas `df.describe()`, `df.info()`, ו-`df.head()` כדי לקרוא ספירות, סוגי נתונים, טווחים וערכי Null ברורים.

למה: סטטיסטיקות סיכום חושפות ערכים חסרים, סוגי נתונים שגויים והבדלי סקאלה לפני כל תרשים או מודלינג.

צורך להבין את הצורה של תכונה מספרית אחת.

השתמש בהיסטוגרמה או בגרף KDE לצורה ובגרף תיבה לפיזור/חריגים.

למה: צורת ההתפלגות (הטיה, אופנויות) מנחה בחירות טרנספורמציה וסקאלה מאוחרות יותר.

לתכונת ההכנסה יש זנב ימני ארוך.

סמן אותה כבעלת הטיה ימנית (ממוצע ≫ חציון); תכנן טרנספורמציית לוג או חזקה במהלך העיבוד המקדים.

למה: קלט מוטה מעוות מודלים מבוססי מרחק ושונות; זיהוי הטיה ב-EDA מנחה את התיקון.

בדיקת קשרים בין תכונות מספריות רבות.

חשב מטריצת קורלציה והצג אותה כ-heatmap; בדוק זוגות עם |r| מעל ~0.8.

למה: קורלציה זוגית גבוהה מסמנת יתירות וקוליניאריות מרובה פוטנציאלית שיש לטפל בהן לפני מודלים ליניאריים.

גרף תיבה מציג נקודות הרחק מעבר לשפמים.

כמת באמצעות כלל ה-IQR (מתחת ל-Q1−1.5·IQR או מעל Q3+1.5·IQR) או ציון Z; חקור לפני מחיקה.

למה: חריגים יכולים להיות שגיאות או אירועים נדירים אמיתיים – EDA מבחין ביניהם כדי שלא תזרוק אותות אמיתיים.

בדיקה אם שתי תכונות מספריות נעות יחד.

השתמש בגרף פיזור; הוסף קו מגמה או גוון לפי מחלקה כדי לחשוף כיוון, חוזק וקיבוצים.

למה: גרפי פיזור חושפים קשרים לא ליניאריים שמקדם קורלציה בודד מסתיר.

אפיון עמודה קטגורית עם קרדינליות לא ידועה.

השתמש ב-`value_counts()` ובגרף עמודות כדי לראות תדירות רמות וקטגוריות נדירות.

למה: קרדינליות גבוהה ורמות נדירות משנות את אסטרטגיית הקידוד ומזהירות מפני סיכון של התאמת יתר (overfitting).

יעד בינארי עם איזון מחלקות לא ידוע.

הצג את התפלגות היעד מוקדם; שים לב ליחס המחלקה החיובית (למשל, 3% הונאה).

למה: חוסר איזון שמתגלה ב-EDA מכתיב דגימה מחדש ובחירת מדדים (לא דיוק) בהמשך הדרך.

ערכי Null מפוזרים על פני מספר עמודות.

כמת ערכי Null לכל עמודה (`df.isnull().sum()`) ובדוק האם החסר אקראי או שיטתי.

למה: דפוסים של "חסר שאינו אקראי" יכולים לשאת אות; המנגנון מניע את החלטת ההשלמה.

מנהל שואל "מה ה-EDA סיפר לנו?" לפני המודלינג.

סכם בעיות איכות נתונים, תכונות חיזוי מועמדות והשערות לבדיקה – לא רק גרפים.

למה: מטרת ה-EDA היא לגבש השערות ולהנחות בחירות עיבוד מקדים/תכונות, לא לייצר קישוטים.

כלי וטכניקות פיתוח

ארגון מאמץ של מדעי הנתונים בתוך watsonx.

צור פרויקט Watson Studio; הוסף נתונים, מחברות ומודלים כנכסים החולקים אחסון וזמן ריצה משותפים.

למה: פרויקטים הם יחידת שיתוף הפעולה, בקרת הגישה ושקיפות הנכסים ב-watsonx.

מקור

בחירה היכן קוד Python יבוצע ב-Watson Studio.

חבר את המחברת לסביבה/זמן ריצה בגודל המתאים לעומס העבודה; שחרר אותה כשהיא אינה בשימוש כדי לשלוט בעלות החישובית.

למה: זמני ריצה צורכים יחידות קיבולת; קביעת גודל נכון מאזנת ביצועים והוצאות.

צורך במודל בסיס חזק במהירות ובזמן מוגבל.

הרצה של ניסוי AutoAI; הוא בוחר אלגוריתמים אוטומטית, יוצר צינורות עבודה ומדרג אותם בטבלת המובילים.

למה: AutoAI מאיץ את יצירת קו הבסיס והנדסת התכונות; עדיין תצטרך לאמת ולשפר את צינור העבודה המוביל.

מקור

בעלי עניין מעדיפים צינור עבודה ויזואלי עם קוד נמוך על פני מחברות.

בנה זרימת SPSS Modeler – גרירה ושחרור של צמתים לייבוא, הכנה, מודלינג וניקוד.

למה: Modeler מתאים לצוותים הזקוקים לצינורות עבודה שקופים ודלי קוד; מחברות מתאימות להתאמה אישית עם קוד תחילה.

בחירת ספריות לניתוח שמתחיל בקוד.

השתמש ב-pandas/NumPy לנתונים, scikit-learn למודלינג, matplotlib/seaborn לגרפים – ערימת ברירת המחדל של watsonx.

למה: ספריות אלו מותקנות מראש בזמני הריצה של Watson Studio ומונחות לצורך הבחינה.

חבר צוות חייב להפעיל מחדש את הניתוח שלך ברבעון הבא.

בצע גיבוי גרסאות למחברות ולנתונים כנכסי פרויקט, קבע גרסאות ספריות ותעד את זמן הריצה.

למה: שחזוריות תלויה בקוד, בנתונים ובסביבה שתועדו – לא בהפעלה חד-פעמית מקומית.

עיבוד מקדים והנדסת תכונות

קנה מידה לתכונות לפני פיצול לאימון/בדיקה.

למה: התאמה על כל הסט דולפת סטטיסטיקות בדיקה לאימון ומנפחת ציוני הערכה.

עמודה מספרית כוללת 8% ערכים חסרים.

השלם באמצעות חציון (עמיד להטיה) דרך `SimpleImputer`; שקול דגל מחוון חסר.

למה: חציון עמיד בפני חריגים; מחוון שומר על אות כאשר חוסר הנתונים עצמו אינפורמטיבי.

עמודה קטגורית כוללת פערים.

השלם באמצעות השכיח או קטגוריה מפורשת "לא ידוע" / "חסר".

למה: קטגוריה מפורשת שומרת על דפוס החסר כאות שמיש במקום לזרוק שורות.

תכונה נומינלית עם קרדינליות נמוכה (למשל, אזור עם 5 ערכים).

החל קידוד One-Hot (`OneHotEncoder`); השמט עמודה אחת אם המודל אינו זקוק לקולינאריות.

למה: One-Hot נמנע מהטלת סדר שגוי על קטגוריות נומינליות; השמטת רמה מונעת את מלכודת הבובה.

לתכונה יש סדר טבעי (נמוך / בינוני / גבוה).

השתמש בקידוד אורדינלי השומר על הדירוג.

למה: One-Hot היה זורק את הסדר; קידוד מודע לדירוג מאפשר למודל לנצל אותו.

קטגורית עם אלפי רמות (למשל, מיקוד).

השתמש בקידוד יעד/תדירות או קיבוץ במקום One-Hot.

למה: One-Hot מנפח את הממדיות; קידוד יעד קומפקטי אך חייב להתאים בתוך CV כדי למנוע דליפה.

תכונות משתרעות על סולמות שונים מאוד לפני מודל מבוסס מרחק.

StandardScaler (ממוצע אפס, שונות יחידה) לתכונות גאוסיאניות בקירוב; MinMaxScaler לתחום [0,1].

למה: KNN, SVM, PCA וירידה בגרדיאנט רגישים לסולם; מודלי עץ אינם.

תכונה חיובית עם הטיה ימנית פוגעת במודל ליניארי.

החל טרנספורמציית לוג או Box-Cox/Yeo-Johnson כדי לדחוס את הזנב.

למה: הפחתת הטיה מייצבת שונות ומיישרת קשרים עבור מודלים ליניאריים ומבוססי מרחק.

רוצה ללכוד אפקט גיל לא ליניארי במודל ליניארי.

חלק את התכונה הרציפה לטווחים (רוחב שווה או קוונטיל) והתייחס אליה כאל קטגורית.

למה: בינינג מאפשר למודלים ליניאריים ללכוד שינויים מדורגים, במחיר של אובדן מידע מסוים.

ערכים קיצוניים אמיתיים מערערים את יציבות אימון המודל.

גביל/וינסורייז באחוזון או השתמש בסקאלר חזק; מחק רק שגיאות מאושרות.

למה: גיבול מגביל את ההשפעה של קיצוניים תוך שמירה על הרשומות; מחיקה מאבדת אות אמיתי של אירועים נדירים.

מחלקה חיובית מהווה רק 3% משורות האימון.

דגום מחדש – SMOTE/oversample מיעוט או undersample רוב – התאם רק על קיפול האימון; או הגדר משקולות מחלקה.

למה: איזון סט הבדיקה היה נותן קריאה שגויה; דגימה מחדש שייכת לתוך צינור האימון.

חותמות זמן וסכומים גולמיים מציגים ביצועים נמוכים.

בנה תכונות – יום בשבוע, זמן מאז האירוע האחרון, יחסים, אגרגציות ללקוח.

למה: תכונות נגזרות מודעות לתחום מוסיפות לעיתים קרובות יותר שיפור מאשר החלפת האלגוריתם.

מאות תכונות, רבות מהן יתירות או רועשות.

בחר באמצעות שיטות סינון (קורלציה/אינפורמציה הדדית), עטיפה (RFE), או מוטמעות (L1/חשיבויות עץ).

למה: פחות תכונות רלוונטיות מפחיתות התאמת יתר, עלות אימון ומשפרות את יכולת הפירוש.

תכונות מספריות רבות קשורות זו לזו מאטות אימון וגורמות להתאמת יתר.

החל PCA כדי להקרין לרכיבים העליונים התופסים את מרבית השונות; קנה מידה תחילה.

למה: PCA מסיר קולינאריות מרובה ודוחס ממדיות, תוך החלפת יכולת פירוש מסוימת ביציבות.

יש ליישם מספר שלבי עיבוד מקדים באופן זהה באימון ובהגשה.

שרשר משלימים, מקודדים ומדרגים ב-`Pipeline` / `ColumnTransformer` שהותאם רק על נתוני אימון.

למה: צינור עבודה מותאם יחיד מבטיח טרנספורמציות עקביות ומונע דליפה על פני קיפולים.

מקור

עמודת תאריך גולמית מוסיפה מעט ערך חיזויי.

פרק לשנה, חודש, יום בשבוע, האם סוף שבוע, וקידודי סינוס/קוסינוס מחזוריים.

למה: מודלים אינם יכולים לקרוא סמנטיקת לוח שנה מחותמת זמן גולמית; חלקים מפורשים חושפים עונתיות.

בחירת מודל, אימון והערכה

צורך באומדן כנה של הכללה.

פצל לאימון / אימות / בדיקה; כוונן על נתוני אימות, דווח על המספרים הסופיים על סט הבדיקה שלא נגעו בו.

למה: שימוש חוזר בסט הבדיקה לצורך כוונון מדליף מידע ומגזים בביצועי העולם האמיתי.

סט נתונים קטן הופך פיצול יחיד לבלתי אמין.

השתמש באימות צולב k-fold (מרובדים לסיווג) כדי למצוע ביצועים על פני קיפולים.

למה: אימות צולב מספק אומדן עם שונות נמוכה יותר ומשתמש בכל הנתונים הן לאימון והן לאימות.

דיוק אימון גבוה, דיוק בדיקה נמוך.

אבחן התאמת יתר (שונות גבוהה); הוסף רגולריזציה, פשט את המודל, או השג יותר נתונים.

למה: ההפך – שני הציונים נמוכים – הוא תת-התאמה (הטיה גבוהה), הדורשת מודל או תכונות עשירים יותר.

מודל הונאה מדווח על דיוק של 97% אך מחמיץ את רוב ההונאות.

השתמש ב-Precision, Recall, F1, ו-ROC-AUC / PR-AUC במקום דיוק.

למה: על יעדים לא מאוזנים, חיזוי רוב קבוע משיג דיוק גבוה בעודו חסר תועלת.

צורך לראות היכן מסווג מבצע טעויות.

קרא את מטריצת הבלבול; גזור ממנה Precision (עלות FP) ו-Recall (עלות FN).

למה: הסף הנכון תלוי בשאלה אם False Positives או False Negatives יקרים יותר.

הערכת מודל יעד רציף.

דווח על RMSE/MAE עבור גודל השגיאה ועל R² עבור השונות המוסברת; בחר RMSE כאשר טעויות גדולות חשובות ביותר.

למה: RMSE מעניש טעויות גדולות יותר מאשר MAE; R² לבדו יכול להטעות בהתאמות לא ליניאריות.

פרמטרי מודל ברירת המחדל משאירים ביצועים על השולחן.

כוונן עם חיפוש רשת או אקראי תחת אימות צולב; העדף חיפוש אקראי למרחבי חיפוש גדולים.

למה: חיפוש אקראי מוצא אזורים טובים מהר יותר מרשתות ממצות כאשר פרמטרים רבים מ взаимодейמים.

השוואת מספר צינורות עבודה מועמדים מ-AutoAI.

למה: טבלת המובילים מאיצה את הבחירה, אך הבחירה הסופית חייבת להחזיק מעמד על נתונים שלא נגעו בהם.

מקור