🏠בית 📚הסמכות 📱אפליקציות לנייד

🎓מידע על הבחינה

✍️בלוג 📊התקדמות 📅לוח שנה 💬תמיכה

מדיניות פרטיות תנאי שימוש צרו קשר מדיניות עוגיות כתב ויתור נגישות DMCA / זכויות יוצרים

דלג לתוכן

MLA-C01מדריך

מדריך

AWS Certified Machine Learning Engineer Associate

נבדק לאחרונה: מאי 2026

מדריך מקוצר ובר-סריקה לדפוסי ארכיטקטורה שמבחן MLA-C01 בודק. קראו מלמעלה למטה, או דלגו לסעיף.

סעיפים

הכנת נתונים ללמידת מכונה22 ערכים
פיתוח מודלים של למידת מכונה19 ערכים
פריסה ותזמור של תהליכי עבודה של למידת מכונה18 ערכים
ניטור, תחזוקה ואבטחה של פתרונות למידת מכונה18 ערכים

הכנת נתונים ללמידת מכונה

בחר כלי ויזואלי להכנת נתונים.

ממוקד למידת מכונה, משתלב עם SageMaker Studio + זרימה ← משימת עיבוד ← Pipeline ← ייצוא Notebook ← SageMaker Data Wrangler. ניקוי נתונים כללי עם מתכונים לשימוש חוזר, פרופיילינג, ללא תלות ב-SageMaker ← AWS Glue DataBrew. ‏50 TB+ Spark עם קוד מותאם אישית ← Amazon EMR.

למה: Data Wrangler היא האפשרות המובנית ב-SageMaker (300+ טרנספורמציות, חילוץ תאריך/שעה, ייצוא ל-Pipeline/Processing). DataBrew מבוססת מתכונים ובלתי תלויה במקור. EMR מטפל בקנה מידה וב-Spark שרירותי.

קטלג נתונים על פני S3, RDS, DynamoDB כדי שאנליסטים ו-SageMaker יוכלו לגלות מערכי נתונים.

AWS Glue Crawlers מאכלסים את ה-AWS Glue Data Catalog עם סכמות + מטא-דאטה. Athena, Redshift Spectrum ו-SageMaker כולם צורכים אותו.

דרושה בקרת גישה ברמת עמודה ושורה על אגם הנתונים עם רישום ביקורת.

AWS Lake Formation. מדיניות IAM ו-S3 bucket אינן מספקות פירוט ברמת עמודה על נתונים מובנים.

למה: Lake Formation מרכזת את הממשל עבור Glue Data Catalog ומשתלבת עם CloudTrail לביקורת.

הרץ SQL אד-הוק על נתוני S3 מבלי להקצות דבר.

Amazon Athena. ללא שרת, תשלום לפי TB שנסרק. חלק נתונים והשתמש ב-Parquet כדי לקצץ עלויות וזמן.

‏50 TB של הנדסת תכונות עם קוד PySpark קיים, חייב להסתיים תוך 4 שעות.

Amazon EMR עם Spark. גודל אשכול ניתן לכוונון, תמיכת Spot, מריץ את הקוד הקיים ללא שינוי.

למה: Glue ETL מריץ גם Spark אבל EMR נותן יותר שליטה על צורת האשכול; SageMaker Processing מיועד למשימות קטנות יותר של מיכל בודד.

הרץ סקריפט עיבוד מקדים מותאם אישית של scikit-learn / pandas לפני אימון. מחשוב ארעי, ללא עלות סרק.

משימת SageMaker Processing עם מיכל SKLearn (או PySpark). מקצה, מריצה, מסיימת.

למה: טוב יותר מריצה על מחברת (נשאר פעיל, עולה כסף) או Lambda (מגבלת 15 דקות, מגבלות זיכרון).

תייג 100,000 תמונות ביעילות-עלות — רוצה תיוג אנושי + אוטומטי.

Amazon SageMaker Ground Truth עם תיוג נתונים אוטומטי מופעל. לאחר תת-קבוצה ראשונית שתויגה על ידי אדם, Ground Truth מאמנת מודל ומבצעת תיוג אוטומטי לדוגמאות בעלות ביטחון גבוה.

למה: למידה אקטיבית בדרך כלל מקצצת את עלות התיוג עד 70%. A2I מיועד לבדיקה אנושית של תחזיות מודל, לא לתיוג בכמויות גדולות.

מספר מבצעי תיוג אינם מסכימים; דרוש בודק בכיר כדי לוודא מדגם של תוויות.

זרימת עבודה של אימות תוויות (ביקורת) של Ground Truth. תת-קבוצה של תוויות מנותבת לכוח עבודה של בודקים שמאשר, דוחה או מתאים. שלב עם איחוד הערות להצבעת רוב של מספר עובדים.

אותן תכונות מהונדסות נחוצות באימון (אצווה) וב-inference (פחות מ-10 אלפיות השנייה).

Amazon SageMaker Feature Store עם חנויות מקוונות + לא מקוונות מופעלות בקבוצת התכונות. החנות המקוונת תומכת ב-GetRecord בזמן אמת; החנות הלא מקוונת (Parquet ב-S3) תומכת באימון.

למה: מבטל הטיה בין אימון/הגשה ללא סנכרון DynamoDB ↔ S3 מותאם אישית.

הגדרת קבוצת תכונות — מה חובה.

שם מזהה רשומה (מפתח ייחודי לכל רשומה) ושם תכונת זמן אירוע (חותמת זמן לשאילתות נקודתיות).

חבר שתי קבוצות תכונות לאימון מבלי לדלוף ערכי תכונות עתידיים.

חיבור נקודתי בזמן מול החנות הלא מקוונת באמצעות עמודת זמן האירוע. כל שורת אימון רואה רק ערכי תכונות שהיו קיימים בחותמת הזמן של האירוע שלה.

למה: JOIN רגיל על הערכים האחרונים גורם לדליפת נתונים על ידי חשיפת סחף תכונות לאחר אירוע למודל.

בחר מצב קלט נתוני אימון של SageMaker עבור מערך נתונים של 500 GB.

מצב קובץ ← כל מערך הנתונים יורד ראשית (התחלה איטית, עלות EBS). מצב Pipe ← זורם מ-S3, אתחול נמוך, אחסון נמוך. מצב FastFile ← סטרימינג עצל ברמת קובץ. השתמש ב-Pipe (או FastFile) עבור מערכי נתונים גדולים כדי להימנע מהורדה.

מיליוני קבצים קטנים (כל אחד ~50 KB) — תפוקת מצב Pipe ירודה.

ארוז ל-Amazon RecordIO (protobuf) וזרם דרך מצב Pipe. רשומות רצופות מבטלות את התקורה של S3 GET לכל קובץ.

בחר פורמט אחסון ופריסה עבור אגם נתונים של למידת מכונה ב-S3 עם קריאות תת-קבוצת עמודות תכופות + מסנני מחיצות.

Parquet (עמודתי, דחוס) מחולק למחיצות לפי העמודה המסוננת ביותר (לדוגמה תאריך או אזור). מניע גיזום עמודות + גיזום מחיצות ב-Athena וב-SageMaker.

Glue ETL מעבד מחדש קבצים שכבר טופלו בכל הרצה.

הפעל סימניות עבודה של Glue. השתמש באפשרות PAUSE כך שריצה שנכשלה לא תקדם את הסימניה; אפס רק בעת הצורך.

אמת סכמה, סוגים, טווחי ערכים ואילוצי null בתוך צינור ה-Glue ETL.

AWS Glue Data Quality עם כללי DQDL. עוצר את הצינור כאשר הבדיקות נכשלות.

קודד תכונות קטגוריאליות. חלקן מסודרות (בסיסי/סטנדרטי/פרימיום), חלקן לא (מדינות בארה"ב).

מסודר ← קידוד אורדינלי (שומר על דרגה). לא מסודר ← קידוד one-hot (מונע סדר מדומיין). הימנע מקידוד תוויות על תכונות לא מסודרות. קידוד יעד דורש CV זהיר כדי למנוע דליפה.

לעמודה מספרית יש ערכים חסרים המקבילים לתכונה אחרת (לדוגמה, הכנסה חסרה תלויה בסוג העסקה).

השלמה מבוססת קבוצות באמצעות חציון (חציון לכל סוג העסקה). שומר על היחס; ממוצע רגיש לחריגים; השמטה מאבדת נתונים; אפס מוסיף הטיה.

סיווג בינארי עם 0.3% מחלקה חיובית.

דגימת יתר של SMOTE על קיפול האימון בלבד (לאחר הפיצול). שלב עם הערכת PR-curve / F1, לא דיוק.

למה: החל דגימת יתר אחרי הפיצול כדי למנוע דליפה. דיוק מטעה על נתונים לא מאוזנים.

תכונה נומרית מוטה ימינה (לדוגמה הכנסה) פוגעת בביצועי המודל הליניארי.

טרנספורמציה לוגריתמית. מכווצת את הזנב הימני ומייצרת התפלגות סימטרית יותר. סטנדרטיזציה/min-max משנים קנה מידה, לא צורה.

50 תכונות מתואמות מאוד; רוצה ממדיות נמוכה יותר השומרת על שונות.

PCA. הופך תכונות מתואמות לרכיבים ראשיים לא מתואמים המדורגים לפי שונות.

בחר פיצול אימון/אימות/בדיקה.

סיווג לא מאוזן ← פיצול שכבות (שומר על יחס מחלקה). סדרות זמן ← פיצול כרונולוגי (אימון על תקופה מוקדמת, בדיקה על האחרונה); לעולם לא ערבוב אקראי. טבלאי IID ← אקראי.

פיתוח מודלים של למידת מכונה

בחר אלגוריתם מובנה של SageMaker.

סיווג/רגרסיה טבלאיים ← XGBoost או Linear Learner. סיווג טקסט רב-מחלקי בקנה מידה ← BlazingText (מפוקח). סדרות זמן עם סדרות קשורות ועונתיות ← DeepAR. זיהוי חריגים לא מפוקח על נתונים מספריים ← Random Cut Forest. מידול נושאים ← Neural Topic Model. תרגום / Seq2Seq ← Sequence-to-Sequence. מחלקות ברמת פיקסל ← Semantic Segmentation. הטמעות ישויות מותאמות (משתמש/פריט) ← Object2Vec.

השווה אלגוריתמים רבים אוטומטית על נתונים טבלאיים; רוצה לוח מנהיגים ואת המחברות שמאחוריו.

SageMaker Autopilot. מנסה אלגוריתמים, מבצע הנדסת תכונות, מכוונן היפרפרמטרים, מייצר מחברות מועמדות.

מסגרת אימון מותאמת אישית / טוקניזר קנייני לא מובנים.

BYOC (Bring Your Own Container): תמונת Docker עם הקוד והתלויות, דחף ל-Amazon ECR, הפניה באימון SageMaker. שומר על תשתית מנוהלת (Spot, מבוזר, מחזור חיים) מבלי לוותר על התאמה אישית.

מערך נתונים קטן של תמונות (~2,000) לסיווג רפואי.

למידת העברה ממודל שאומן מראש על ImageNet (לדוגמה ResNet). כוונן דק את השכבות האחרונות. SageMaker Image Classification תומך בכך ישירות.

למה: אימון מאפס על נתונים קטנים גורם להתאמת יתר. תכונות שאומנו מראש (קצוות, טקסטורות) עוברות בצורה נקייה לתמונות רפואיות.

כוונן דק מודל יסוד שאומן מראש במהירות מבלי לכתוב קוד אימון מותאם אישית.

API של SageMaker JumpStart לכוונון דק: בחר מזהה מודל, ספק מערך נתונים בפורמט הצפוי (בדרך כלל JSONL), הפעל משימת כוונון דק, פרוס לנקודת קצה מ-JumpStart.

התאם LLM לתחום. ידע סטטי רב ← בחר RAG לעומת כוונון דק לעומת הנחיה בלבד.

ידע תחום המשתנה לעיתים קרובות ← RAG באמצעות Bedrock Knowledge Bases. קול מותג / סגנון עקבי עם דוגמאות מתויגות ← התאמה אישית של מודל Bedrock (כוונון דק, לעיתים קרובות מתאמים חסכוניים בפרמטרים). הנחיה סטטית קטנה ← הנדסת הנחיות עם few-shot.

כוונן 8 היפרפרמטרים; כל משימת אימון היא 30 דקות; מחשוב מוגבל.

SageMaker Automatic Model Tuning עם אופטימיזציה בייסיאנית (ברירת מחדל). בונה מודל הסתברותי של היעד ודוגם אזורים מבטיחים.

למה: חיפוש רשת מתפוצץ באופן קומבינטורי; חיפוש אקראי מבזבז תקציב. ציין מדד יעד (לדוגמה `validation:auc`) וסוג (`Maximize`).

הכוונון הגיע למישור לאחר 50 עבודות.

משימת כוונון חדשה עם התחלה חמה באמצעות משימות אב כפריוריות וטווחי טווחים מצומצמים הממוקדים בתצורות עם הביצועים הטובים ביותר.

המשך לאמן את המודל הקיים על תוויות חדשות חודשיות — אל תתחיל מאפס.

אימון מצטבר: העבר את חפצי המודל הקודמים כקלט. נתמך על ידי Image Classification, Object Detection, Semantic Segmentation מובנים.

בחר אסטרטגיית אימון מבוזרת.

המודל מתאים ל-GPU אחד אבל הנתונים עצומים ← מקבילות נתונים (שכפל מודל, פצל אצוות, גרדיאנטים של AllReduce). המודל לא מתאים ל-GPU אחד ← מקבילות מודל (פצל שכבות/טנסורים על פני GPUs). ‏10B+ פרמטרים ← ספריית מקבילות מודל של SageMaker (מקבילות טנסור + pipeline).

אימון PyTorch / TensorFlow איטי מדי; רוצה אופטימיזציה ברמת הגרף מבלי לשנות דיוק.

SageMaker Training Compiler. מהדר את גרף המודל; יכול לקצר את זמן האימון עד 50%.

משימות אימון ארוכות שיכולות לסבול הפרעות; רוצה חיסכון גדול בעלויות.

SageMaker Managed Spot Training (עד 90% הנחה). הגדר נקודות ביקורת ל-S3 כך ש-SageMaker יוכל לחדש לאחר הפרעה.

אובדן האימון ממשיך לרדת, אובדן האימות מתחיל לעלות לאחר epoch 50.

התאמת יתר. החל עצירה מוקדמת במינימום אובדן האימות, בתוספת נשירה / ריקבון משקל L2. יותר שכבות מחמירות את המצב.

בחר את מדד הסיווג הנכון.

לא מאוזן + חיובי נדיר חשוב ← recall, F1, עקומת PR / Average Precision (לא ROC AUC, המנופח על ידי TNs רבים). רב-מחלקי עם חוסר איזון ← F1 ממוצע מאקרו. דירוג בלתי תלוי בסף ← AUC. כיול הסתברות ← log loss / Brier.

מודל רגרסיה מנבא יתר על המידה בקצה העליון ומנבא חסר בקצה התחתון.

צייר שאריות לעומת ערך מנובא; השתמש בשגיאה ממוצעת (עם סימן) עבור הטיה שיטתית. RMSE / MAE / R² מסתירים כיוון.

כל קלט יכול להשתייך למספר מחלקות בו זמנית.

הפעלת Sigmoid לכל נוירון פלט עם אובדן אנטרופיה צולבת בינארית (הסתברויות בלתי תלויות). Softmax + אנטרופיה צולבת קטגוריאלית מניחים מחלקות שאינן כוללות זו את זו.

ערום מספר מודלי בסיס עם לומד-על (meta-learner).

אימות צולב k-fold: כל מודל בסיס מייצר תחזיות מחוץ לקיפול על הקיפול שהוצא; אסוף על פני הקיפולים ואמן את ה-meta-learner עליהם.

למה: אימון מודלי בסיס וחיזוי על אותו מערך אימון מדליף מידע ללומד-העל.

עקוב והשווה ריצות אימון רבות (פרמטרים, מדדים, חפצים).

SageMaker Experiments. העבר `experiment_config` (ניסוי + ניסיון + רכיב ניסיון) למשימת האימון; SageMaker רושם אוטומטית היפרפרמטרים, תצורת קלט, מדדים וחפצים.

זהה פתולוגיות אימון (vanishing gradient, loss לא יורד, exploding tensor) מבלי לשכתב את הסקריפט.

SageMaker Debugger עם כללים מובנים (`VanishingGradient`, `LossNotDecreasing`, `ExplodingTensor`, `Overfit`). לוכד טנסורים באמצעות hooks; מעריך כללים תוך כדי תנועה.

פריסה ותזמור של תהליכי עבודה של למידת מכונה

בחר מצב הסקה של SageMaker.

סינכרוני עם זמן אחזור נמוך ויציב ← נקודת קצה בזמן אמת. תעבורה לא סדירה / סרק, ללא צורך ב-GPU ← הסקה ללא שרת (הגדר Provisioned Concurrency לביטול אתחולים קרים). ארוך טווח לכל בקשה (>60 שניות) או מטענים גדולים ← הסקה אסינכרונית. ניקוד אופליין בכמות גדולה של רשומות S3 ← batch transform.

מודלים רבים עם תעבורה נמוכה — נקודת קצה אחת לכל אחד יקרה מדי.

SageMaker Multi-Model Endpoint (MME). מודלים נטענים לפי דרישה לתוך מופעים משותפים. נקודת קצה אחת, מודלים רבים, עלות נמוכה.

שני מודלים בלתי תלויים מופעלים במקביל לכל בקשה מנקודת קצה אחת.

נקודת קצה מרובת מיכלים במצב הפעלה ישירה. המתקשר מכוון לכל מיכל באופן עצמאי.

רצף לכל בקשה: tokenize → embed → classify, כל אחד במיכל נפרד.

SageMaker Inference Pipeline (מצב סדרתי). עד 15 מיכלים משורשרים; הפלט של כל אחד מזין את הבא; נקודת קצה אחת.

נקודת קצה בזמן אמת חייבת לקלוט שיאים של 1000 בקשות/שנייה אך להתכווץ כמעט לאפס בלילה.

Application Auto Scaling מעקב יעד על `InvocationsPerInstance`. מוסיף/מסיר מופעים מאחורי נקודת הקצה כאשר התעבורה משתנה.

הפעל מודל חדש ל-10% מהתעבורה, "אפה" למשך 30 דקות, בצע החזרה אוטומטית במקרה של אזעקות.

תצורת פריסת נקודת קצה של SageMaker עם העברת תעבורה מסוג canary או ליניארי + אזעקות CloudWatch עבור החזרה אוטומטית.

אמת מודל חדש מול תעבורת ייצור מבלי להשפיע על משתמשים.

גרסאות צל. תעבורת הייצור משוכפלת למודל הצל; רק מודל הייצור חוזר ללקוח.

הרץ שתי גרסאות מודל על נקודת קצה אחת עם פיצול תעבורה של 90/10.

גרסאות ייצור של SageMaker עם `initial_variant_weight` 0.9 / 0.1. עדכן באמצעות `UpdateEndpointWeightsAndCapacities`.

בחר את סוג המופע הנכון עבור נקודת קצה בזמן אמת בהתבסס על עלות / זמן אחזור / תפוקה.

SageMaker Inference Recommender. מבצע בדיקת ביצועים למודל על פני סוגי מופעים מועמדים ומדווח על המלצות.

גרסאות מודלים, אישור פריסת ייצור רשמית, מעקב אחר אילן יוחסין.

SageMaker Model Registry. סטטוס אישור (PendingApproval / Approved / Rejected), עוקב אחר אילן יוחסין, משתלב עם Pipelines ו-CI/CD.

זרימת עבודה מקומית של למידת מכונה: אימון ← הערכה ← רישום/פריסה מותנה.

SageMaker Pipelines עם TrainingStep → ConditionStep (סף מדד) → RegisterModel → צעד Lambda (או CreateModel/Endpoint). אינטגרציה מקומית של SageMaker, פרמטריזציה, שמירה במטמון, אילן יוחסין.

ה-Pipeline חייב לתאם Glue ETL + Lambda + אימון SageMaker + SNS / DynamoDB.

AWS Step Functions. אינטגרציות שירות מקומיות על פני הערימה; עשיר יותר מ-Pipelines עבור צעדים שאינם של SageMaker.

למה: Pipelines היא הבחירה הנכונה עבור תהליכי עבודה טהורים של למידת מכונה; Step Functions היא הבחירה הנכונה כאשר אתה זקוק לאינטגרציות שירות רחבות יותר של AWS.

רוצה פיגום CI/CD מובנה מראש עבור MLOps (CodePipeline + CodeBuild + Pipelines).

תבניות פרויקטים של SageMaker MLOps. מייצר את ה-repo + pipeline + IAM + צעדי Pipelines בלחיצה אחת.

אימון מחדש אוטומטי כאשר Model Monitor מזהה סחף.

Model Monitor ← אזעקת CloudWatch על מדד הפרה ← כלל EventBridge ← התחלת ביצוע SageMaker Pipeline.

פרוס מודל TensorFlow למכשירי קצה ARM; דרוש קטן + מהיר.

SageMaker Neo. מהדר עבור חומרת היעד; עד פי 25 מהיר יותר, כ-1/10 מהזיכרון. פרוס באמצעות זמן הריצה DLR; שלב עם IoT Greengrass עבור קצה אופליין.

מודל קטן (<50 MB), <100 בקשות/יום, זמן אחזור ≤10 שניות נסבל, רוצה את העלות הנמוכה ביותר.

AWS Lambda עם תמונת מיכל (עד 10 GB). תשלום לפי בקשה, ללא עלות סרק; נקודות קצה של SageMaker מחויבות לשעה.

הסקה אורכת 60+ שניות (LLM בפורמט ארוך). נקודת קצה בזמן אמת נתקעת (times out).

SageMaker Asynchronous Inference. מחזיר מיקום S3 מיד; מעבד עד 60 דקות; הודעת SNS בסיום.

כוונן Batch Transform לתפוקה מקסימלית עם רשומות עצמאיות.

הגדר `BatchStrategy=MultiRecord` עם `MaxPayloadInMB` גדול, והעלה את `MaxConcurrentTransforms` כדי לבצע מקביליות על פני המופע.

ניטור, תחזוקה ואבטחה של פתרונות למידת מכונה

זהה שחלוקות תכונות הקלט סטו מנקודת הייחוס של זמן האימון.

SageMaker Model Monitor — איכות נתונים. לוכד נתוני הסקה, משווה מול נקודת ייחוס שחושבה מנתוני אימון, אזעקה על סחף.

למה: סדר ההגדרה קבוע: (1) משימת קו בסיס ← (2) לוח זמנים לניטור ← (3) אזעקות CloudWatch על מדדי הפרת האילוצים.

זהה ירידה באיכות החיזוי (דיוק / F1 / RMSE) כאשר אמת הקרקע מגיעה באיחור.

SageMaker Model Monitor — איכות מודל. ממזג תחזיות שנלכדו עם תוויות אמת-קרקע מושהות; מפעיל אזעקות כאשר המדדים יורדים מתחת לקו הבסיס.

התפלגות הקלט נראית ללא שינוי אך איכות החיזוי השתנתה.

SageMaker Clarify Feature Attribution Drift Monitor (מבוסס SHAP). מזהה סחף מושגים באמצעות שינויים בחשיבות התכונות. שלב עם Model Quality monitor כאשר אמת הקרקע זמינה.

הדיוק ירד אך התפלגויות תכונות הקלט ללא שינוי.

סחף מושגים (היחס בין התווית/התכונה השתנה). סחף נתונים נפסל. תיקון: אימון מחדש על נתונים מתויגים עדכניים.

בדוק את מערך הנתונים להטיה לפני אימון.

מדדי הטיה לפני אימון של SageMaker Clarify. חוסר איזון מחלקות (CI) עבור פער בגודל מדגם; הבדל בשיעורים חיוביים של תוויות (DPL) עבור פער בשיעור תוויות; סטיית KL/JS עבור פערי התפלגות.

בדוק את המודל המאומן להטיה.

מדדי הטיה לאחר אימון של SageMaker Clarify. השפעה לא שוויונית (DI), הבדל דיוק (AD), קבלה מותנית, שוויון טיפול. הרץ מול תחזיות המודל.

למה: DPL נקי לפני אימון אך DI מוטה לאחר אימון = המודל עצמו מגביר משתנה מתווך. חקור תכונות (לדוגמה מיקוד).

רגולטור דורש ייחוס תכונות לכל חיזוי.

ערכי SHAP של SageMaker Clarify. גודל + כיוון התרומה של כל תכונה לכל חיזוי. משתלב עם Model Cards.

תאימות דורשת תיעוד מובנה של כל מודל ייצור (שימוש מיועד, נתוני אימון, הערכה, אתיקה, מגבלות).

SageMaker Model Cards. עם גרסאות; משולב עם Model Registry.

בצע ביקורת מי יצר איזו משימת אימון / נקודת קצה / מחברת ומתי.

AWS CloudTrail. לוכד את כל קריאות ה-API של SageMaker (זהות, זמן, IP, פרמטרים). אחסן ב-S3, שאילתה עם Athena.

התראה על שגיאות 5xx / קפיצות זמן אחזור של נקודת קצה.

אזעקות CloudWatch על `Invocation5XXErrors`, `Invocation4XXErrors`, `ModelLatency`, `OverheadLatency`. הודע באמצעות SNS.

מחברת צריכה לקרוא נתוני אימון מ-S3 bucket אחד ולכתוב חפצים ל-bucket אחר.

מדיניות IAM מותאמת אישית: `s3:GetObject` על ה-bucket/קידומת של האימון ו-`s3:PutObject` על ה-bucket/קידומת של החפצים, מחוברת לתפקיד הביצוע של SageMaker. הימנע מ-`AmazonS3FullAccess`.

בידוד לכל צוות על פני משאבי SageMaker.

בקרת גישה מבוססת תכונות (ABAC) עם תנאי IAM ‏`aws:ResourceTag/project`. משאבים מתויגים `project=A` נגישים רק לתפקידים שמדיניותם תואמת.

הצפן נתוני אימון וחפצי מודל עם מפתחות מנוהלים על ידי לקוח + סיבוב.

SSE-KMS עם מפתח מנוהל על ידי לקוח (CMK). סיבוב KMS, מדיניות מפתחות, ביקורת CloudTrail. ציין את מפתח ה-KMS במשימת האימון + תצורת נקודת הקצה (נפח + פלט) כדי ש-SageMaker ישתמש בו.

אימון מבוזר על פני מספר מופעים; הצפן תעבורה בין מיכלי אימון.

הגדר `EnableInterContainerTrafficEncryption=true` על משימת האימון. מוסיף TLS בין מיכלים מבוזרים.

המיכל אסור לבצע קריאות רשת יוצאות; נתונים צריכים להישאר בתוך ערוצי ההעתקה של SageMaker.

הגדר `EnableNetworkIsolation=true` על משימת האימון/עיבוד או נקודת הקצה. SageMaker מעתיק ערוצי קלט S3 פנימה לפני שהמיכל רץ; למיכל אין יציאה החוצה.

האימון אסור לגעת באינטרנט הציבורי.

הפעל את SageMaker בתת-רשת פרטית ללא NAT/Internet Gateway. הוסף נקודות קצה של VPC — נקודת קצה של gateway עבור S3, נקודות קצה של ממשק עבור SageMaker API + Runtime + ECR + STS + CloudWatch Logs.

צינור למידת המכונה מושך תכונות מ-RDS — אישורים חייבים לעבור סיבוב אוטומטי.

AWS Secrets Manager עם סיבוב אוטומטי מופעל (סיבוב Lambda מובנה עבור RDS).

אכוף שכל משאבי SageMaker ישתמשו ב-VPC + KMS + סוגי מופעים מאושרים.

מניעתי ← מוצרי SageMaker Service Catalog (תצורות מאושרות מראש) ומפתחות תנאי IAM (`sagemaker:VpcSecurityGroupIds`, `sagemaker:VolumeKmsKey`) המונעים קריאות API שאינן תואמות. איתור → כללים מנוהלים/מותאמים אישית של AWS Config.