🏠Startseite 📚Zertifizierungen 📱Mobile Apps

🎓Prüfungsinfo

✍️Blog 📊Fortschritt 📅Kalender 💬Support

Datenschutzrichtlinie Nutzungsbedingungen Kontakt Cookie-Richtlinie Haftungsausschluss Barrierefreiheit DMCA / Urheberrecht

Zum Inhalt springen

MLA-C01Handbuch

Handbuch

AWS Certified Machine Learning Engineer Associate

Zuletzt überprüft: Mai 2026

Eine übersichtliche Referenz der Architekturmuster, die in der MLA-C01-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Abschnitte

Datenvorbereitung für ML22 Einträge
ML-Modellentwicklung19 Einträge
Bereitstellung und Orchestrierung von ML-Workflows18 Einträge
Überwachung, Wartung und Sicherheit von ML-Lösungen18 Einträge

Datenvorbereitung für ML

Wählen Sie ein visuelles Datenvorbereitungstool.

ML-fokussiert, Integration mit SageMaker Studio + Flow → Processing Job → Pipeline → Notebook-Export → SageMaker Data Wrangler. Generische Datenbereinigung mit wiederverwendbaren Rezepten, Profiling, keine SageMaker-Abhängigkeit → AWS Glue DataBrew. 50 TB+ Spark mit benutzerdefiniertem Code → Amazon EMR.

Warum: Data Wrangler ist die SageMaker-native Option (300+ Transformationen, Datums-/Uhrzeit-Extraktion, Exporte zu Pipeline/Processing). DataBrew ist rezeptbasiert und quellunabhängig. EMR handhabt Skalierung und beliebige Spark-Anwendungen.

Katalogisieren Sie Daten über S3, RDS, DynamoDB hinweg, damit Analysten und SageMaker Datensätze entdecken können.

AWS Glue Crawlers füllen den AWS Glue Data Catalog mit Schemata + Metadaten. Athena, Redshift Spectrum und SageMaker nutzen dies.

Benötigen Sie eine Spalten- und Zeilen-basierte Zugriffskontrolle auf dem Data Lake mit Audit-Protokollierung.

AWS Lake Formation. IAM- und S3-Bucket-Richtlinien bieten keine spaltenbasierte Granularität für strukturierte Daten.

Warum: Lake Formation zentralisiert die Governance für den Glue Data Catalog und integriert sich mit CloudTrail für Audit-Zwecke.

Führen Sie Ad-hoc-SQL auf S3-Daten aus, ohne etwas bereitzustellen.

Amazon Athena. Serverless, Abrechnung pro gescanntem TB. Partitionieren Sie Daten und verwenden Sie Parquet, um Kosten und Zeit zu sparen.

50 TB Feature Engineering mit bestehendem PySpark-Code, muss in 4 Stunden abgeschlossen sein.

Amazon EMR mit Spark. Anpassbare Clustergröße, Spot-Unterstützung, führt den bestehenden Code unverändert aus.

Warum: Glue ETL führt ebenfalls Spark aus, aber EMR bietet mehr Kontrolle über die Clusterform; SageMaker Processing ist für kleinere Single-Container-Jobs gedacht.

Führen Sie ein benutzerdefiniertes scikit-learn / pandas Vorverarbeitungsskript vor dem Training aus. Ephemerer Compute, keine Leerlaufkosten.

SageMaker Processing Job mit dem SKLearn (oder PySpark) Container. Stellt bereit, führt aus, beendet.

Warum: Besser als die Ausführung auf einem Notebook (bleibt aktiv, kostet Geld) oder Lambda (15-Minuten-Limit, Speicherbegrenzung).

100.000 Bilder kosteneffizient beschriften — menschliche + automatisierte Beschriftung gewünscht.

Amazon SageMaker Ground Truth mit aktivierter automatischer Datenbeschriftung. Nach einem anfänglichen, von Menschen beschrifteten Teilsatz trainiert Ground Truth ein Modell und beschriftet Stichproben mit hoher Konfidenz automatisch.

Warum: Aktives Lernen senkt die Beschriftungskosten typischerweise um bis zu 70%. A2I ist für die menschliche Überprüfung von Modellvorhersagen gedacht, nicht für die Massenbeschriftung.

Mehrere Annotatoren sind sich uneinig; ein erfahrener Prüfer muss eine Stichprobe von Labels verifizieren.

Ground Truth Label-Verifizierungs-(Audit)-Workflow. Ein Teilsatz von Labels wird an eine Überprüfungsarbeitskraft weitergeleitet, die diese genehmigt, ablehnt oder anpasst. Kombinieren Sie dies mit Annotation Consolidation für Mehrheitsentscheidungen mehrerer Mitarbeiter.

Dieselben konstruierten Features werden beim Training (Batch) und bei der Inferenz (unter 10 ms) benötigt.

Amazon SageMaker Feature Store mit aktivierten Online- und Offline-Speichern in der Feature-Gruppe. Der Online-Speicher unterstützt Echtzeit-GetRecord; der Offline-Speicher (Parquet in S3) unterstützt das Training.

Warum: Eliminiert Train/Serve Skew ohne eine benutzerdefinierte DynamoDB ↔ S3 Synchronisation.

Definieren einer Feature-Gruppe — was ist obligatorisch.

Datensatz-Identifikatorname (eindeutiger Schlüssel pro Datensatz) und Ereigniszeit-Featurename (Zeitstempel für Point-in-Time-Abfragen).

Zwei Feature-Gruppen für das Training verbinden, ohne zukünftige Feature-Werte preiszugeben.

Point-in-Time-Join gegen den Offline-Speicher unter Verwendung der Ereigniszeitspalte. Jede Trainingszeile sieht nur Feature-Werte, die zum Zeitpunkt ihres Ereignis-Zeitstempels existierten.

Warum: Ein einfacher JOIN auf die neuesten Werte führt zu Datenlecks, indem er dem Modell nach dem Ereignis aufgetretene Feature-Drift offenbart.

Wählen Sie einen SageMaker Trainingsdaten-Eingabemodus für einen 500 GB Datensatz.

Dateimodus → gesamter Datensatz wird zuerst heruntergeladen (langsamer Start, EBS-Kosten). Pipe-Modus → Streams von S3, geringer Startaufwand, geringer Speicherbedarf. FastFile-Modus → Lazy-Streaming auf Dateiebene. Verwenden Sie Pipe (oder FastFile) für große Datensätze, um den Download zu vermeiden.

Millionen kleiner Dateien (jeweils ~50 KB) — der Pipe-Modus-Durchsatz ist schlecht.

Bündeln Sie in Amazon RecordIO (protobuf) und streamen Sie über den Pipe-Modus. Sequentielle Datensätze eliminieren den S3-GET-Overhead pro Datei.

Wählen Sie ein Speicherformat und Layout für ML Data Lake auf S3 mit häufigen Spalten-Teilmengenlesevorgängen + Partitionsfiltern.

Parquet (spaltenbasiert, komprimiert), partitioniert nach der am häufigsten gefilterten Spalte (z.B. Datum oder Region). Fördert Spalten-Pruning + Partitions-Pruning in Athena und SageMaker.

Glue ETL verarbeitet bei jedem Durchlauf bereits bearbeitete Dateien erneut.

Aktivieren Sie Glue Job Bookmarks. Verwenden Sie die PAUSE-Option, damit ein fehlgeschlagener Lauf das Lesezeichen nicht vorrückt; nur bei Bedarf zurücksetzen.

Validieren Sie Schema, Typen, Wertebereiche und Null-Constraints innerhalb der Glue ETL Pipeline.

AWS Glue Data Quality mit DQDL-Regeln. Stoppt die Pipeline, wenn Überprüfungen fehlschlagen.

Kategorische Features kodieren. Einige sind geordnet (Basic/Standard/Premium), andere nicht (US-Bundesstaaten).

Geordnet → ordinale Kodierung (bewahrt Rang). Ungeordnet → One-Hot-Kodierung (vermeidet falsche Ordinalität). Vermeiden Sie Label-Kodierung bei ungeordneten Features. Target-Kodierung erfordert sorgfältiges CV, um Leckagen zu vermeiden.

Numerische Spalte weist fehlende Werte auf, die mit einem anderen Feature korrelieren (z.B. fehlendes Einkommen hängt vom Beschäftigungstyp ab).

Gruppenbasierte Median-Imputation (Median pro Beschäftigungstyp). Bewahrt die Beziehung; der Mittelwert ist anfällig für Ausreißer; das Weglassen führt zu Datenverlust; Null fügt Bias hinzu.

Binäre Klassifikation mit 0,3% positiver Klasse.

SMOTE Oversampling nur auf dem Trainings-Fold (nach dem Split). Kombinieren Sie dies mit PR-Kurven- / F1-Evaluierung, nicht mit Genauigkeit.

Warum: Wenden Sie Oversampling NACH dem Splitting an, um Leckagen zu vermeiden. Genauigkeit ist bei unausgewogenen Daten irreführend.

Rechtsschiefe numerische Features (z.B. Einkommen) beeinträchtigen die Leistung linearer Modelle.

Log-Transformation. Komprimiert den rechten Schwanz und erzeugt eine symmetrischere Verteilung. Standardisierung/Min-Max ändern die Skala, nicht die Form.

50 hochkorrelierte Features; gewünscht ist eine geringere Dimensionalität unter Beibehaltung der Varianz.

PCA. Transformiert korrelierte Features in unkorrelierte Hauptkomponenten, die nach Varianz geordnet sind.

Wählen Sie einen Train/Val/Test-Split.

Unausgewogene Klassifikation → stratifizierter Split (bewahrt Klassenverhältnis). Zeitreihen → chronologischer Split (Training auf früherer Periode, Test auf neuester); niemals zufälliges Mischen. IID tabellarisch → zufällig.

ML-Modellentwicklung

Wählen Sie einen SageMaker Built-in-Algorithmus.

Tabellarische Klassifikation/Regression → XGBoost oder Linear Learner. Mehrklassen-Textklassifikation im großen Maßstab → BlazingText (überwacht). Zeitreihen mit verwandten Reihen und Saisonalität → DeepAR. Unüberwachte Anomalieerkennung bei numerischen Daten → Random Cut Forest. Themenmodellierung → Neural Topic Model. Übersetzung / Seq2Seq → Sequence-to-Sequence. Pixelbasierte Klassen → Semantic Segmentation. Paired-entity Embeddings (Benutzer/Artikel) → Object2Vec.

Vergleichen Sie viele Algorithmen automatisch auf tabellarischen Daten; wünschen Sie eine Bestenliste und die dahinter liegenden Notebooks.

SageMaker Autopilot. Probiert Algorithmen aus, führt Feature Engineering durch, stimmt Hyperparameter ab, generiert Kandidaten-Notebooks.

Benutzerdefiniertes Trainings-Framework / proprietärer Tokenizer nicht in den Built-ins enthalten.

BYOC (Bring Your Own Container): Docker-Image mit Code und Abhängigkeiten, Push zu Amazon ECR, Referenz im SageMaker-Training. Behält verwaltete Infrastruktur (Spot, verteilt, Lebenszyklus) bei, ohne auf Anpassung zu verzichten.

Kleiner Bilddatensatz (~2.000) für medizinische Klassifikation.

Transfer Learning von einem auf ImageNet vorab trainierten Modell (z.B. ResNet). Feinabstimmung der letzten Schichten. SageMaker Image Classification unterstützt dies direkt.

Warum: Training von Grund auf mit kleinen Datenmengen führt zu Overfitting. Vorab trainierte Features (Kanten, Texturen) lassen sich sauber auf medizinische Bilder übertragen.

Ein vortrainiertes Basismodell schnell feinabstimmen, ohne benutzerdefinierten Trainingscode schreiben zu müssen.

SageMaker JumpStart Fine-Tuning API: Modell-ID auswählen, Datensatz im erwarteten Format bereitstellen (typischerweise JSONL), Fine-Tuning-Job starten, von JumpStart zu einem Endpunkt bereitstellen.

Ein LLM an eine Domäne anpassen. Viel statisches Wissen → RAG vs. Fine-Tuning vs. nur Prompt wählen.

Häufig wechselndes Domänenwissen → RAG über Bedrock Knowledge Bases. Markenstimme / konsistenter Stil mit gelabelten Beispielen → Bedrock Modell-Anpassung (Fine-Tuning, oft parameter-effiziente Adapter). Kleine statische Anleitung → Prompt Engineering mit Few-Shot.

8 Hyperparameter abstimmen; jeder Trainingsjob dauert 30 Minuten; begrenzte Rechenkapazität.

SageMaker Automatic Model Tuning mit Bayesscher Optimierung (Standard). Erstellt ein probabilistisches Modell des Ziels und sampelt vielversprechende Regionen.

Warum: Grid Search explodiert kombinatorisch; Random Search verschwendet Budget. Objektive Metrik (z.B. `validation:auc`) und Typ (`Maximize`) angeben.

Tuning stagnierte nach 50 Jobs.

Neuer Tuning-Job mit Warmstart, wobei übergeordnete Jobs als Priors und engere Bereiche, die auf den leistungsstärksten Konfigurationen zentriert sind, verwendet werden.

Das bestehende Modell auf monatlich neuen Labels weitertrainieren — nicht von Grund auf neu beginnen.

Inkrementelles Training: Übergeben Sie die vorherigen Modell-Artefakte als Eingabe. Wird von den Built-ins für Image Classification, Object Detection, Semantic Segmentation unterstützt.

Wählen Sie eine Strategie für verteiltes Training.

Modell passt auf eine GPU, aber Daten sind riesig → Datenparallelität (Modell replizieren, Batches aufteilen, AllReduce Gradients). Modell passt nicht auf eine GPU → Modellparallelität (Schichten/Tensoren über GPUs aufteilen). 10 Mrd.+ Parameter → SageMaker Modellparallele Bibliothek (Tensor + Pipeline-Parallelität).

PyTorch / TensorFlow Training zu langsam; gewünscht ist Graph-Level-Optimierung ohne Änderung der Genauigkeit.

SageMaker Training Compiler. Kompiliert den Modellgraph; kann die Trainingszeit um bis zu 50% reduzieren.

Lange Trainingsjobs, die Unterbrechungen tolerieren können; wünschen sich große Kosteneinsparungen.

SageMaker Managed Spot Training (bis zu 90% Rabatt). Konfigurieren Sie Checkpoints nach S3, damit SageMaker nach einer Unterbrechung fortfahren kann.

Trainingsverlust sinkt weiter, Validierungsverlust steigt nach Epoche 50 an.

Overfitting. Frühzeitiges Stoppen beim Validierungs-Verlustminimum anwenden, zusätzlich Dropout / L2 Weight Decay. Mehr Schichten verschlimmern es.

Wählen Sie die richtige Klassifikationsmetrik.

Unausgewogen + seltene Positive wichtig → Recall, F1, PR-Kurve / Average Precision (NICHT ROC AUC, die durch viele TNs überhöht wird). Mehrklassen mit Ungleichgewicht → makro-gemittelter F1. Schwellenwert-unabhängiges Ranking → AUC. Wahrscheinlichkeitskalibrierung → Log Loss / Brier.

Regressionsmodell überprognostiziert am oberen Ende und unterprognostiziert am unteren Ende.

Residuen vs. vorhergesagten Wert plotten; Mean Error (signiert) für systematische Verzerrung verwenden. RMSE / MAE / R² verbergen die Richtung.

Jede Eingabe kann gleichzeitig zu mehreren Klassen gehören.

Sigmoid-Aktivierung pro Ausgabeneuron mit binärer Kreuzentropie-Verlustfunktion (unabhängige Wahrscheinlichkeiten). Softmax + kategoriale Kreuzentropie geht von sich gegenseitig ausschließenden Klassen aus.

Mehrere Basismodelle mit einem Meta-Learner stapeln.

k-fache Kreuzvalidierung: jedes Basismodell erzeugt Out-of-Fold-Vorhersagen auf seinem zurückgehaltenen Fold; sammelt diese über die Folds hinweg und trainiert den Meta-Learner darauf.

Warum: Das Training von Basismodellen und die Vorhersage auf demselben Trainingssatz führt zu Informationslecks im Meta-Learner.

Verfolgen und vergleichen Sie viele Trainingsläufe (Parameter, Metriken, Artefakte).

SageMaker Experiments. Übergeben Sie `experiment_config` (Experiment + Trial + Trial-Komponente) an den Trainingsjob; SageMaker protokolliert automatisch Hyperparameter, Eingabekonfiguration, Metriken und Artefakte.

Trainingspathologien (Vanishing Gradient, Verlust nimmt nicht ab, Exploding Tensor) erkennen, ohne das Skript neu schreiben zu müssen.

SageMaker Debugger mit integrierten Regeln (`VanishingGradient`, `LossNotDecreasing`, `ExplodingTensor`, `Overfit`). Erfasst Tensoren über Hooks; evaluiert Regeln on the fly.

Bereitstellung und Orchestrierung von ML-Workflows

Wählen Sie einen SageMaker Inferenzmodus.

Stetig niedrige Latenz synchron → Echtzeit-Endpunkt. Spitzenmäßiger / inaktiver Datenverkehr, keine GPU erforderlich → Serverless Inference (Provisioned Concurrency konfigurieren, um Kaltstarts zu eliminieren). Langlaufend pro Anfrage (>60 s) oder große Payloads → Asynchrone Inferenz. Offline-Massenbewertung von S3-Datensätzen → Batch Transform.

Viele Modelle mit geringem Datenverkehr — ein Endpunkt pro Modell ist zu teuer.

SageMaker Multi-Model Endpoint (MME). Modelle werden bei Bedarf in gemeinsam genutzte Instanzen geladen. Ein Endpunkt, viele Modelle, niedrige Kosten.

Zwei unabhängige Modelle, die pro Anfrage parallel von einem Endpunkt aufgerufen werden.

Multi-Container-Endpunkt im direkten Aufrufmodus. Der Aufrufer zielt auf jeden Container unabhängig ab.

Sequentiell pro Anfrage: tokenisieren → einbetten → klassifizieren, jeweils in einem separaten Container.

SageMaker Inference Pipeline (serieller Modus). Bis zu 15 Container verkettet; die Ausgabe jedes Containers speist den nächsten; ein Endpunkt.

Echtzeit-Endpunkt muss Spitzen von 1000 Anfragen/Sek. aufnehmen können, aber nachts auf nahezu null skalieren.

Application Auto Scaling Target-Tracking auf `InvocationsPerInstance`. Fügt Instanzen hinter dem Endpunkt hinzu/entfernt sie, wenn sich der Datenverkehr ändert.

Ein neues Modell an 10% des Datenverkehrs ausrollen, 30 Min. "backen", bei Alarmen automatisch zurückrollen.

SageMaker Endpunkt-Bereitstellungskonfiguration mit Canary- oder linearer Datenverkehrsverlagerung + CloudWatch-Alarme für automatischen Rollback.

Ein neues Modell anhand des Produktionsdatenverkehrs validieren, ohne Benutzer zu beeinträchtigen.

Shadow-Varianten. Der Produktionsdatenverkehr wird zum Shadow-Modell dupliziert; nur das Produktionsmodell gibt an den Client zurück.

Zwei Modellversionen auf einem Endpunkt mit einer 90/10 Datenverkehrsaufteilung ausführen.

SageMaker Produktionsvarianten mit `initial_variant_weight` 0.9 / 0.1. Aktualisieren mit `UpdateEndpointWeightsAndCapacities`.

Wählen Sie den richtigen Instanztyp für einen Echtzeit-Endpunkt basierend auf Kosten / Latenz / Durchsatz.

SageMaker Inference Recommender. Benchmarkt das Modell über Kandidateninstanztypen hinweg und meldet Empfehlungen.

Modelle versionieren, Produktionsbereitstellung mit formeller Genehmigung steuern, Lineage verfolgen.

SageMaker Model Registry. Genehmigungsstatus (PendingApproval / Approved / Rejected), verfolgt Lineage, integriert sich mit Pipelines und CI/CD.

Nativer ML-Workflow: trainieren → evaluieren → bedingt registrieren/bereitstellen.

SageMaker Pipelines mit TrainingStep → ConditionStep (Metrikschwelle) → RegisterModel → Lambda-Schritt (oder CreateModel/Endpoint). Native SageMaker-Integration, Parametrisierung, Caching, Lineage.

Pipeline muss Glue ETL + Lambda + SageMaker Training + SNS / DynamoDB koordinieren.

AWS Step Functions. Native Service-Integrationen über den gesamten Stack; umfangreicher als Pipelines für Nicht-SageMaker-Schritte.

Warum: Pipelines ist die richtige Wahl für reine ML-Workflows; Step Functions ist die richtige Wahl, wenn Sie die breiteren AWS-Service-Integrationen benötigen.

Vorgefertigtes MLOps CI/CD-Gerüst (CodePipeline + CodeBuild + Pipelines) gewünscht.

SageMaker MLOps Project Templates. Generiert das Repo + Pipeline + IAM + Pipelines-Schritte mit einem Klick.

Automatisches Retraining, wenn Model Monitor Drift erkennt.

Model Monitor → CloudWatch-Alarm bei Verletzungsmetrik → EventBridge-Regel → Start der SageMaker Pipeline-Ausführung.

Ein TensorFlow-Modell auf ARM Edge-Geräten bereitstellen; es muss klein und schnell sein.

SageMaker Neo. Kompiliert für die Zielhardware; bis zu 25x schneller, ~1/10 des Speichers. Bereitstellung über die DLR-Laufzeit; kombinieren Sie mit IoT Greengrass für Offline-Edge.

Kleines Modell (<50 MB), <100 Anfragen/Tag, ≤10 s Latenz tolerierbar, niedrigste Kosten gewünscht.

AWS Lambda mit Container-Image (bis zu 10 GB). Bezahlung pro Anfrage, keine Leerlaufkosten; SageMaker-Endpunkte werden pro Stunde abgerechnet.

Inferenz dauert über 60 Sekunden (LLM Long-Form). Echtzeit-Endpunkt läuft ab.

SageMaker Asynchronous Inference. Gibt sofort einen S3-Speicherort zurück; verarbeitet bis zu 60 Minuten; SNS-Benachrichtigung bei Abschluss.

Batch Transform für maximalen Durchsatz mit unabhängigen Datensätzen optimieren.

Setzen Sie `BatchStrategy=MultiRecord` mit einem großen `MaxPayloadInMB` und erhöhen Sie `MaxConcurrentTransforms`, um über die Instanz zu parallelisieren.

Überwachung, Wartung und Sicherheit von ML-Lösungen

Erkennen, dass sich die Verteilungen der Eingabefeatures von der Trainingszeit-Baseline entfernt haben.

SageMaker Model Monitor — Datenqualität. Erfasst Inferenzdaten, vergleicht sie mit einer aus Trainingsdaten berechneten Baseline, alarmiert bei Drift.

Warum: Die Einrichtungsreihenfolge ist festgelegt: (1) Baseline-Job → (2) Überwachungszeitplan → (3) CloudWatch-Alarme für die Metriken der Einschränkungsverletzung.

Erkennung einer Verschlechterung der Vorhersagequalität (Genauigkeit / F1 / RMSE), wenn Ground Truth verzögert eintrifft.

SageMaker Model Monitor — Modellqualität. Führt erfasste Vorhersagen mit verzögerten Ground-Truth-Labels zusammen; alarmiert, wenn Metriken unter die Baseline fallen.

Eingabeverteilung sieht unverändert aus, aber die Vorhersagequalität hat sich verschoben.

SageMaker Clarify Feature Attribution Drift Monitor (SHAP-basiert). Erkennt Concept Drift durch sich verschiebende Feature-Wichtigkeiten. Kombinieren Sie dies mit dem Model Quality Monitor, wenn Ground Truth verfügbar ist.

Genauigkeit ist gesunken, aber die Verteilungen der Eingabefeatures sind unverändert.

Concept Drift (Beziehung zwischen Label und Feature hat sich geändert). Data Drift wurde ausgeschlossen. Lösung: Neu trainieren mit aktuellen gelabelten Daten.

Überprüfen Sie den Datensatz vor dem Training auf Bias.

SageMaker Clarify Pre-Training Bias Metriken. Class Imbalance (CI) für Stichprobengrößen-Ungleichheit; Difference in Positive Proportions of Labels (DPL) für Label-Raten-Ungleichheit; KL/JS-Divergenz für Verteilungslücken.

Überprüfen Sie das trainierte Modell auf Bias.

SageMaker Clarify Post-Training Bias Metriken. Disparate Impact (DI), Accuracy Difference (AD), Conditional Acceptance, Treatment Equality. Gegen Modellvorhersagen ausführen.

Warum: Pre-Train DPL sauber, aber Post-Train DI biased = Modell selbst verstärkt eine Proxy-Variable. Features untersuchen (z.B. Postleitzahl).

Regulator verlangt Feature-Attribution pro Vorhersage.

SageMaker Clarify SHAP-Werte. Größe + Richtung des Beitrags jedes Features pro Vorhersage. Integriert sich mit Model Cards.

Compliance erfordert strukturierte Dokumentation jedes Produktionsmodells (Verwendungszweck, Trainingsdaten, Evaluierung, Ethik, Einschränkungen).

SageMaker Model Cards. Versioniert; integriert mit der Model Registry.

Auditieren, wer welchen Trainingsjob / Endpunkt / Notebook wann erstellt hat.

AWS CloudTrail. Erfasst alle SageMaker API-Aufrufe (Identität, Zeit, IP, Parameter). In S3 speichern, mit Athena abfragen.

Alarm bei Endpunkt 5xx-Fehlern / Latenzspitzen.

CloudWatch-Alarme bei `Invocation5XXErrors`, `Invocation4XXErrors`, `ModelLatency`, `OverheadLatency`. Benachrichtigung via SNS.

Notebook muss Trainingsdaten aus einem S3-Bucket lesen und Artefakte in einen anderen schreiben.

Benutzerdefinierte IAM-Richtlinie: `s3:GetObject` für den Trainings-Bucket/Präfix und `s3:PutObject` für den Artefakte-Bucket/Präfix, angehängt an die SageMaker-Ausführungsrolle. `AmazonS3FullAccess` vermeiden.

Team-spezifische Isolation über SageMaker-Ressourcen hinweg.

Attributbasierte Zugriffskontrolle (ABAC) mit IAM-Bedingung `aws:ResourceTag/project`. Ressourcen mit dem Tag `project=A` sind nur für Rollen zugänglich, deren Richtlinien übereinstimmen.

Trainingsdaten und Modell-Artefakte mit kundenverwalteten Schlüsseln + Rotation verschlüsseln.

SSE-KMS mit einem Customer Managed Key (CMK). KMS-Rotation, Schlüsselrichtlinien, CloudTrail-Audit. Geben Sie den KMS-Schlüssel im Trainingsjob + Endpunktkonfiguration (Volume + Output) an, damit SageMaker ihn verwendet.

Verteiltes Training über mehrere Instanzen; verschlüsseln Sie den Datenverkehr zwischen Trainingscontainern.

Setzen Sie `EnableInterContainerTrafficEncryption=true` für den Trainingsjob. Fügt TLS zwischen verteilten Containern hinzu.

Container dürfen keine ausgehenden Netzwerkaufrufe tätigen; Daten sollten innerhalb der SageMaker-Kopierkanäle bleiben.

Setzen Sie `EnableNetworkIsolation=true` für den Trainings-/Processing-Job oder Endpunkt. SageMaker kopiert S3-Eingabekanäle hinein, bevor der Container läuft; der Container hat keine ausgehende Verbindung.

Training darf das öffentliche Internet nicht berühren.

Führen Sie SageMaker in einem privaten Subnetz ohne NAT/Internet Gateway aus. Fügen Sie VPC-Endpunkte hinzu — Gateway-Endpunkt für S3, Interface-Endpunkte für SageMaker API + Runtime + ECR + STS + CloudWatch Logs.

ML-Pipeline zieht Features aus RDS — Anmeldeinformationen müssen automatisch rotiert werden.

AWS Secrets Manager mit aktivierter automatischer Rotation (eingebaute Lambda-Rotation für RDS).

Durchsetzen, dass alle SageMaker-Ressourcen VPC + KMS + genehmigte Instanztypen verwenden.

Präventiv → SageMaker Service Catalog Produkte (vorab genehmigte Konfigurationen) und IAM-Bedingungsschlüssel (`sagemaker:VpcSecurityGroupIds`, `sagemaker:VolumeKmsKey`), die nicht konforme API-Aufrufe verweigern. Detektiv → AWS Config verwaltete/benutzerdefinierte Regeln.