Wählen Sie ein visuelles Datenvorbereitungstool.
→ML-fokussiert, Integration mit SageMaker Studio + Flow → Processing Job → Pipeline → Notebook-Export → SageMaker Data Wrangler. Generische Datenbereinigung mit wiederverwendbaren Rezepten, Profiling, keine SageMaker-Abhängigkeit → AWS Glue DataBrew. 50 TB+ Spark mit benutzerdefiniertem Code → Amazon EMR.
Warum: Data Wrangler ist die SageMaker-native Option (300+ Transformationen, Datums-/Uhrzeit-Extraktion, Exporte zu Pipeline/Processing). DataBrew ist rezeptbasiert und quellunabhängig. EMR handhabt Skalierung und beliebige Spark-Anwendungen.
Referenz↗
Katalogisieren Sie Daten über S3, RDS, DynamoDB hinweg, damit Analysten und SageMaker Datensätze entdecken können.
→AWS Glue Crawlers füllen den AWS Glue Data Catalog mit Schemata + Metadaten. Athena, Redshift Spectrum und SageMaker nutzen dies.
Referenz↗
Benötigen Sie eine Spalten- und Zeilen-basierte Zugriffskontrolle auf dem Data Lake mit Audit-Protokollierung.
→AWS Lake Formation. IAM- und S3-Bucket-Richtlinien bieten keine spaltenbasierte Granularität für strukturierte Daten.
Warum: Lake Formation zentralisiert die Governance für den Glue Data Catalog und integriert sich mit CloudTrail für Audit-Zwecke.
Referenz↗
Führen Sie Ad-hoc-SQL auf S3-Daten aus, ohne etwas bereitzustellen.
→Amazon Athena. Serverless, Abrechnung pro gescanntem TB. Partitionieren Sie Daten und verwenden Sie Parquet, um Kosten und Zeit zu sparen.
Referenz↗
50 TB Feature Engineering mit bestehendem PySpark-Code, muss in 4 Stunden abgeschlossen sein.
→Amazon EMR mit Spark. Anpassbare Clustergröße, Spot-Unterstützung, führt den bestehenden Code unverändert aus.
Warum: Glue ETL führt ebenfalls Spark aus, aber EMR bietet mehr Kontrolle über die Clusterform; SageMaker Processing ist für kleinere Single-Container-Jobs gedacht.
Referenz↗
Führen Sie ein benutzerdefiniertes scikit-learn / pandas Vorverarbeitungsskript vor dem Training aus. Ephemerer Compute, keine Leerlaufkosten.
→SageMaker Processing Job mit dem SKLearn (oder PySpark) Container. Stellt bereit, führt aus, beendet.
Warum: Besser als die Ausführung auf einem Notebook (bleibt aktiv, kostet Geld) oder Lambda (15-Minuten-Limit, Speicherbegrenzung).
Referenz↗
100.000 Bilder kosteneffizient beschriften — menschliche + automatisierte Beschriftung gewünscht.
→Amazon SageMaker Ground Truth mit aktivierter automatischer Datenbeschriftung. Nach einem anfänglichen, von Menschen beschrifteten Teilsatz trainiert Ground Truth ein Modell und beschriftet Stichproben mit hoher Konfidenz automatisch.
Warum: Aktives Lernen senkt die Beschriftungskosten typischerweise um bis zu 70%. A2I ist für die menschliche Überprüfung von Modellvorhersagen gedacht, nicht für die Massenbeschriftung.
Referenz↗
Mehrere Annotatoren sind sich uneinig; ein erfahrener Prüfer muss eine Stichprobe von Labels verifizieren.
→Ground Truth Label-Verifizierungs-(Audit)-Workflow. Ein Teilsatz von Labels wird an eine Überprüfungsarbeitskraft weitergeleitet, die diese genehmigt, ablehnt oder anpasst. Kombinieren Sie dies mit Annotation Consolidation für Mehrheitsentscheidungen mehrerer Mitarbeiter.
Referenz↗
Dieselben konstruierten Features werden beim Training (Batch) und bei der Inferenz (unter 10 ms) benötigt.
→Amazon SageMaker Feature Store mit aktivierten Online- und Offline-Speichern in der Feature-Gruppe. Der Online-Speicher unterstützt Echtzeit-GetRecord; der Offline-Speicher (Parquet in S3) unterstützt das Training.
Warum: Eliminiert Train/Serve Skew ohne eine benutzerdefinierte DynamoDB ↔ S3 Synchronisation.
Referenz↗
Definieren einer Feature-Gruppe — was ist obligatorisch.
→Datensatz-Identifikatorname (eindeutiger Schlüssel pro Datensatz) und Ereigniszeit-Featurename (Zeitstempel für Point-in-Time-Abfragen).
Referenz↗
Zwei Feature-Gruppen für das Training verbinden, ohne zukünftige Feature-Werte preiszugeben.
→Point-in-Time-Join gegen den Offline-Speicher unter Verwendung der Ereigniszeitspalte. Jede Trainingszeile sieht nur Feature-Werte, die zum Zeitpunkt ihres Ereignis-Zeitstempels existierten.
Warum: Ein einfacher JOIN auf die neuesten Werte führt zu Datenlecks, indem er dem Modell nach dem Ereignis aufgetretene Feature-Drift offenbart.
Referenz↗
Wählen Sie einen SageMaker Trainingsdaten-Eingabemodus für einen 500 GB Datensatz.
→Dateimodus → gesamter Datensatz wird zuerst heruntergeladen (langsamer Start, EBS-Kosten). Pipe-Modus → Streams von S3, geringer Startaufwand, geringer Speicherbedarf. FastFile-Modus → Lazy-Streaming auf Dateiebene. Verwenden Sie Pipe (oder FastFile) für große Datensätze, um den Download zu vermeiden.
Referenz↗
Millionen kleiner Dateien (jeweils ~50 KB) — der Pipe-Modus-Durchsatz ist schlecht.
→Bündeln Sie in Amazon RecordIO (protobuf) und streamen Sie über den Pipe-Modus. Sequentielle Datensätze eliminieren den S3-GET-Overhead pro Datei.
Referenz↗
Wählen Sie ein Speicherformat und Layout für ML Data Lake auf S3 mit häufigen Spalten-Teilmengenlesevorgängen + Partitionsfiltern.
→Parquet (spaltenbasiert, komprimiert), partitioniert nach der am häufigsten gefilterten Spalte (z.B. Datum oder Region). Fördert Spalten-Pruning + Partitions-Pruning in Athena und SageMaker.
Referenz↗
Glue ETL verarbeitet bei jedem Durchlauf bereits bearbeitete Dateien erneut.
→Aktivieren Sie Glue Job Bookmarks. Verwenden Sie die PAUSE-Option, damit ein fehlgeschlagener Lauf das Lesezeichen nicht vorrückt; nur bei Bedarf zurücksetzen.
Referenz↗
Validieren Sie Schema, Typen, Wertebereiche und Null-Constraints innerhalb der Glue ETL Pipeline.
→AWS Glue Data Quality mit DQDL-Regeln. Stoppt die Pipeline, wenn Überprüfungen fehlschlagen.
Referenz↗
Kategorische Features kodieren. Einige sind geordnet (Basic/Standard/Premium), andere nicht (US-Bundesstaaten).
→Geordnet → ordinale Kodierung (bewahrt Rang). Ungeordnet → One-Hot-Kodierung (vermeidet falsche Ordinalität). Vermeiden Sie Label-Kodierung bei ungeordneten Features. Target-Kodierung erfordert sorgfältiges CV, um Leckagen zu vermeiden.
Numerische Spalte weist fehlende Werte auf, die mit einem anderen Feature korrelieren (z.B. fehlendes Einkommen hängt vom Beschäftigungstyp ab).
→Gruppenbasierte Median-Imputation (Median pro Beschäftigungstyp). Bewahrt die Beziehung; der Mittelwert ist anfällig für Ausreißer; das Weglassen führt zu Datenverlust; Null fügt Bias hinzu.
Binäre Klassifikation mit 0,3% positiver Klasse.
→SMOTE Oversampling nur auf dem Trainings-Fold (nach dem Split). Kombinieren Sie dies mit PR-Kurven- / F1-Evaluierung, nicht mit Genauigkeit.
Warum: Wenden Sie Oversampling NACH dem Splitting an, um Leckagen zu vermeiden. Genauigkeit ist bei unausgewogenen Daten irreführend.
Rechtsschiefe numerische Features (z.B. Einkommen) beeinträchtigen die Leistung linearer Modelle.
→Log-Transformation. Komprimiert den rechten Schwanz und erzeugt eine symmetrischere Verteilung. Standardisierung/Min-Max ändern die Skala, nicht die Form.
50 hochkorrelierte Features; gewünscht ist eine geringere Dimensionalität unter Beibehaltung der Varianz.
→PCA. Transformiert korrelierte Features in unkorrelierte Hauptkomponenten, die nach Varianz geordnet sind.
Wählen Sie einen Train/Val/Test-Split.
→Unausgewogene Klassifikation → stratifizierter Split (bewahrt Klassenverhältnis). Zeitreihen → chronologischer Split (Training auf früherer Periode, Test auf neuester); niemals zufälliges Mischen. IID tabellarisch → zufällig.