Choisir un outil visuel de préparation des données.
→Orienté ML, s'intègre avec SageMaker Studio + flux → Tâche de traitement → Pipeline → Export de notebook → SageMaker Data Wrangler. Nettoyage de données générique avec des recettes réutilisables, profilage, sans dépendance SageMaker → AWS Glue DataBrew. Plus de 50 To Spark avec du code personnalisé → Amazon EMR.
Pourquoi: Data Wrangler est l'option native de SageMaker (plus de 300 transformations, extraction de date/heure, export vers Pipeline/Processing). DataBrew est basé sur des recettes et indépendant de la source. EMR gère la mise à l'échelle et Spark arbitraire.
Référence↗
Cataloguer des données entre S3, RDS, DynamoDB afin que les analystes et SageMaker puissent découvrir des ensembles de données.
→Les AWS Glue Crawlers remplissent l'AWS Glue Data Catalog avec des schémas et des métadonnées. Athena, Redshift Spectrum et SageMaker le consomment tous.
Référence↗
Nécessite un contrôle d'accès au niveau des colonnes et des lignes sur le lac de données avec journalisation d'audit.
→AWS Lake Formation. Les politiques IAM et S3 bucket ne fournissent pas une granularité au niveau des colonnes sur les données structurées.
Pourquoi: Lake Formation centralise la gouvernance pour le Glue Data Catalog et s'intègre avec CloudTrail pour l'audit.
Référence↗
Exécuter du SQL ad-hoc sur des données S3 sans provisionner quoi que ce soit.
→Amazon Athena. Sans serveur, paiement au téraoctet scanné. Partitionner les données et utiliser Parquet pour réduire les coûts et le temps.
Référence↗
50 To d'ingénierie de fonctionnalités avec du code PySpark existant, doit être terminé en 4 heures.
→Amazon EMR avec Spark. Taille de cluster ajustable, support Spot, exécute le code existant sans modification.
Pourquoi: Glue ETL exécute également Spark, mais EMR offre plus de contrôle sur la forme du cluster ; SageMaker Processing est destiné aux tâches à conteneur unique de plus petite échelle.
Référence↗
Exécuter un script de prétraitement scikit-learn / pandas personnalisé avant l'entraînement. Calcul éphémère, pas de coût d'inactivité.
→Tâche de SageMaker Processing avec le conteneur SKLearn (ou PySpark). Provisionne, exécute, termine.
Pourquoi: Mieux que l'exécution sur un notebook (reste actif, coûte de l'argent) ou Lambda (limite de 15 minutes, plafonds de mémoire).
Référence↗
Étiqueter 100 000 images de manière rentable — souhaite un étiquetage humain + automatisé.
→Amazon SageMaker Ground Truth avec l'étiquetage automatisé des données activé. Après un sous-ensemble initial étiqueté par des humains, Ground Truth entraîne un modèle et auto-étiquette les échantillons à haute confiance.
Pourquoi: L'apprentissage actif réduit généralement les coûts d'étiquetage jusqu'à 70 %. A2I est pour la révision humaine des prédictions de modèle, pas pour l'étiquetage en masse.
Référence↗
Plusieurs annotateurs ne sont pas d'accord ; besoin d'un réviseur senior pour vérifier un échantillon d'étiquettes.
→Flux de travail de vérification (audit) d'étiquettes Ground Truth. Un sous-ensemble d'étiquettes est acheminé vers une équipe de révision qui approuve, rejette ou ajuste. À combiner avec la consolidation d'annotations pour le vote majoritaire multi-travailleurs.
Référence↗
Mêmes fonctionnalités d'ingénierie nécessaires à l'entraînement (batch) et à l'inférence (moins de 10 ms).
→Amazon SageMaker Feature Store avec les magasins en ligne + hors ligne activés sur le groupe de fonctionnalités. Le magasin en ligne prend en charge GetRecord en temps réel ; le magasin hors ligne (Parquet dans S3) prend en charge l'entraînement.
Pourquoi: Élimine le biais entraînement/service sans synchronisation DynamoDB ↔ S3 personnalisée.
Référence↗
Définir un groupe de fonctionnalités — ce qui est obligatoire.
→Nom de l'identifiant d'enregistrement (clé unique par enregistrement) et nom de la fonctionnalité d'heure d'événement (horodatage pour les requêtes ponctuelles).
Référence↗
Joindre deux groupes de fonctionnalités pour l'entraînement sans divulguer les futures valeurs de fonctionnalités.
→Jointure ponctuelle sur le magasin hors ligne en utilisant la colonne d'heure d'événement. Chaque ligne d'entraînement ne voit que les valeurs de fonctionnalité qui existaient à son horodatage d'événement.
Pourquoi: Une simple jointure sur les dernières valeurs provoque une fuite de données en exposant la dérive des fonctionnalités post-événement au modèle.
Référence↗
Choisir un mode d'entrée de données d'entraînement SageMaker pour un ensemble de données de 500 Go.
→Mode fichier → ensemble de données entier téléchargé en premier (démarrage lent, coût EBS). Mode Pipe → flux depuis S3, démarrage rapide, faible stockage. Mode FastFile → streaming paresseux au niveau du fichier. Utiliser Pipe (ou FastFile) pour les grands ensembles de données afin d'éviter le téléchargement.
Référence↗
Des millions de petits fichiers (chacun ~50 Ko) — le débit en mode Pipe est faible.
→Regrouper en Amazon RecordIO (protobuf) et diffuser via le mode Pipe. Les enregistrements séquentiels éliminent la surcharge S3 GET par fichier.
Référence↗
Choisir un format de stockage et une disposition pour un lac de données ML sur S3 avec des lectures fréquentes de sous-ensembles de colonnes + filtres de partition.
→Parquet (colonnaire, compressé) partitionné par la colonne la plus filtrée (par exemple, date ou région). Permet l'élagage des colonnes + l'élagage des partitions dans Athena et SageMaker.
Référence↗
Glue ETL retraite les fichiers déjà traités à chaque exécution.
→Activer les signets de tâche Glue. Utiliser l'option PAUSE pour qu'une exécution échouée n'avance pas le signet ; réinitialiser uniquement si nécessaire.
Référence↗
Valider le schéma, les types, les plages de valeurs et les contraintes de nullité dans le pipeline Glue ETL.
→AWS Glue Data Quality avec des règles DQDL. Arrête le pipeline lorsque les vérifications échouent.
Référence↗
Encoder des fonctionnalités catégorielles. Certaines sont ordonnées (Basique/Standard/Premium), d'autres non (États américains).
→Ordonnées → encodage ordinal (préserve le rang). Non ordonnées → encodage one-hot (évite la fausse ordinalité). Éviter l'encodage d'étiquettes sur les fonctionnalités non ordonnées. L'encodage cible nécessite une CV attentive pour éviter les fuites.
Une colonne numérique a des valeurs manquantes qui sont corrélées à une autre fonctionnalité (par exemple, le revenu manquant dépend du type d'emploi).
→Imputation médiane basée sur les groupes (médiane par type d'emploi). Préserve la relation ; la moyenne est sensible aux valeurs aberrantes ; la suppression perd des données ; zéro ajoute un biais.
Classification binaire avec une classe positive de 0,3 %.
→Suréchantillonnage SMOTE uniquement sur le pli d'entraînement (après division). À combiner avec l'évaluation PR-curve / F1, pas la précision.
Pourquoi: Appliquer le suréchantillonnage APRÈS la division pour éviter les fuites. La précision est trompeuse sur des données déséquilibrées.
Une fonctionnalité numérique asymétrique à droite (par exemple, le revenu) nuit aux performances des modèles linéaires.
→Transformation logarithmique. Compresse la queue droite et produit une distribution plus symétrique. La standardisation/min-max modifie l'échelle, pas la forme.
50 fonctionnalités fortement corrélées ; souhaite une dimensionnalité inférieure préservant la variance.
→PCA. Transforme les fonctionnalités corrélées en composantes principales non corrélées classées par variance.
Choisir une stratégie de division entraînement/validation/test.
→Classification déséquilibrée → division stratifiée (préserve le ratio de classes). Séries temporelles → division chronologique (entraînement sur la période précoce, test sur la plus récente) ; jamais de mélange aléatoire. Tabulaire IID → aléatoire.