Guide — C1000-177 IBM Certified watsonx Data Scientist - Associate

Dernière révision : juin 2026

Une référence concise des modèles d'architecture évalués par l'examen C1000-177. Lisez de haut en bas ou sautez à une section.

Évaluer le problème commercial

Un intervenant demande de "trouver des modèles chez les clients" sans résultat étiqueté.

Formuler comme non supervisé (clustering / segmentation). Réserver l'apprentissage supervisé pour quand une variable cible étiquetée existe.

Pourquoi: Pas de colonne cible signifie qu'il n'y a rien à prédire ; forcer une configuration supervisée invente une étiquette et biaise le résultat.

Décider entre prédire l'attrition (oui/non) et prédire les dépenses ($).

L'attrition est une classification binaire ; les dépenses sont une régression. Le type de données de la cible détermine la tâche et la famille de métriques.

Pourquoi: Faire correspondre la tâche à la cible de manière incorrecte produit des métriques dénuées de sens — par ex. RMSE sur une étiquette oui/non.

L'entreprise souhaite "réduire la fraude" mais aucun indicateur de fraude n'existe dans les données.

Définir la cible avant la modélisation — convenir d'une définition opérationnelle de la fraude et étiqueter les enregistrements historiques, ou la traiter comme une détection d'anomalies.

Pourquoi: Un objectif vague sans cible mesurable ne peut pas être modélisé ; la définition de la cible est une décision commerciale, pas technique.

Choisir une métrique de succès pour un modèle de réponse marketing.

Lier la métrique à la valeur commerciale — par ex. précision/rappel au budget de la campagne, ou augmentation prévue des revenus — et non seulement la précision brute.

Pourquoi: La précision peut sembler élevée alors que le modèle manque les répondants rares qui intéressent réellement l'entreprise.

Demandé de séquencer un projet de science des données de bout en bout.

Suivre CRISP-DM : compréhension métier → compréhension des données → préparation des données → modélisation → évaluation → déploiement.

Pourquoi: CRISP-DM est la méthodologie à laquelle IBM s'aligne ; la préparation des données est itérative et représente généralement l'effort le plus important.

La demande est "rapporter les ventes totales du dernier trimestre par région".

Résoudre avec l'agrégation / le reporting BI, pas un modèle. Aucune prédiction n'est requise.

Pourquoi: Les recherches et agrégations déterministes nécessitent des requêtes, pas l'apprentissage automatique ; le fait de le reconnaître évite la suringénierie.

L'objectif nécessite une fonctionnalité que l'organisation ne collecte pas.

Évaluer d'abord la faisabilité en fonction des données disponibles ; redéfinir l'objectif ou commencer la collecte de données avant de promettre un modèle.

Pourquoi: La disponibilité des données limite ce qui est réalisable ; supposer des données idéales mène à des projets irréalisables.

Effectuer une analyse exploratoire des données

Nouvel ensemble de données tabulaires juste chargé dans un bloc-notes.

Commencer avec pandas `df.describe()`, `df.info()` et `df.head()` pour lire les décomptes, les types de données, les plages et les valeurs nulles évidentes.

Pourquoi: Les statistiques récapitulatives révèlent les valeurs manquantes, les types de données erronés et les différences d'échelle avant toute représentation graphique ou modélisation.

Besoin de comprendre la forme d'une seule fonctionnalité numérique.

Utiliser un histogramme ou un tracé KDE pour la forme et un diagramme en boîte pour la dispersion/les valeurs aberrantes.

Pourquoi: La forme de la distribution (asymétrie, modalité) détermine les choix ultérieurs de transformation et de mise à l'échelle.

La fonctionnalité de revenu a une longue queue droite.

La signaler comme asymétrique à droite (moyenne ≫ médiane) ; prévoir une transformation logarithmique ou de puissance pendant le pré-traitement.

Pourquoi: Les entrées asymétriques déforment les modèles basés sur la distance et la variance ; l'identification de l'asymétrie en EDA informe la correction.

Vérifier les relations entre de nombreuses fonctionnalités numériques.

Calculer une matrice de corrélation et la visualiser sous forme de carte thermique ; inspecter les paires avec |r| supérieur à ~0.8.

Pourquoi: Une corrélation par paire élevée signale la redondance et la multicollinéarité potentielle à traiter avant les modèles linéaires.

Le diagramme en boîte montre des points bien au-delà des moustaches.

Quantifier avec la règle de l'IQR (en dessous de Q1−1.5·IQR ou au-dessus de Q3+1.5·IQR) ou le z-score ; investiguer avant de supprimer.

Pourquoi: Les valeurs aberrantes peuvent être des erreurs ou de véritables événements rares — l'EDA les distingue afin de ne pas jeter de signal réel.

Explorer si deux fonctionnalités numériques évoluent ensemble.

Utiliser un nuage de points ; ajouter une ligne de tendance ou une teinte par classe pour révéler la direction, la force et les regroupements.

Pourquoi: Les nuages de points exposent des relations non linéaires qu'un seul coefficient de corrélation masque.

Profiler une colonne catégorielle avec une cardinalité inconnue.

Utiliser `value_counts()` et un diagramme à barres pour voir les fréquences de niveau et les catégories rares.

Pourquoi: Une cardinalité élevée et des niveaux rares modifient la stratégie d'encodage et avertissent du risque de surapprentissage.

Cible binaire avec un équilibre de classes inconnu.

Tracer la distribution de la cible tôt ; noter le ratio de la classe positive (par ex. 3% de fraude).

Pourquoi: Le déséquilibre découvert en EDA dicte le rééchantillonnage et le choix de la métrique (pas la précision) en aval.

Valeurs nulles dispersées sur plusieurs colonnes.

Quantifier les valeurs nulles par colonne (`df.isnull().sum()`) et inspecter si l'absence est aléatoire ou systématique.

Pourquoi: Les schémas "manquant-non-aléatoirement" peuvent véhiculer un signal ; le mécanisme détermine la décision d'imputation.

Le responsable demande "qu'est-ce que l'EDA nous a dit ?" avant la modélisation.

Résumer les problèmes de qualité des données, les fonctionnalités prédictives candidates et les hypothèses à tester — pas seulement des graphiques.

Pourquoi: Le but de l'EDA est de former des hypothèses et de guider les choix de pré-traitement/fonctionnalités, pas de produire des décorations.

Outils et techniques de développement

Organiser un effort de science des données au sein de watsonx.

Créer un projet Watson Studio ; ajouter des données, des blocs-notes et des modèles comme actifs partageant un stockage et un environnement d'exécution communs.

Pourquoi: Les projets sont l'unité de collaboration, de contrôle d'accès et de lignage des actifs dans watsonx.

Référence

Choisir où le code Python s'exécute dans Watson Studio.

Attacher le bloc-notes à un environnement/runtime dimensionné pour la charge de travail ; le libérer lorsqu'il est inactif pour contrôler le coût de calcul.

Pourquoi: Les runtimes consomment des unités de capacité ; le dimensionnement correct équilibre performance et dépenses.

Besoin d'un modèle de base solide rapidement avec un temps limité.

Exécuter une expérience AutoAI ; elle sélectionne automatiquement les algorithmes, génère des pipelines et les classe sur un tableau de bord.

Pourquoi: AutoAI accélère l'établissement des bases et l'ingénierie des fonctionnalités ; vous validez et affinez toujours le meilleur pipeline.

Référence

Les parties prenantes préfèrent un pipeline visuel et à faible code plutôt que des blocs-notes.

Construire un flux SPSS Modeler — des nœuds glisser-déposer pour l'importation, la préparation, la modélisation et la notation.

Pourquoi: Modeler convient aux équipes qui ont besoin de pipelines transparents et à faible code ; les blocs-notes conviennent à la personnalisation axée sur le code.

Choisir des bibliothèques pour une analyse axée sur le code.

Utiliser pandas/NumPy pour les données, scikit-learn pour la modélisation, matplotlib/seaborn pour les tracés — la pile par défaut de watsonx.

Pourquoi: Ces bibliothèques sont préinstallées dans les runtimes de Watson Studio et sont supposées par l'examen.

Un coéquipier doit réexécuter votre analyse le trimestre prochain.

Versionner les blocs-notes et les données comme actifs de projet, épingler les versions de bibliothèque et documenter l'environnement d'exécution.

Pourquoi: La reproductibilité dépend du code, des données et de l'environnement capturés — pas d'une session locale ponctuelle.

Pré-traitement et ingénierie des fonctionnalités

Mettre à l'échelle les fonctionnalités avant de les diviser en train/test.

Diviser d'abord, puis ajuster les transformateurs uniquement sur l'ensemble d'entraînement et les appliquer (`transform`) à l'ensemble de test. Envelopper les étapes dans un scikit-learn Pipeline.

Pourquoi: L'ajustement sur l'ensemble de données complet introduit des statistiques de test dans l'entraînement et gonfle les scores d'évaluation.

Une colonne numérique a 8% de valeurs manquantes.

Imputer avec la médiane (robuste à l'asymétrie) via `SimpleImputer` ; considérer un indicateur de valeurs manquantes.

Pourquoi: La médiane résiste aux valeurs aberrantes ; un indicateur préserve le signal lorsque l'absence elle-même est informative.

Une colonne catégorielle présente des lacunes.

Imputer avec le mode ou une catégorie explicite "Inconnu" / "Manquant".

Pourquoi: Une catégorie explicite conserve le modèle d'absence comme un signal utilisable plutôt que de supprimer des lignes.

Fonctionnalité nominale à faible cardinalité (par ex. région avec 5 valeurs).

Appliquer un encodage one-hot (`OneHotEncoder`) ; supprimer une colonne si le modèle n'a pas besoin de colinéarité.

Pourquoi: L'encodage one-hot évite d'imposer un faux ordre sur les catégories nominales ; la suppression d'un niveau évite le piège des variables muettes.

La fonctionnalité a un ordre naturel (faible / moyen / élevé).

Utiliser un encodage ordinal qui préserve le rang.

Pourquoi: L'encodage one-hot ignorerait l'ordre ; l'encodage tenant compte du rang permet au modèle de l'exploiter.

Catégorique avec des milliers de niveaux (par ex. code postal).

Utiliser l'encodage par cible/fréquence ou le regroupement plutôt que l'encodage one-hot.

Pourquoi: L'encodage one-hot fait exploser la dimensionnalité ; l'encodage par cible est compact mais doit être ajusté à l'intérieur de la CV pour éviter les fuites.

Les fonctionnalités couvrent des échelles très différentes avant un modèle basé sur la distance.

StandardScaler (moyenne nulle, variance unitaire) pour les fonctionnalités approximativement gaussiennes ; MinMaxScaler pour borner [0,1].

Pourquoi: KNN, SVM, PCA, et la descente de gradient sont sensibles à l'échelle ; les modèles arborescents ne le sont pas.

Une fonctionnalité positive asymétrique à droite nuit à un modèle linéaire.

Appliquer une transformation logarithmique ou de puissance Box-Cox/Yeo-Johnson pour compresser la queue.

Pourquoi: Réduire l'asymétrie stabilise la variance et linéarise les relations pour les modèles linéaires et basés sur la distance.

Vouloir capturer un effet d'âge non linéaire dans un modèle linéaire.

Binariser la fonctionnalité continue en plages (largeur égale ou quantile) et la traiter comme catégorielle.

Pourquoi: Le binnage permet aux modèles linéaires de capturer les changements par étapes, au prix d'une certaine perte d'informations.

Les valeurs extrêmes authentiques déstabilisent l'entraînement du modèle.

Limiter/winsoriser à un percentile ou utiliser un scaler robuste ; supprimer uniquement les erreurs confirmées.

Pourquoi: Le capping limite l'influence des extrêmes tout en conservant les enregistrements ; la suppression perd le signal réel des événements rares.

La classe positive ne représente que 3% des lignes d'entraînement.

Rééchantillonner — SMOTE/suréchantillonner la minorité ou sous-échantillonner la majorité — en ajustant uniquement sur le pli d'entraînement ; ou définir des poids de classe.

Pourquoi: Équilibrer l'ensemble de test donnerait une fausse lecture ; le rééchantillonnage doit se faire à l'intérieur du pipeline d'entraînement.

Les horodatages et montants bruts sous-performent.

Construire des fonctionnalités — jour de la semaine, temps écoulé depuis le dernier événement, ratios, agrégats par client.

Pourquoi: Les fonctionnalités dérivées informées par le domaine ajoutent souvent plus de gain que de changer l'algorithme.

Des centaines de fonctionnalités, beaucoup redondantes ou bruitées.

Sélectionner via des méthodes de filtre (corrélation/information mutuelle), d'enveloppe (RFE) ou intégrées (L1/importances des arbres).

Pourquoi: Moins de fonctionnalités pertinentes réduisent le surapprentissage, le coût d'entraînement et améliorent l'interprétabilité.

De nombreuses fonctionnalités numériques corrélées ralentissent l'entraînement et surapprennent.

Appliquer PCA pour projeter sur les principales composantes capturant la majeure partie de la variance ; mettre à l'échelle d'abord.

Pourquoi: PCA élimine la multicollinéarité et compresse la dimensionnalité, échangeant une certaine interprétabilité contre la stabilité.

Plusieurs étapes de pré-traitement doivent s'appliquer identiquement à l'entraînement et au service.

Enchaîner les imputeurs, les encodeurs et les scalers dans un `Pipeline` / `ColumnTransformer` ajusté uniquement sur les données d'entraînement.

Pourquoi: Un seul pipeline ajusté garantit des transformations cohérentes et empêche les fuites entre les plis.

Référence

Une colonne de date brute ajoute peu de valeur prédictive.

Décomposer en année, mois, jour de la semaine, est-week-end et encodages cycliques sin/cos.

Pourquoi: Les modèles ne peuvent pas lire la sémantique du calendrier à partir d'un horodatage brut ; les parties explicites exposent la saisonnalité.

Sélection, entraînement et évaluation du modèle

Besoin d'une estimation honnête de la généralisation.

Diviser en entraînement / validation / test ; optimiser sur la validation, rapporter les chiffres finaux sur l'ensemble de test non touché.

Pourquoi: Réutiliser l'ensemble de test pour l'optimisation divulgue des informations et surestime les performances réelles.

Un petit ensemble de données rend une seule division peu fiable.

Utiliser la validation croisée k-fold (stratifiée pour la classification) pour moyenner les performances sur les plis.

Pourquoi: La CV donne une estimation à variance plus faible et utilise toutes les données pour l'entraînement et la validation.

Précision d'entraînement élevée, précision de test faible.

Diagnostiquer le surapprentissage (variance élevée) ; ajouter de la régularisation, simplifier le modèle ou obtenir plus de données.

Pourquoi: L'opposé — les deux scores faibles — est le sous-apprentissage (biais élevé), nécessitant un modèle ou des fonctionnalités plus riches.

Le modèle de fraude signale 97% de précision mais manque la plupart des fraudes.

Utiliser la précision, le rappel, F1 et ROC-AUC / PR-AUC au lieu de la précision.

Pourquoi: Sur des cibles déséquilibrées, une prédiction majoritaire constante obtient une grande précision tout en étant inutile.

Besoin de voir où un classifieur fait des erreurs.

Lire la matrice de confusion ; en déduire la précision (coût des FP) et le rappel (coût des FN).

Pourquoi: Le bon seuil dépend de savoir si les faux positifs ou les faux négatifs sont plus coûteux.

Évaluer un modèle à cible continue.

Rapporter RMSE/MAE pour l'amplitude de l'erreur et R² pour la variance expliquée ; choisir RMSE lorsque les erreurs importantes comptent le plus.

Pourquoi: RMSE pénalise davantage les erreurs importantes que MAE ; R² seul peut induire en erreur sur les ajustements non linéaires.

Les paramètres de modèle par défaut laissent des performances inexploitées.

Optimiser avec une recherche par grille ou aléatoire sous validation croisée ; préférer l'aléatoire pour les grands espaces de recherche.

Pourquoi: La recherche aléatoire trouve de bonnes régions plus rapidement que les grilles exhaustives lorsque de nombreux paramètres interagissent.

Comparer plusieurs pipelines candidats d'AutoAI.

Classer sur le tableau de bord AutoAI selon la métrique choisie, puis valider le meilleur pipeline sur des données de rétention avant le déploiement.

Pourquoi: Le tableau de bord accélère la sélection, mais le choix final doit être valable sur des données non touchées.