Handbuch — C1000-177 IBM Certified watsonx Data Scientist - Associate

Zuletzt überprüft: Juni 2026

Eine übersichtliche Referenz der Architekturmuster, die in der C1000-177-Prüfung getestet werden. Von oben nach unten lesen oder zu einem Abschnitt springen.

Bewerten des Geschäftsproblems

Stakeholder bittet darum, "Muster in Kunden zu finden" ohne gekennzeichnetes Ergebnis.

Als unüberwachtes Lernen (Clustering / Segmentierung) einordnen. Überwachtes Lernen für den Fall reservieren, dass eine gekennzeichnete Zielvariable vorhanden ist.

Warum: Keine Zielspalte bedeutet, dass nichts vorherzusagen ist; ein erzwungenes überwachtes Setup erfindet ein Label und verfälscht das Ergebnis.

Entscheidung zwischen der Vorhersage von Abwanderung (Ja/Nein) und der Vorhersage von Ausgaben ($).

Abwanderung ist binäre Klassifikation; Ausgaben sind Regression. Der Datentyp des Ziels bestimmt die Aufgabe und die Metrikfamilie.

Warum: Eine Nichtübereinstimmung der Aufgabe mit dem Ziel führt zu bedeutungslosen Metriken – z.B. RMSE bei einem Ja/Nein-Label.

Das Unternehmen möchte "Betrug reduzieren", aber in den Daten ist kein Betrugs-Flag vorhanden.

Das Ziel vor der Modellierung definieren – eine operative Betrugsdefinition vereinbaren und historische Datensätze kennzeichnen, oder es als Anomalieerkennung behandeln.

Warum: Ein vages Ziel ohne messbares Target kann nicht modelliert werden; die Target-Definition ist eine Geschäftsentscheidung, keine technische.

Auswahl einer Erfolgsmetrik für ein Marketing-Response-Modell.

Die Metrik an den Geschäftswert koppeln – z.B. Präzision/Recall beim Kampagnenbudget oder erwartete Umsatzsteigerung – nicht nur die rohe Genauigkeit.

Warum: Die Genauigkeit kann hoch erscheinen, während das Modell die seltenen Responder übersieht, die das Unternehmen tatsächlich interessieren.

Aufforderung, ein Data-Science-Projekt von Anfang bis Ende zu sequenzieren.

CRISP-DM folgen: Geschäftsproblem verstehen → Daten verstehen → Datenaufbereitung → Modellierung → Bewertung → Bereitstellung.

Warum: CRISP-DM ist die Methodik, der sich IBM anschließt; die Datenaufbereitung ist iterativ und typischerweise der größte Aufwand.

Anfrage lautet "Gesamtumsatz des letzten Quartals nach Region berichten".

Mit Aggregation / BI-Reporting lösen, nicht mit einem Modell. Keine Vorhersage erforderlich.

Warum: Deterministische Suchen und Aggregationen erfordern Abfragen, kein maschinelles Lernen; dies zu erkennen, vermeidet Over-Engineering.

Das Ziel erfordert ein Feature, das die Organisation nicht sammelt.

Zuerst die Machbarkeit anhand der verfügbaren Daten prüfen; das Ziel reduzieren oder mit der Datenerfassung beginnen, bevor ein Modell versprochen wird.

Warum: Die Datenverfügbarkeit begrenzt das Machbare; die Annahme idealer Daten führt zu nicht lieferbaren Projekten.

Durchführen einer explorativen Datenanalyse

Neuer tabellarischer Datensatz gerade in ein Notebook geladen.

Beginnen Sie mit pandas `df.describe()`, `df.info()` und `df.head()`, um Zählwerte, Datentypen, Bereiche und offensichtliche Nullwerte zu lesen.

Warum: Zusammenfassende Statistiken zeigen fehlende Werte, falsche Datentypen und Skalenunterschiede vor jeglicher Plotting oder Modellierung auf.

Müssen die Form eines einzelnen numerischen Features verstehen.

Verwenden Sie ein Histogramm oder einen KDE-Plot für die Form und einen Boxplot für Streuung/Ausreißer.

Warum: Die Verteilungsform (Schiefe, Modalität) beeinflusst spätere Transformations- und Skalierungsentscheidungen.

Das Einkommens-Feature hat eine lange rechte Ausprägung.

Als rechtsschief kennzeichnen (Mittelwert ≫ Median); eine Log- oder Potenztransformation während der Vorverarbeitung planen.

Warum: Schiefe Eingaben verzerren distanz- und varianzbasierte Modelle; die Identifizierung der Schiefe in der EDA informiert über die Korrektur.

Überprüfung der Beziehungen zwischen vielen numerischen Features.

Eine Korrelationsmatrix berechnen und als Heatmap visualisieren; Paare mit |r| über ~0.8 inspizieren.

Warum: Eine hohe paarweise Korrelation kennzeichnet Redundanz und potenzielle Multikollinearität, die vor linearen Modellen berücksichtigt werden müssen.

Boxplot zeigt Punkte weit außerhalb der Whisker.

Mit der IQR-Regel (unter Q1−1.5·IQR oder über Q3+1.5·IQR) oder Z-Score quantifizieren; vor dem Löschen untersuchen.

Warum: Ausreißer können Fehler oder echte seltene Ereignisse sein – EDA unterscheidet sie, damit Sie kein echtes Signal verwerfen.

Untersuchung, ob sich zwei numerische Features gemeinsam bewegen.

Verwenden Sie ein Streudiagramm; fügen Sie eine Trendlinie oder eine Farbgebung nach Klasse hinzu, um Richtung, Stärke und Gruppierungen aufzuzeigen.

Warum: Streudiagramme decken nicht-lineare Beziehungen auf, die ein einzelner Korrelationskoeffizient verbirgt.

Profilierung einer kategorialen Spalte mit unbekannter Kardinalität.

Verwenden Sie `value_counts()` und ein Balkendiagramm, um die Häufigkeiten der Stufen und seltene Kategorien zu sehen.

Warum: Hohe Kardinalität und seltene Stufen ändern die Kodierungsstrategie und warnen vor dem Risiko des Overfitting.

Binäres Ziel mit unbekannter Klassenbalance.

Die Zieldistribution frühzeitig plotten; das Verhältnis der positiven Klasse notieren (z.B. 3% Betrug).

Warum: In der EDA entdeckte Imbalance diktiert die Resampling- und Metrikauswahl (nicht Genauigkeit) nachfolgend.

Nullwerte über mehrere Spalten verstreut.

Nullwerte pro Spalte (`df.isnull().sum()`) quantifizieren und prüfen, ob die Fehlwerte zufällig oder systematisch sind.

Warum: Muster, die nicht zufällig fehlen, können ein Signal tragen; der Mechanismus steuert die Imputationsentscheidung.

Manager fragt "Was hat uns die EDA gesagt?" vor der Modellierung.

Datenqualitätsprobleme, prädiktive Kandidaten-Features und zu testende Hypothesen zusammenfassen – nicht nur Diagramme.

Warum: Der Zweck der EDA ist es, Hypothesen zu bilden und Vorverarbeitungs-/Feature-Entscheidungen zu leiten, nicht Dekorationen zu produzieren.

Entwicklungstools und -techniken

Organisation einer Data-Science-Anstrengung innerhalb von watsonx.

Ein Watson Studio-Projekt erstellen; Daten, Notebooks und Modelle als Assets hinzufügen, die einen gemeinsamen Speicher und eine Laufzeit nutzen.

Warum: Projekte sind die Einheit für Zusammenarbeit, Zugriffskontrolle und Asset-Lineage in watsonx.

Referenz

Auswahl, wo Python-Code in Watson Studio ausgeführt wird.

Das Notebook an eine für die Arbeitslast dimensionierte Umgebung/Laufzeit anhängen; es freigeben, wenn es inaktiv ist, um die Rechenkosten zu kontrollieren.

Warum: Laufzeiten verbrauchen Kapazitätseinheiten; die richtige Dimensionierung gleicht Leistung und Ausgaben aus.

Benötigen schnell ein starkes Baseline-Modell mit begrenzter Zeit.

Ein AutoAI-Experiment ausführen; es wählt Algorithmen automatisch aus, generiert Pipelines und bewertet sie in einem Leaderboard.

Warum: AutoAI beschleunigt die Baseline-Erstellung und das Feature Engineering; die Top-Pipeline muss jedoch noch validiert und verfeinert werden.

Referenz

Stakeholder bevorzugen eine visuelle Low-Code-Pipeline gegenüber Notebooks.

Einen SPSS Modeler Flow erstellen – Drag-and-Drop-Knoten für Import, Vorbereitung, Modellierung und Scoring.

Warum: Modeler eignet sich für Teams, die transparente, code-arme Pipelines benötigen; Notebooks eignen sich für code-first Anpassungen.

Auswahl von Bibliotheken für eine Code-First-Analyse.

pandas/NumPy für Daten, scikit-learn für die Modellierung, matplotlib/seaborn für Plots verwenden – der watsonx Standard-Stack.

Warum: Diese Bibliotheken sind in den Watson Studio Laufzeiten vorinstalliert und werden von der Prüfung vorausgesetzt.

Ein Teamkollege muss Ihre Analyse im nächsten Quartal erneut ausführen.

Notebooks und Daten als Projekt-Assets versionieren, Bibliotheksversionen festlegen und die Laufzeit dokumentieren.

Warum: Reproduzierbarkeit hängt von erfasstem Code, Daten und Umgebung ab – nicht von einer einmaligen lokalen Sitzung.

Vorverarbeitung und Feature Engineering

Skalierung von Features vor der Aufteilung in Trainings-/Testdatensätze.

Zuerst aufteilen, dann Transformer nur auf Trainingsdaten fitten und auf Testdaten anwenden (`transform`). Schritte in einer scikit-learn Pipeline zusammenfassen.

Warum: Das Fitten auf dem vollständigen Datensatz lässt Teststatistiken in das Training einfließen und erhöht die Bewertungsergebnisse.

Eine numerische Spalte hat 8% fehlende Werte.

Mit dem Median (robust gegenüber Schiefe) über `SimpleImputer` imputieren; ein Missing-Indicator-Flag in Betracht ziehen.

Warum: Der Median ist resistent gegenüber Ausreißern; ein Indikator bewahrt das Signal, wenn das Fehlen selbst informativ ist.

Eine kategoriale Spalte hat Lücken.

Mit dem Modus oder einer expliziten "Unbekannt" / "Fehlend" Kategorie imputieren.

Warum: Eine explizite Kategorie behält das Muster des Fehlens als nutzbares Signal bei, anstatt Zeilen zu verwerfen.

Nominales Feature mit niedriger Kardinalität (z.B. Region mit 5 Werten).

One-Hot-Encoding (`OneHotEncoder`) anwenden; eine Spalte entfernen, wenn das Modell keine Kollinearität benötigt.

Warum: One-Hot vermeidet die Auferlegung einer falschen Reihenfolge auf nominale Kategorien; das Entfernen einer Stufe verhindert die Dummy-Falle.

Feature hat eine natürliche Reihenfolge (niedrig / mittel / hoch).

Ordnungs-Encoding verwenden, das den Rang bewahrt.

Warum: One-Hot würde die Reihenfolge verwerfen; rangbewusstes Encoding ermöglicht es dem Modell, diese auszunutzen.

Kategorial mit Tausenden von Stufen (z.B. Postleitzahl).

Target-/Frequenz-Encoding oder Gruppierung anstelle von One-Hot verwenden.

Warum: One-Hot sprengt die Dimensionalität; Target-Encoding ist kompakt, muss aber innerhalb von CV gefittet werden, um Leckage zu vermeiden.

Features umfassen sehr unterschiedliche Skalen vor einem distanzbasierten Modell.

StandardScaler (Nullmittelwert, Einheitsvarianz) für annähernd Gaußsche Features; MinMaxScaler zur Begrenzung auf [0,1].

Warum: KNN, SVM, PCA und Gradientenabstieg sind skalenempfindlich; Baummodelle nicht.

Ein rechtsschiefes positives Feature beeinträchtigt ein lineares Modell.

Eine Log- oder Box-Cox/Yeo-Johnson-Potenztransformation anwenden, um den Ausläufer zu komprimieren.

Warum: Die Reduzierung der Schiefe stabilisiert die Varianz und linearisiert Beziehungen für lineare und distanzbasierte Modelle.

Möchte einen nicht-linearen Alterseffekt in einem linearen Modell erfassen.

Das kontinuierliche Feature in Bereiche (gleichbreit oder Quantil) bündeln und als kategorial behandeln.

Warum: Binning ermöglicht es linearen Modellen, Sprungänderungen zu erfassen, auf Kosten eines gewissen Informationsverlusts.

Echte Extremwerte destabilisieren das Modelltraining.

Bei einem Perzentil kappen/winsorisieren oder einen robusten Scaler verwenden; nur bestätigte Fehler löschen.

Warum: Capping begrenzt den Einfluss von Extremwerten, während die Datensätze erhalten bleiben; das Löschen geht mit dem Verlust echter seltener Ereignissignale einher.

Die positive Klasse beträgt nur 3% der Trainingszeilen.

Resampling – SMOTE/Oversampling der Minderheit oder Undersampling der Mehrheit – nur auf dem Trainings-Fold fitten; oder Klassen-Gewichtungen setzen.

Warum: Das Balancieren des Testsets würde ein falsches Ergebnis liefern; Resampling gehört in die Trainingspipeline.

Rohe Zeitstempel und Beträge schneiden schlecht ab.

Features entwickeln – Wochentag, Zeit seit dem letzten Ereignis, Verhältnisse, Aggregationen pro Kunde.

Warum: Domäneninformierte abgeleitete Features bringen oft mehr Verbesserung als der Austausch des Algorithmus.

Hunderte von Features, viele redundant oder verrauscht.

Auswahl über Filter-(Korrelation/gegenseitige Information), Wrapper-(RFE) oder Embedded-(L1/Baum-Wichtigkeiten) Methoden.

Warum: Weniger, relevante Features reduzieren Overfitting, Trainingskosten und verbessern die Interpretierbarkeit.

Viele korrelierte numerische Features verlangsamen das Training und führen zu Overfitting.

PCA anwenden, um auf die Hauptkomponenten zu projizieren, die die meiste Varianz erfassen; zuerst skalieren.

Warum: PCA entfernt Multikollinearität und komprimiert die Dimensionalität, wobei sie etwas Interpretierbarkeit gegen Stabilität eintauscht.

Mehrere Vorverarbeitungsschritte müssen in Training und Bereitstellung identisch angewendet werden.

Imputer, Encoder und Scaler in einer `Pipeline` / `ColumnTransformer` verketten, die nur auf Trainingsdaten gefittet wird.

Warum: Eine einzige gefittete Pipeline garantiert konsistente Transformationen und verhindert Leckagen über Folds hinweg.

Referenz

Eine rohe Datumsspalte hat wenig prädiktiven Wert.

In Jahr, Monat, Wochentag, ist-Wochenende und zyklische Sinus-/Kosinus-Kodierungen zerlegen.

Warum: Modelle können keine Kalendersemantik aus einem rohen Zeitstempel lesen; explizite Teile legen Saisonalität offen.

Modellauswahl, -training und -bewertung

Benötigen eine ehrliche Schätzung der Generalisierung.

Aufteilen in Training / Validierung / Test; auf Validierung optimieren, endgültige Zahlen auf dem unberührten Testset berichten.

Warum: Die Wiederverwendung des Testsets zur Optimierung führt zu Informationsleckagen und überhöht die reale Leistung.

Kleiner Datensatz macht eine einzelne Aufteilung unzuverlässig.

K-Fold-Kreuzvalidierung (stratifiziert für Klassifikation) verwenden, um die Leistung über Folds zu mitteln.

Warum: CV liefert eine Schätzung mit geringerer Varianz und nutzt alle Daten sowohl für das Training als auch für die Validierung.

Trainingsgenauigkeit hoch, Testgenauigkeit niedrig.

Overfitting diagnostizieren (hohe Varianz); Regularisierung hinzufügen, das Modell vereinfachen oder mehr Daten beschaffen.

Warum: Das Gegenteil – beide Scores niedrig – ist Underfitting (hoher Bias), was ein reichhaltigeres Modell oder mehr Features erfordert.

Betrugsmodell meldet 97% Genauigkeit, übersieht aber den größten Teil des Betrugs.

Präzision, Recall, F1 und ROC-AUC / PR-AUC anstelle der Genauigkeit verwenden.

Warum: Bei unausgewogenen Zielen erzielt eine konstante Mehrheitsvorhersage eine hohe Genauigkeit, ist aber nutzlos.

Müssen sehen, wo ein Klassifikator Fehler macht.

Die Konfusionsmatrix lesen; daraus Präzision (Kosten falsch-positiv) und Recall (Kosten falsch-negativ) ableiten.

Warum: Der richtige Schwellenwert hängt davon ab, ob falsch-positive oder falsch-negative Ergebnisse kostspieliger sind.

Bewertung eines Modells mit kontinuierlichem Ziel.

RMSE/MAE für die Fehlermagnitude und R² für die erklärte Varianz berichten; RMSE wählen, wenn große Fehler am wichtigsten sind.

Warum: RMSE bestraft große Fehler stärker als MAE; R² allein kann bei nicht-linearen Fits in die Irre führen.

Standardmodellparameter lassen Leistung ungenutzt.

Mit Gitter- oder randomisierter Suche unter Kreuzvalidierung optimieren; randomisierte Suche bei großen Suchräumen bevorzugen.

Warum: Die randomisierte Suche findet gute Bereiche schneller als erschöpfende Gitter, wenn viele Parameter interagieren.

Vergleich mehrerer Kandidaten-Pipelines von AutoAI.

Im AutoAI-Leaderboard nach der gewählten Metrik ranken, dann die Top-Pipeline auf zurückgehaltenen Daten validieren, bevor sie bereitgestellt wird.

Warum: Das Leaderboard beschleunigt die Auswahl, aber die endgültige Entscheidung muss auf unberührten Daten standhalten.