Skalierung von Features vor der Aufteilung in Trainings-/Testdatensätze.
→Zuerst aufteilen, dann Transformer nur auf Trainingsdaten fitten und auf Testdaten anwenden (`transform`). Schritte in einer scikit-learn Pipeline zusammenfassen.
Warum: Das Fitten auf dem vollständigen Datensatz lässt Teststatistiken in das Training einfließen und erhöht die Bewertungsergebnisse.
Eine numerische Spalte hat 8% fehlende Werte.
→Mit dem Median (robust gegenüber Schiefe) über `SimpleImputer` imputieren; ein Missing-Indicator-Flag in Betracht ziehen.
Warum: Der Median ist resistent gegenüber Ausreißern; ein Indikator bewahrt das Signal, wenn das Fehlen selbst informativ ist.
Eine kategoriale Spalte hat Lücken.
→Mit dem Modus oder einer expliziten "Unbekannt" / "Fehlend" Kategorie imputieren.
Warum: Eine explizite Kategorie behält das Muster des Fehlens als nutzbares Signal bei, anstatt Zeilen zu verwerfen.
Nominales Feature mit niedriger Kardinalität (z.B. Region mit 5 Werten).
→One-Hot-Encoding (`OneHotEncoder`) anwenden; eine Spalte entfernen, wenn das Modell keine Kollinearität benötigt.
Warum: One-Hot vermeidet die Auferlegung einer falschen Reihenfolge auf nominale Kategorien; das Entfernen einer Stufe verhindert die Dummy-Falle.
Feature hat eine natürliche Reihenfolge (niedrig / mittel / hoch).
→Ordnungs-Encoding verwenden, das den Rang bewahrt.
Warum: One-Hot würde die Reihenfolge verwerfen; rangbewusstes Encoding ermöglicht es dem Modell, diese auszunutzen.
Kategorial mit Tausenden von Stufen (z.B. Postleitzahl).
→Target-/Frequenz-Encoding oder Gruppierung anstelle von One-Hot verwenden.
Warum: One-Hot sprengt die Dimensionalität; Target-Encoding ist kompakt, muss aber innerhalb von CV gefittet werden, um Leckage zu vermeiden.
Features umfassen sehr unterschiedliche Skalen vor einem distanzbasierten Modell.
→StandardScaler (Nullmittelwert, Einheitsvarianz) für annähernd Gaußsche Features; MinMaxScaler zur Begrenzung auf [0,1].
Warum: KNN, SVM, PCA und Gradientenabstieg sind skalenempfindlich; Baummodelle nicht.
Ein rechtsschiefes positives Feature beeinträchtigt ein lineares Modell.
→Eine Log- oder Box-Cox/Yeo-Johnson-Potenztransformation anwenden, um den Ausläufer zu komprimieren.
Warum: Die Reduzierung der Schiefe stabilisiert die Varianz und linearisiert Beziehungen für lineare und distanzbasierte Modelle.
Möchte einen nicht-linearen Alterseffekt in einem linearen Modell erfassen.
→Das kontinuierliche Feature in Bereiche (gleichbreit oder Quantil) bündeln und als kategorial behandeln.
Warum: Binning ermöglicht es linearen Modellen, Sprungänderungen zu erfassen, auf Kosten eines gewissen Informationsverlusts.
Echte Extremwerte destabilisieren das Modelltraining.
→Bei einem Perzentil kappen/winsorisieren oder einen robusten Scaler verwenden; nur bestätigte Fehler löschen.
Warum: Capping begrenzt den Einfluss von Extremwerten, während die Datensätze erhalten bleiben; das Löschen geht mit dem Verlust echter seltener Ereignissignale einher.
Die positive Klasse beträgt nur 3% der Trainingszeilen.
→Resampling – SMOTE/Oversampling der Minderheit oder Undersampling der Mehrheit – nur auf dem Trainings-Fold fitten; oder Klassen-Gewichtungen setzen.
Warum: Das Balancieren des Testsets würde ein falsches Ergebnis liefern; Resampling gehört in die Trainingspipeline.
Rohe Zeitstempel und Beträge schneiden schlecht ab.
→Features entwickeln – Wochentag, Zeit seit dem letzten Ereignis, Verhältnisse, Aggregationen pro Kunde.
Warum: Domäneninformierte abgeleitete Features bringen oft mehr Verbesserung als der Austausch des Algorithmus.
Hunderte von Features, viele redundant oder verrauscht.
→Auswahl über Filter-(Korrelation/gegenseitige Information), Wrapper-(RFE) oder Embedded-(L1/Baum-Wichtigkeiten) Methoden.
Warum: Weniger, relevante Features reduzieren Overfitting, Trainingskosten und verbessern die Interpretierbarkeit.
Viele korrelierte numerische Features verlangsamen das Training und führen zu Overfitting.
→PCA anwenden, um auf die Hauptkomponenten zu projizieren, die die meiste Varianz erfassen; zuerst skalieren.
Warum: PCA entfernt Multikollinearität und komprimiert die Dimensionalität, wobei sie etwas Interpretierbarkeit gegen Stabilität eintauscht.
Mehrere Vorverarbeitungsschritte müssen in Training und Bereitstellung identisch angewendet werden.
→Imputer, Encoder und Scaler in einer `Pipeline` / `ColumnTransformer` verketten, die nur auf Trainingsdaten gefittet wird.
Warum: Eine einzige gefittete Pipeline garantiert konsistente Transformationen und verhindert Leckagen über Folds hinweg.
Referenz↗
Eine rohe Datumsspalte hat wenig prädiktiven Wert.
→In Jahr, Monat, Wochentag, ist-Wochenende und zyklische Sinus-/Kosinus-Kodierungen zerlegen.
Warum: Modelle können keine Kalendersemantik aus einem rohen Zeitstempel lesen; explizite Teile legen Saisonalität offen.