プレイブック — C1000-177 IBM Certified watsonx Data Scientist - Associate

最終確認：2026年6月

C1000-177 試験で問われるアーキテクチャパターンのスキャン可能なリファレンス。上から順に読むか、セクションへジャンプ。

ビジネス課題を評価する

ステークホルダーが、ラベル付けされた結果がない状態で「顧客のパターンを見つける」よう依頼する。

教師なし学習（クラスタリング／セグメンテーション）として枠組みを構築する。教師あり学習は、ラベル付けされたターゲット変数が存在する場合に限定する。

理由: ターゲット列がないということは、予測するものがないということ。教師あり学習の設定を強制すると、ラベルが発明され、結果にバイアスがかかる。

チャーン（はい／いいえ）の予測と支出額（$）の予測のどちらにするかを決める。

チャーンは二値分類、支出額は回帰。ターゲットのデータ型がタスクとメトリックファミリーを決定する。

理由: タスクとターゲットが一致しないと、意味のないメトリック（例：はい／いいえのラベルに対するRMSE）が生成される。

ビジネスは「不正行為を減らす」ことを望んでいるが、データに不正フラグが存在しない。

モデリングの前にターゲットを定義する — 運用上の不正行為の定義に合意し、過去の記録にラベルを付けるか、異常検出として扱う。

理由: 測定可能なターゲットのない曖昧な目的はモデリングできない。ターゲットの定義は技術的なものではなく、ビジネス上の決定である。

マーケティング応答モデルの成功メトリックを選択する。

メトリックをビジネス価値に結び付ける — 例：キャンペーン予算における適合率／再現率、または予想される収益の増加 — 単純な生精度だけではない。

理由: モデルがビジネスが実際に重視する稀な応答者を見逃している場合でも、精度は高く見えることがある。

データサイエンスプロジェクトをエンドツーエンドで順序付けるよう依頼された。

CRISP-DMに従う：ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → デプロイメント。

理由: CRISP-DMはIBMが採用している方法論であり、データ準備は反復的で、通常は最も大きな労力を要する。

リクエストは「前四半期の地域別総売上を報告する」である。

モデルではなく、集計／BIレポートで解決する。予測は不要である。

理由: 決定的なルックアップと集計にはクエリが必要であり、機械学習ではない。これを認識することで、過剰なエンジニアリングを避けることができる。

組織が収集していない特徴量が目標に必要である。

まず利用可能なデータに対して実現可能性を評価する。モデルを約束する前に目標の範囲を狭めるか、データ収集を開始する。

理由: データの可用性が達成可能な範囲を決定する。理想的なデータを仮定すると、実現不可能なプロジェクトにつながる。

探索的データ分析を実行する

新しい表形式データセットがノートブックにロードされたばかりである。

pandasの`df.describe()`、`df.info()`、`df.head()`から始めて、カウント、データ型、範囲、明らかなヌル値を読み取る。

理由: 要約統計量は、プロットやモデリングの前に、欠損値、間違ったデータ型、スケールの違いを明らかにする。

単一の数値特徴量の形状を理解する必要がある。

形状にはヒストグラムまたはKDEプロットを、分布／外れ値には箱ひげ図を使用する。

理由: 分布の形状（歪度、モード）は、その後の変換とスケーリングの選択を決定する。

収入特徴量に長い右裾がある。

右に歪んでいる（平均 ≫ 中央値）とマークし、前処理中にログ変換またはべき乗変換を計画する。

理由: 歪んだ入力は、距離ベースおよび分散ベースのモデルを歪ませる。EDAで歪みを特定することは、修正方法を通知する。

多数の数値特徴量間の関係を確認する。

相関行列を計算し、ヒートマップとして視覚化する。|r|が約0.8を超えるペアを調査する。

理由: 高いペアワイズ相関は、線形モデルの前に対処すべき冗長性と潜在的な多重共線性を指摘する。

箱ひげ図にひげの範囲をはるかに超える点が表示されている。

IQRルール（Q1−1.5·IQR未満またはQ3+1.5·IQR以上）またはzスコアで定量化し、削除する前に調査する。

理由: 外れ値はエラーである可能性も、本物の稀なイベントである可能性もある。EDAはそれらを区別し、実際のシグナルを破棄しないようにする。

2つの数値特徴量が一緒に動くかどうかを探索する。

散布図を使用する。傾向線を追加するか、クラス別に色分けして、方向、強さ、グループ分けを明らかにする。

理由: 散布図は、単一の相関係数では隠されてしまう非線形な関係を明らかにする。

カーディナリティが不明なカテゴリカル列をプロファイリングする。

`value_counts()`と棒グラフを使用して、レベルの頻度と稀なカテゴリを確認する。

理由: 高カーディナリティと稀なレベルはエンコーディング戦略を変更し、過学習のリスクを警告する。

クラスバランスが不明な二値ターゲット。

ターゲット分布を早期にプロットする。正のクラスの比率（例：不正行為3%）に注意する。

理由: EDAで発見された不均衡は、その後のリサンプリングとメトリックの選択（精度ではなく）を決定する。

いくつかの列にヌル値が散在している。

列ごとのヌル値（`df.isnull().sum()`）を定量化し、欠損がランダムか体系的かを調査する。

理由: ランダムではない欠損パターンはシグナルを伝えることができる。そのメカニズムが補完の決定を左右する。

マネージャーがモデリングの前に「EDAから何が分かったか？」と尋ねる。

データ品質の問題、予測可能な候補特徴量、テストすべき仮説をまとめる — チャートだけではない。

理由: EDAの目的は、仮説を形成し、前処理／特徴量の選択を導くことであり、装飾を作成することではない。

開発ツールとテクニック

watsonx内でデータサイエンスの取り組みを整理する。

Watson Studioプロジェクトを作成し、共通のストレージとランタイムを共有するアセットとしてデータ、ノートブック、モデルを追加する。

理由: プロジェクトは、watsonxにおけるコラボレーション、アクセス制御、およびアセットの系譜の単位である。

リファレンス

Watson StudioでPythonコードを実行する場所を選択する。

ノートブックをワークロードに合わせてサイズ設定された環境／ランタイムに接続する。アイドル時はそれを解放して計算コストを管理する。

理由: ランタイムはキャパシティユニットを消費する。適切なサイジングはパフォーマンスと支出のバランスをとる。

限られた時間で強力なベースラインモデルを迅速に必要としている。

AutoAI実験を実行する。これにより、アルゴリズムが自動選択され、パイプラインが生成され、リーダーボードでランク付けされる。

理由: AutoAIはベースライン設定と特徴量エンジニアリングを加速する。ただし、上位のパイプラインはまだ検証し、改良する必要がある。

リファレンス

ステークホルダーはノートブックよりも視覚的でローコードのパイプラインを好む。

SPSS Modelerフローを構築する — インポート、準備、モデリング、スコアリングのためのノードをドラッグ＆ドロップする。

理由: Modelerは、透過的でコードの少ないパイプラインを必要とするチームに適している。ノートブックはコード優先のカスタマイズに適している。

コード優先の分析のためにライブラリを選択する。

データにはpandas/NumPyを、モデリングにはscikit-learnを、プロットにはmatplotlib/seabornを使用する — watsonxのデフォルトスタックである。

理由: これらのライブラリはWatson Studioランタイムにプリインストールされており、試験で前提とされている。

チームメイトが来四半期にあなたの分析を再実行する必要がある。

ノートブックとデータをプロジェクトアセットとしてバージョン管理し、ライブラリのバージョンを固定し、ランタイムを文書化する。

理由: 再現性は、一度限りのローカルセッションではなく、キャプチャされたコード、データ、環境に依存する。

前処理と特徴量エンジニアリング

訓練／テストに分割する前に特徴量をスケーリングする。

まず分割し、訓練データのみにトランスフォーマーをフィットさせ、テストデータに適用（`transform`）する。ステップをscikit-learnのPipelineでラップする。

理由: 全データセットにフィットさせると、テスト統計が訓練に漏洩し、評価スコアが過大評価される。

数値列に8%の欠損値がある。

`SimpleImputer`を使用して中央値（歪みに頑健）で補完する。欠損インジケーターフラグも検討する。

理由: 中央値は外れ値に強い。欠損自体が情報を持つ場合、インジケーターはシグナルを保持する。

カテゴリカル列に欠損がある。

最頻値または明示的な「不明」／「欠損」カテゴリで補完する。

理由: 明示的なカテゴリは、行を破棄するのではなく、欠損パターンを使用可能なシグナルとして保持する。

カーディナリティの低い名義特徴量（例：5つの値を持つ地域）。

ワンホットエンコーディング（`OneHotEncoder`）を適用する。モデルが共線性なしを必要とする場合は、1つの列を削除する。

理由: ワンホットは名義カテゴリに誤った順序を課すことを避け、1つのレベルを削除することでダミートラップを防ぐ。

特徴量に自然な順序がある（低／中／高）。

順序を保持する順序エンコーディングを使用する。

理由: ワンホットは順序を破棄してしまう。順序を考慮したエンコーディングにより、モデルがそれを活用できる。

数千のレベルを持つカテゴリカル特徴量（例：郵便番号）。

ワンホットではなく、ターゲットエンコーディング／頻度エンコーディングまたはグルーピングを使用する。

理由: ワンホットは次元を爆発させる。ターゲットエンコーディングはコンパクトだが、リークを防ぐためにCV内でフィットさせる必要がある。

距離ベースモデルの前に、特徴量が非常に異なるスケールにわたる。

おおよそガウス分布の特徴量にはStandardScaler（平均ゼロ、単位分散）を、[0,1]に範囲を制限するにはMinMaxScalerを使用する。

理由: KNN、SVM、PCA、勾配降下法はスケールに敏感だが、ツリーモデルはそうではない。

右に歪んだ正の特徴量が線形モデルを損なう。

ログ変換またはBox-Cox/Yeo-Johnsonべき乗変換を適用して裾を圧縮する。

理由: 歪みを減らすことで分散が安定し、線形モデルおよび距離ベースモデルの関係が線形化される。

線形モデルで非線形な年齢効果を捉えたい。

連続特徴量を範囲（等幅または分位数）にビン分割し、カテゴリカルとして扱う。

理由: ビン分割により、線形モデルは段階的な変化を捉えることができるが、情報損失のコストがかかる。

本物の極端な値がモデルのトレーニングを不安定にする。

パーセンタイルでキャップ／ウィンソライズするか、頑健なスケーラーを使用する。確認されたエラーのみを削除する。

理由: キャッピングは極端な値の影響を制限しつつレコードを保持する。削除は実際の稀なイベントのシグナルを失う。

正のクラスが訓練行のわずか3%である。

リサンプリングする — SMOTE／少数派のオーバーサンプリングまたは多数派のアンダーサンプリング — 訓練フォールドのみにフィットさせる。またはクラスウェイトを設定する。

理由: テストセットのバランスを取ると誤った結果が得られる。リサンプリングは訓練パイプライン内で行うべきである。

生のタイムスタンプと金額のパフォーマンスが低い。

特徴量をエンジニアリングする — 曜日、前回イベントからの時間、比率、顧客ごとの集計値など。

理由: ドメイン情報に基づいた派生特徴量は、アルゴリズムを交換するよりも多くの改善をもたらすことが多い。

数百の特徴量があり、その多くが冗長またはノイズを含んでいる。

フィルター（相関／相互情報量）、ラッパー（RFE）、または組み込み（L1／ツリーの重要度）メソッドを介して選択する。

理由: より少なく、関連性の高い特徴量により、過学習が減り、訓練コストが削減され、解釈性が向上する。

多くの相関する数値特徴量が訓練を遅らせ、過学習を引き起こす。

PCAを適用して、ほとんどの分散を捉える上位コンポーネントに投影する。まずスケーリングする。

理由: PCAは多重共線性を除去し、次元を圧縮することで、ある程度の解釈性を安定性と引き換えにする。

複数の前処理ステップを訓練時とサービス提供時に同じように適用する必要がある。

インピューター、エンコーダー、スケーラーを`Pipeline`／`ColumnTransformer`に連結し、訓練データのみにフィットさせる。

理由: 単一のフィット済みパイプラインは、一貫した変換を保証し、フォールド間のリークを防ぐ。

リファレンス

生の日付列は予測値がほとんどない。

年、月、曜日、週末フラグ、および周期的なsin/cosエンコーディングに分解する。

理由: モデルは生のタイムスタンプからカレンダーのセマンティクスを読み取れない。明示的な部分が季節性を明らかにする。

モデルの選択、トレーニング、評価

汎化能力の正直な推定が必要である。

訓練／検証／テストに分割し、検証データでチューニングし、最終的な数値を未接触のテストセットで報告する。

理由: テストセットをチューニングに再利用すると、情報が漏洩し、実世界でのパフォーマンスが過大評価される。

小さなデータセットでは単一の分割が信頼できない。

k分割交差検証（分類には層化）を使用して、フォールド全体のパフォーマンスを平均する。

理由: CVは分散の低い推定値を提供し、訓練と検証の両方にすべてのデータを使用する。

訓練精度は高いが、テスト精度が低い。

過学習（高分散）と診断する。正則化を追加するか、モデルを単純化するか、またはより多くのデータを取得する。

理由: その反対 — 両方のスコアが低い — は過少適合（高バイアス）であり、より豊富なモデルまたは特徴量が必要である。

不正検出モデルが97%の精度を報告するが、ほとんどの不正を見逃している。

精度ではなく、適合率、再現率、F1スコア、およびROC-AUC／PR-AUCを使用する。

理由: 不均衡なターゲットでは、常に多数派を予測すると高い精度スコアが得られるが、実際には役に立たない。

分類器がどこで間違いを犯しているかを確認する必要がある。

混同行列を読み取る。そこから適合率（FPコスト）と再現率（FNコスト）を導出する。

理由: 適切なしきい値は、偽陽性か偽陰性かどちらがコストが高いかによって異なる。

連続ターゲットモデルを評価する。

誤差の大きさにはRMSE/MAEを、説明される分散にはR²を報告する。大きな誤差が最も重要である場合はRMSEを選択する。

理由: RMSEはMAEよりも大きな誤差にペナルティを課す。R²だけでは非線形フィットで誤解を招くことがある。

デフォルトのモデルパラメータではパフォーマンスが十分に発揮されない。

交差検証の下でグリッドサーチまたはランダムサーチでチューニングする。探索空間が大きい場合はランダムサーチを優先する。

理由: 多くのパラメータが相互作用する場合、ランダムサーチは網羅的なグリッドよりも速く良好な領域を見つける。

AutoAIからのいくつかの候補パイプラインを比較する。

選択したメトリックでAutoAIリーダーボードにランク付けし、デプロイ前に保持データで上位のパイプラインを検証する。

理由: リーダーボードは選択を加速するが、最終的な選択は未接触データで保持されなければならない。

リファレンス

ビジネス課題を評価する

ステークホルダーが、ラベル付けされた結果がない状態で「顧客のパターンを見つける」よう依頼する。

チャーン（はい／いいえ）の予測と支出額（$）の予測のどちらにするかを決める。

チャーンは二値分類、支出額は回帰。ターゲットのデータ型がタスクとメトリックファミリーを決定する。

理由: タスクとターゲットが一致しないと、意味のないメトリック（例：はい／いいえのラベルに対するRMSE）が生成される。

ビジネスは「不正行為を減らす」ことを望んでいるが、データに不正フラグが存在しない。

モデリングの前にターゲットを定義する — 運用上の不正行為の定義に合意し、過去の記録にラベルを付けるか、異常検出として扱う。

理由: 測定可能なターゲットのない曖昧な目的はモデリングできない。ターゲットの定義は技術的なものではなく、ビジネス上の決定である。

マーケティング応答モデルの成功メトリックを選択する。

理由: モデルがビジネスが実際に重視する稀な応答者を見逃している場合でも、精度は高く見えることがある。

データサイエンスプロジェクトをエンドツーエンドで順序付けるよう依頼された。

CRISP-DMに従う：ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → デプロイメント。

理由: CRISP-DMはIBMが採用している方法論であり、データ準備は反復的で、通常は最も大きな労力を要する。

リクエストは「前四半期の地域別総売上を報告する」である。

モデルではなく、集計／BIレポートで解決する。予測は不要である。

組織が収集していない特徴量が目標に必要である。

まず利用可能なデータに対して実現可能性を評価する。モデルを約束する前に目標の範囲を狭めるか、データ収集を開始する。

理由: データの可用性が達成可能な範囲を決定する。理想的なデータを仮定すると、実現不可能なプロジェクトにつながる。

探索的データ分析を実行する

新しい表形式データセットがノートブックにロードされたばかりである。

pandasの`df.describe()`、`df.info()`、`df.head()`から始めて、カウント、データ型、範囲、明らかなヌル値を読み取る。

理由: 要約統計量は、プロットやモデリングの前に、欠損値、間違ったデータ型、スケールの違いを明らかにする。

単一の数値特徴量の形状を理解する必要がある。

形状にはヒストグラムまたはKDEプロットを、分布／外れ値には箱ひげ図を使用する。

理由: 分布の形状（歪度、モード）は、その後の変換とスケーリングの選択を決定する。

収入特徴量に長い右裾がある。

右に歪んでいる（平均 ≫ 中央値）とマークし、前処理中にログ変換またはべき乗変換を計画する。

理由: 歪んだ入力は、距離ベースおよび分散ベースのモデルを歪ませる。EDAで歪みを特定することは、修正方法を通知する。

多数の数値特徴量間の関係を確認する。

相関行列を計算し、ヒートマップとして視覚化する。|r|が約0.8を超えるペアを調査する。

理由: 高いペアワイズ相関は、線形モデルの前に対処すべき冗長性と潜在的な多重共線性を指摘する。

箱ひげ図にひげの範囲をはるかに超える点が表示されている。

IQRルール（Q1−1.5·IQR未満またはQ3+1.5·IQR以上）またはzスコアで定量化し、削除する前に調査する。

理由: 外れ値はエラーである可能性も、本物の稀なイベントである可能性もある。EDAはそれらを区別し、実際のシグナルを破棄しないようにする。

2つの数値特徴量が一緒に動くかどうかを探索する。

散布図を使用する。傾向線を追加するか、クラス別に色分けして、方向、強さ、グループ分けを明らかにする。

理由: 散布図は、単一の相関係数では隠されてしまう非線形な関係を明らかにする。

カーディナリティが不明なカテゴリカル列をプロファイリングする。

`value_counts()`と棒グラフを使用して、レベルの頻度と稀なカテゴリを確認する。

理由: 高カーディナリティと稀なレベルはエンコーディング戦略を変更し、過学習のリスクを警告する。

クラスバランスが不明な二値ターゲット。

ターゲット分布を早期にプロットする。正のクラスの比率（例：不正行為3%）に注意する。

理由: EDAで発見された不均衡は、その後のリサンプリングとメトリックの選択（精度ではなく）を決定する。

いくつかの列にヌル値が散在している。

列ごとのヌル値（`df.isnull().sum()`）を定量化し、欠損がランダムか体系的かを調査する。

理由: ランダムではない欠損パターンはシグナルを伝えることができる。そのメカニズムが補完の決定を左右する。

マネージャーがモデリングの前に「EDAから何が分かったか？」と尋ねる。

データ品質の問題、予測可能な候補特徴量、テストすべき仮説をまとめる — チャートだけではない。

理由: EDAの目的は、仮説を形成し、前処理／特徴量の選択を導くことであり、装飾を作成することではない。

開発ツールとテクニック

watsonx内でデータサイエンスの取り組みを整理する。

Watson Studioプロジェクトを作成し、共通のストレージとランタイムを共有するアセットとしてデータ、ノートブック、モデルを追加する。

理由: プロジェクトは、watsonxにおけるコラボレーション、アクセス制御、およびアセットの系譜の単位である。

リファレンス

Watson StudioでPythonコードを実行する場所を選択する。

ノートブックをワークロードに合わせてサイズ設定された環境／ランタイムに接続する。アイドル時はそれを解放して計算コストを管理する。

理由: ランタイムはキャパシティユニットを消費する。適切なサイジングはパフォーマンスと支出のバランスをとる。

限られた時間で強力なベースラインモデルを迅速に必要としている。

AutoAI実験を実行する。これにより、アルゴリズムが自動選択され、パイプラインが生成され、リーダーボードでランク付けされる。

理由: AutoAIはベースライン設定と特徴量エンジニアリングを加速する。ただし、上位のパイプラインはまだ検証し、改良する必要がある。

リファレンス

ステークホルダーはノートブックよりも視覚的でローコードのパイプラインを好む。

SPSS Modelerフローを構築する — インポート、準備、モデリング、スコアリングのためのノードをドラッグ＆ドロップする。

理由: Modelerは、透過的でコードの少ないパイプラインを必要とするチームに適している。ノートブックはコード優先のカスタマイズに適している。

コード優先の分析のためにライブラリを選択する。

データにはpandas/NumPyを、モデリングにはscikit-learnを、プロットにはmatplotlib/seabornを使用する — watsonxのデフォルトスタックである。

理由: これらのライブラリはWatson Studioランタイムにプリインストールされており、試験で前提とされている。

チームメイトが来四半期にあなたの分析を再実行する必要がある。

ノートブックとデータをプロジェクトアセットとしてバージョン管理し、ライブラリのバージョンを固定し、ランタイムを文書化する。

理由: 再現性は、一度限りのローカルセッションではなく、キャプチャされたコード、データ、環境に依存する。

前処理と特徴量エンジニアリング

訓練／テストに分割する前に特徴量をスケーリングする。

理由: 全データセットにフィットさせると、テスト統計が訓練に漏洩し、評価スコアが過大評価される。

数値列に8%の欠損値がある。

`SimpleImputer`を使用して中央値（歪みに頑健）で補完する。欠損インジケーターフラグも検討する。

理由: 中央値は外れ値に強い。欠損自体が情報を持つ場合、インジケーターはシグナルを保持する。

カテゴリカル列に欠損がある。

最頻値または明示的な「不明」／「欠損」カテゴリで補完する。

理由: 明示的なカテゴリは、行を破棄するのではなく、欠損パターンを使用可能なシグナルとして保持する。

カーディナリティの低い名義特徴量（例：5つの値を持つ地域）。

ワンホットエンコーディング（`OneHotEncoder`）を適用する。モデルが共線性なしを必要とする場合は、1つの列を削除する。

理由: ワンホットは名義カテゴリに誤った順序を課すことを避け、1つのレベルを削除することでダミートラップを防ぐ。

特徴量に自然な順序がある（低／中／高）。

順序を保持する順序エンコーディングを使用する。

理由: ワンホットは順序を破棄してしまう。順序を考慮したエンコーディングにより、モデルがそれを活用できる。

数千のレベルを持つカテゴリカル特徴量（例：郵便番号）。

ワンホットではなく、ターゲットエンコーディング／頻度エンコーディングまたはグルーピングを使用する。

理由: ワンホットは次元を爆発させる。ターゲットエンコーディングはコンパクトだが、リークを防ぐためにCV内でフィットさせる必要がある。

距離ベースモデルの前に、特徴量が非常に異なるスケールにわたる。

おおよそガウス分布の特徴量にはStandardScaler（平均ゼロ、単位分散）を、[0,1]に範囲を制限するにはMinMaxScalerを使用する。

理由: KNN、SVM、PCA、勾配降下法はスケールに敏感だが、ツリーモデルはそうではない。

右に歪んだ正の特徴量が線形モデルを損なう。

ログ変換またはBox-Cox/Yeo-Johnsonべき乗変換を適用して裾を圧縮する。

理由: 歪みを減らすことで分散が安定し、線形モデルおよび距離ベースモデルの関係が線形化される。

線形モデルで非線形な年齢効果を捉えたい。

連続特徴量を範囲（等幅または分位数）にビン分割し、カテゴリカルとして扱う。

理由: ビン分割により、線形モデルは段階的な変化を捉えることができるが、情報損失のコストがかかる。

本物の極端な値がモデルのトレーニングを不安定にする。

パーセンタイルでキャップ／ウィンソライズするか、頑健なスケーラーを使用する。確認されたエラーのみを削除する。

理由: キャッピングは極端な値の影響を制限しつつレコードを保持する。削除は実際の稀なイベントのシグナルを失う。

正のクラスが訓練行のわずか3%である。

理由: テストセットのバランスを取ると誤った結果が得られる。リサンプリングは訓練パイプライン内で行うべきである。

生のタイムスタンプと金額のパフォーマンスが低い。

特徴量をエンジニアリングする — 曜日、前回イベントからの時間、比率、顧客ごとの集計値など。

理由: ドメイン情報に基づいた派生特徴量は、アルゴリズムを交換するよりも多くの改善をもたらすことが多い。

数百の特徴量があり、その多くが冗長またはノイズを含んでいる。

フィルター（相関／相互情報量）、ラッパー（RFE）、または組み込み（L1／ツリーの重要度）メソッドを介して選択する。

理由: より少なく、関連性の高い特徴量により、過学習が減り、訓練コストが削減され、解釈性が向上する。

多くの相関する数値特徴量が訓練を遅らせ、過学習を引き起こす。

PCAを適用して、ほとんどの分散を捉える上位コンポーネントに投影する。まずスケーリングする。

理由: PCAは多重共線性を除去し、次元を圧縮することで、ある程度の解釈性を安定性と引き換えにする。

複数の前処理ステップを訓練時とサービス提供時に同じように適用する必要がある。

インピューター、エンコーダー、スケーラーを`Pipeline`／`ColumnTransformer`に連結し、訓練データのみにフィットさせる。

理由: 単一のフィット済みパイプラインは、一貫した変換を保証し、フォールド間のリークを防ぐ。

リファレンス

生の日付列は予測値がほとんどない。

年、月、曜日、週末フラグ、および周期的なsin/cosエンコーディングに分解する。

理由: モデルは生のタイムスタンプからカレンダーのセマンティクスを読み取れない。明示的な部分が季節性を明らかにする。

モデルの選択、トレーニング、評価

汎化能力の正直な推定が必要である。

訓練／検証／テストに分割し、検証データでチューニングし、最終的な数値を未接触のテストセットで報告する。

理由: テストセットをチューニングに再利用すると、情報が漏洩し、実世界でのパフォーマンスが過大評価される。

小さなデータセットでは単一の分割が信頼できない。

k分割交差検証（分類には層化）を使用して、フォールド全体のパフォーマンスを平均する。

理由: CVは分散の低い推定値を提供し、訓練と検証の両方にすべてのデータを使用する。

訓練精度は高いが、テスト精度が低い。

過学習（高分散）と診断する。正則化を追加するか、モデルを単純化するか、またはより多くのデータを取得する。

理由: その反対 — 両方のスコアが低い — は過少適合（高バイアス）であり、より豊富なモデルまたは特徴量が必要である。

不正検出モデルが97%の精度を報告するが、ほとんどの不正を見逃している。

精度ではなく、適合率、再現率、F1スコア、およびROC-AUC／PR-AUCを使用する。

理由: 不均衡なターゲットでは、常に多数派を予測すると高い精度スコアが得られるが、実際には役に立たない。

分類器がどこで間違いを犯しているかを確認する必要がある。

混同行列を読み取る。そこから適合率（FPコスト）と再現率（FNコスト）を導出する。

理由: 適切なしきい値は、偽陽性か偽陰性かどちらがコストが高いかによって異なる。

連続ターゲットモデルを評価する。

誤差の大きさにはRMSE/MAEを、説明される分散にはR²を報告する。大きな誤差が最も重要である場合はRMSEを選択する。

理由: RMSEはMAEよりも大きな誤差にペナルティを課す。R²だけでは非線形フィットで誤解を招くことがある。

デフォルトのモデルパラメータではパフォーマンスが十分に発揮されない。

交差検証の下でグリッドサーチまたはランダムサーチでチューニングする。探索空間が大きい場合はランダムサーチを優先する。

理由: 多くのパラメータが相互作用する場合、ランダムサーチは網羅的なグリッドよりも速く良好な領域を見つける。

AutoAIからのいくつかの候補パイプラインを比較する。

選択したメトリックでAutoAIリーダーボードにランク付けし、デプロイ前に保持データで上位のパイプラインを検証する。

理由: リーダーボードは選択を加速するが、最終的な選択は未接触データで保持されなければならない。

リファレンス