手册 — C1000-177 IBM Certified watsonx Data Scientist - Associate

最后审核：2026年6月

C1000-177 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

评估业务问题

利益相关者要求“在客户中寻找模式”，但没有标注结果。

将其框定为无监督学习（聚类/分段）。将有监督学习保留给存在标记目标变量的情况。

原因: 没有目标列意味着无可预测；强制采用有监督设置会凭空创造标签并使结果产生偏差。

在预测客户流失（是/否）和预测支出（美元）之间做出决定。

客户流失是二元分类；支出是回归。目标的数据类型决定了任务和指标族。

原因: 任务与目标不匹配会产生无意义的指标——例如，在是/否标签上计算RMSE。

业务希望“减少欺诈”，但数据中不存在欺诈标志。

在建模之前定义目标——商定一个操作性欺诈定义并标记历史记录，或将其视为异常检测。

原因: 没有可衡量目标的模糊目标无法建模；目标定义是一个业务决策，而非技术决策。

为营销响应模型选择一个成功指标。

将指标与业务价值挂钩——例如，在营销活动预算下的精确率/召回率，或预期的收入增长——而不仅仅是原始准确率。

原因: 当模型错过业务实际关心的稀有响应者时，准确率可能看起来很高。

被要求端到端地安排一个数据科学项目的顺序。

遵循CRISP-DM：业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署。

原因: CRISP-DM是IBM遵循的方法论；数据准备是迭代的，通常是工作量最大的部分。

请求是“按区域报告上季度的总销售额”。

通过聚合/BI报告解决，而不是模型。不需要预测。

原因: 确定性查找和聚合需要查询，而不是机器学习；识别这一点可以避免过度工程。

目标需要组织未收集的特征。

首先根据可用数据评估可行性；在承诺模型之前，缩小目标范围或开始数据收集。

原因: 数据可用性限制了可实现的目标；假设有理想的数据会导致项目无法交付。

执行探索性数据分析

新的表格数据集刚刚加载到笔记本中。

首先使用 pandas 的 `df.describe()`、`df.info()` 和 `df.head()` 来读取计数、数据类型、范围和明显的空值。

原因: 在任何绘图或建模之前，汇总统计数据会揭示缺失值、错误的数据类型和尺度差异。

需要了解单个数值特征的形状。

使用直方图或KDE图查看形状，使用箱线图查看分布/异常值。

原因: 分布形状（偏度、模态）决定了后续的转换和缩放选择。

收入特征具有长长的右尾。

将其标记为右偏（均值≫中位数）；在预处理期间计划进行对数或幂转换。

原因: 偏斜输入会扭曲基于距离和方差的模型；在EDA中识别偏斜可以指导修复。

检查多个数值特征之间的关系。

计算相关矩阵并将其可视化为热力图；检查|r|高于约0.8的对。

原因: 高成对相关性会标记出冗余和潜在的多重共线性，需要在线性模型之前解决。

箱线图显示了超出晶须范围的点。

使用IQR规则（低于Q1−1.5·IQR或高于Q3+1.5·IQR）或z-score进行量化；在删除之前进行调查。

原因: 异常值可能是错误或真正的罕见事件——EDA将其区分开来，这样您就不会丢弃真实的信号。

探索两个数值特征是否一起变化。

使用散点图；添加趋势线或按类别着色以揭示方向、强度和分组。

原因: 散点图揭示了单个相关系数隐藏的非线性关系。

分析一个基数未知的类别列。

使用 `value_counts()` 和条形图查看级别频率和稀有类别。

原因: 高基数和稀有级别会改变编码策略并预示过拟合风险。

具有未知类别平衡的二元目标。

尽早绘制目标分布图；注意正类别比例（例如3%欺诈）。

原因: 在EDA中发现的不平衡决定了后续的重采样和指标选择（而非准确率）。

空值散布在多列中。

量化每列的空值（`df.isnull().sum()`）并检查缺失是否是随机的或系统性的。

原因: 非随机缺失模式可以携带信号；缺失机制驱动了归因决策。

经理在建模前问“EDA告诉了我们什么？”。

总结数据质量问题、候选预测特征和待测试的假设——而不仅仅是图表。

原因: EDA的目的在于形成假设并指导预处理/特征选择，而不是为了美化。

开发工具和技术

在 watsonx 中组织数据科学工作。

创建 Watson Studio 项目；将数据、Notebook 和模型作为资产添加，共享公共存储和运行时。

原因: 项目是 watsonx 中协作、访问控制和资产谱系的单位。

参考

选择 Python 代码在 Watson Studio 中的执行位置。

将 Notebook 附加到适合工作负载的环境/运行时；闲置时释放以控制计算成本。

原因: 运行时消耗容量单位；合理调整大小可平衡性能和支出。

在时间有限的情况下快速需要一个强大的基线模型。

运行 AutoAI 实验；它会自动选择算法，生成管道，并在排行榜上对其进行排名。

原因: AutoAI 加速了基线化和特征工程；您仍然需要验证和优化顶级的管道。

参考

利益相关者倾向于可视化、低代码管道而非 Notebook。

构建 SPSS Modeler 流——通过拖放节点进行导入、准备、建模和评分。

原因: Modeler 适用于需要透明、轻代码管道的团队；Notebook 适用于代码优先的定制。

为代码优先分析选择库。

使用 pandas/NumPy 处理数据，scikit-learn 进行建模，matplotlib/seaborn 绘制图表——这是 watsonx 的默认堆栈。

原因: 这些库预装在 Watson Studio 运行时中，并且是考试所假设的。

一位队友下个季度必须重新运行您的分析。

将 Notebook 和数据作为项目资产进行版本控制，固定库版本，并记录运行时。

原因: 可复现性取决于捕获的代码、数据和环境——而不是一次性的本地会话。

预处理和特征工程

在拆分为训练/测试集之前缩放特征。

首先进行拆分，然后在训练集上拟合变换器并将其应用于（`transform`）测试集。将这些步骤封装在 scikit-learn Pipeline 中。

原因: 在整个数据集上进行拟合会将测试统计信息泄露到训练中，并夸大评估分数。

一个数值列有8%的缺失值。

通过 `SimpleImputer` 使用中位数进行归因（对偏度具有鲁棒性）；考虑添加一个缺失指示器标志。

原因: 中位数能够抵抗异常值；当缺失本身具有信息性时，指示器可以保留信号。

一个类别列存在缺失。

用众数或一个明确的“未知”/“缺失”类别进行归因。

原因: 一个明确的类别可以将缺失模式作为可用信号保留下来，而不是丢弃行。

低基数的名义特征（例如，具有5个值的区域）。

应用独热编码（`OneHotEncoder`）；如果模型不需要共线性，则删除一个列。

原因: 独热编码避免了对名义类别施加错误的顺序；删除一个级别可以防止虚假变量陷阱。

特征具有自然顺序（低/中/高）。

使用保留排名的序数编码。

原因: 独热编码会丢弃顺序；而考虑排名的编码可以让模型利用它。

具有数千个级别的类别特征（例如邮政编码）。

使用目标/频率编码或分组，而不是独热编码。

原因: 独热编码会使维度爆炸；目标编码紧凑，但必须在交叉验证内部拟合以避免数据泄露。

在基于距离的模型之前，特征的尺度差异很大。

StandardScaler（零均值，单位方差）适用于大致呈高斯分布的特征；MinMaxScaler 将特征缩放到 [0,1] 范围内。

原因: KNN、SVM、PCA 和梯度下降对尺度敏感；树模型则不然。

一个右偏的正特征会损害线性模型。

应用对数或Box-Cox/Yeo-Johnson幂变换来压缩尾部。

原因: 减少偏度可以稳定方差，并使线性模型和基于距离的模型的关系线性化。

希望在线性模型中捕捉非线性的年龄效应。

将连续特征分箱成范围（等宽或分位数）并作为类别处理。

原因: 分箱允许线性模型捕捉阶跃变化，但代价是会损失一些信息。

真正的极端值会使模型训练不稳定。

在某个百分位数处进行封顶/缩尾，或使用鲁棒缩放器；仅删除已确认的错误。

原因: 封顶在保留记录的同时限制了极端值的影响；删除会丢失真实的罕见事件信号。

正类别仅占训练行的3%。

重新采样——SMOTE/过采样少数类别或欠采样多数类别——仅在训练折叠上拟合；或者设置类别权重。

原因: 平衡测试集会给出错误的结果；重采样应该在训练管道内部进行。

原始时间戳和金额表现不佳。

工程化特征——星期几、距离上次事件的时间、比率、每个客户的聚合。

原因: 领域知情的派生特征通常比更换算法更能提升模型性能。

数百个特征，其中许多是冗余或嘈杂的。

通过过滤（相关性/互信息）、包装（RFE）或嵌入（L1/树重要性）方法进行选择。

原因: 更少、更相关的特征可以减少过拟合、降低训练成本并提高可解释性。

许多相关的数值特征会减慢训练速度并导致过拟合。

应用 PCA 投影到捕获大部分方差的主成分上；首先进行缩放。

原因: PCA 消除多重共线性并压缩维度，以牺牲部分可解释性来换取稳定性。

多个预处理步骤在训练和服务中必须一致应用。

将归因器、编码器和缩放器链接到一个 `Pipeline` / `ColumnTransformer` 中，仅在训练数据上拟合。

原因: 一个拟合的管道可以保证一致的转换，并防止折叠之间的数据泄露。

参考

原始日期列的预测价值很小。

分解为年、月、星期几、是否是周末以及循环的 sin/cos 编码。

原因: 模型无法从原始时间戳中读取日历语义；明确的部分可以揭示季节性。

模型选择、训练和评估

需要对泛化能力进行诚实的估计。

拆分为训练/验证/测试集；在验证集上调优，在未触及的测试集上报告最终结果。

原因: 重复使用测试集进行调优会泄露信息并夸大实际性能。

小数据集使得单次拆分不可靠。

使用k折交叉验证（分类任务使用分层交叉验证）来平均不同折叠的性能。

原因: 交叉验证提供了方差更低的估计，并利用所有数据进行训练和验证。

训练准确率高，测试准确率低。

诊断过拟合（高方差）；添加正则化，简化模型，或获取更多数据。

原因: 反之——两个分数都低——是欠拟合（高偏差），需要更丰富的模型或特征。

欺诈模型报告97%的准确率，但错过了大部分欺诈。

使用精确率、召回率、F1、和 ROC-AUC / PR-AUC，而不是准确率。

原因: 在不平衡的目标上，一个不变的多数预测会获得高准确率，但实际上毫无用处。

需要查看分类器在哪里犯错。

阅读混淆矩阵；从中推导出精确率（FP成本）和召回率（FN成本）。

原因: 正确的阈值取决于假阳性还是假阴性的成本更高。

评估一个连续目标模型。

报告 RMSE/MAE 以表示误差大小，R² 以表示解释的方差；当大误差最重要时选择 RMSE。

原因: RMSE 对大错误的惩罚比 MAE 更大；单独的 R² 在非线性拟合上可能会产生误导。

默认模型参数未能充分发挥性能。

在交叉验证下使用网格搜索或随机搜索进行调优；对于大型搜索空间，首选随机搜索。

原因: 当许多参数相互作用时，随机搜索比穷举网格搜索能更快找到好的区域。

比较 AutoAI 的多个候选管道。

根据所选指标在 AutoAI 排行榜上进行排名，然后在部署前在保留数据上验证最佳管道。

原因: 排行榜加速了选择，但最终选择必须在未触及的数据上经受住考验。

参考