利益相关者要求“在客户中寻找模式”,但没有标注结果。
将其框定为无监督学习(聚类/分段)。将有监督学习保留给存在标记目标变量的情况。
原因: 没有目标列意味着无可预测;强制采用有监督设置会凭空创造标签并使结果产生偏差。
最后审核:2026年6月
C1000-177 考试涉及的架构模式快速参考。从头到尾阅读,或跳转到任意章节。
利益相关者要求“在客户中寻找模式”,但没有标注结果。
将其框定为无监督学习(聚类/分段)。将有监督学习保留给存在标记目标变量的情况。
原因: 没有目标列意味着无可预测;强制采用有监督设置会凭空创造标签并使结果产生偏差。
在预测客户流失(是/否)和预测支出(美元)之间做出决定。
客户流失是二元分类;支出是回归。目标的数据类型决定了任务和指标族。
原因: 任务与目标不匹配会产生无意义的指标——例如,在是/否标签上计算RMSE。
业务希望“减少欺诈”,但数据中不存在欺诈标志。
在建模之前定义目标——商定一个操作性欺诈定义并标记历史记录,或将其视为异常检测。
原因: 没有可衡量目标的模糊目标无法建模;目标定义是一个业务决策,而非技术决策。
为营销响应模型选择一个成功指标。
将指标与业务价值挂钩——例如,在营销活动预算下的精确率/召回率,或预期的收入增长——而不仅仅是原始准确率。
原因: 当模型错过业务实际关心的稀有响应者时,准确率可能看起来很高。
被要求端到端地安排一个数据科学项目的顺序。
遵循CRISP-DM:业务理解 → 数据理解 → 数据准备 → 建模 → 评估 → 部署。
原因: CRISP-DM是IBM遵循的方法论;数据准备是迭代的,通常是工作量最大的部分。
请求是“按区域报告上季度的总销售额”。
通过聚合/BI报告解决,而不是模型。不需要预测。
原因: 确定性查找和聚合需要查询,而不是机器学习;识别这一点可以避免过度工程。
目标需要组织未收集的特征。
首先根据可用数据评估可行性;在承诺模型之前,缩小目标范围或开始数据收集。
原因: 数据可用性限制了可实现的目标;假设有理想的数据会导致项目无法交付。
新的表格数据集刚刚加载到笔记本中。
首先使用 pandas 的 `df.describe()`、`df.info()` 和 `df.head()` 来读取计数、数据类型、范围和明显的空值。
原因: 在任何绘图或建模之前,汇总统计数据会揭示缺失值、错误的数据类型和尺度差异。
需要了解单个数值特征的形状。
使用直方图或KDE图查看形状,使用箱线图查看分布/异常值。
原因: 分布形状(偏度、模态)决定了后续的转换和缩放选择。
收入特征具有长长的右尾。
将其标记为右偏(均值≫中位数);在预处理期间计划进行对数或幂转换。
原因: 偏斜输入会扭曲基于距离和方差的模型;在EDA中识别偏斜可以指导修复。
检查多个数值特征之间的关系。
计算相关矩阵并将其可视化为热力图;检查|r|高于约0.8的对。
原因: 高成对相关性会标记出冗余和潜在的多重共线性,需要在线性模型之前解决。
箱线图显示了超出晶须范围的点。
使用IQR规则(低于Q1−1.5·IQR或高于Q3+1.5·IQR)或z-score进行量化;在删除之前进行调查。
原因: 异常值可能是错误或真正的罕见事件——EDA将其区分开来,这样您就不会丢弃真实的信号。
探索两个数值特征是否一起变化。
使用散点图;添加趋势线或按类别着色以揭示方向、强度和分组。
原因: 散点图揭示了单个相关系数隐藏的非线性关系。
分析一个基数未知的类别列。
使用 `value_counts()` 和条形图查看级别频率和稀有类别。
原因: 高基数和稀有级别会改变编码策略并预示过拟合风险。
具有未知类别平衡的二元目标。
尽早绘制目标分布图;注意正类别比例(例如3%欺诈)。
原因: 在EDA中发现的不平衡决定了后续的重采样和指标选择(而非准确率)。
空值散布在多列中。
量化每列的空值(`df.isnull().sum()`)并检查缺失是否是随机的或系统性的。
原因: 非随机缺失模式可以携带信号;缺失机制驱动了归因决策。
经理在建模前问“EDA告诉了我们什么?”。
总结数据质量问题、候选预测特征和待测试的假设——而不仅仅是图表。
原因: EDA的目的在于形成假设并指导预处理/特征选择,而不是为了美化。
在 watsonx 中组织数据科学工作。
创建 Watson Studio 项目;将数据、Notebook 和模型作为资产添加,共享公共存储和运行时。
原因: 项目是 watsonx 中协作、访问控制和资产谱系的单位。
选择 Python 代码在 Watson Studio 中的执行位置。
将 Notebook 附加到适合工作负载的环境/运行时;闲置时释放以控制计算成本。
原因: 运行时消耗容量单位;合理调整大小可平衡性能和支出。
在时间有限的情况下快速需要一个强大的基线模型。
运行 AutoAI 实验;它会自动选择算法,生成管道,并在排行榜上对其进行排名。
原因: AutoAI 加速了基线化和特征工程;您仍然需要验证和优化顶级的管道。
利益相关者倾向于可视化、低代码管道而非 Notebook。
构建 SPSS Modeler 流——通过拖放节点进行导入、准备、建模和评分。
原因: Modeler 适用于需要透明、轻代码管道的团队;Notebook 适用于代码优先的定制。
为代码优先分析选择库。
使用 pandas/NumPy 处理数据,scikit-learn 进行建模,matplotlib/seaborn 绘制图表——这是 watsonx 的默认堆栈。
原因: 这些库预装在 Watson Studio 运行时中,并且是考试所假设的。
一位队友下个季度必须重新运行您的分析。
将 Notebook 和数据作为项目资产进行版本控制,固定库版本,并记录运行时。
原因: 可复现性取决于捕获的代码、数据和环境——而不是一次性的本地会话。
在拆分为训练/测试集之前缩放特征。
首先进行拆分,然后在训练集上拟合变换器并将其应用于(`transform`)测试集。将这些步骤封装在 scikit-learn Pipeline 中。
原因: 在整个数据集上进行拟合会将测试统计信息泄露到训练中,并夸大评估分数。
一个数值列有8%的缺失值。
通过 `SimpleImputer` 使用中位数进行归因(对偏度具有鲁棒性);考虑添加一个缺失指示器标志。
原因: 中位数能够抵抗异常值;当缺失本身具有信息性时,指示器可以保留信号。
一个类别列存在缺失。
用众数或一个明确的“未知”/“缺失”类别进行归因。
原因: 一个明确的类别可以将缺失模式作为可用信号保留下来,而不是丢弃行。
低基数的名义特征(例如,具有5个值的区域)。
应用独热编码(`OneHotEncoder`);如果模型不需要共线性,则删除一个列。
原因: 独热编码避免了对名义类别施加错误的顺序;删除一个级别可以防止虚假变量陷阱。
特征具有自然顺序(低/中/高)。
使用保留排名的序数编码。
原因: 独热编码会丢弃顺序;而考虑排名的编码可以让模型利用它。
具有数千个级别的类别特征(例如邮政编码)。
使用目标/频率编码或分组,而不是独热编码。
原因: 独热编码会使维度爆炸;目标编码紧凑,但必须在交叉验证内部拟合以避免数据泄露。
在基于距离的模型之前,特征的尺度差异很大。
StandardScaler(零均值,单位方差)适用于大致呈高斯分布的特征;MinMaxScaler 将特征缩放到 [0,1] 范围内。
原因: KNN、SVM、PCA 和梯度下降对尺度敏感;树模型则不然。
一个右偏的正特征会损害线性模型。
应用对数或Box-Cox/Yeo-Johnson幂变换来压缩尾部。
原因: 减少偏度可以稳定方差,并使线性模型和基于距离的模型的关系线性化。
希望在线性模型中捕捉非线性的年龄效应。
将连续特征分箱成范围(等宽或分位数)并作为类别处理。
原因: 分箱允许线性模型捕捉阶跃变化,但代价是会损失一些信息。
真正的极端值会使模型训练不稳定。
在某个百分位数处进行封顶/缩尾,或使用鲁棒缩放器;仅删除已确认的错误。
原因: 封顶在保留记录的同时限制了极端值的影响;删除会丢失真实的罕见事件信号。
正类别仅占训练行的3%。
重新采样——SMOTE/过采样少数类别或欠采样多数类别——仅在训练折叠上拟合;或者设置类别权重。
原因: 平衡测试集会给出错误的结果;重采样应该在训练管道内部进行。
原始时间戳和金额表现不佳。
工程化特征——星期几、距离上次事件的时间、比率、每个客户的聚合。
原因: 领域知情的派生特征通常比更换算法更能提升模型性能。
数百个特征,其中许多是冗余或嘈杂的。
通过过滤(相关性/互信息)、包装(RFE)或嵌入(L1/树重要性)方法进行选择。
原因: 更少、更相关的特征可以减少过拟合、降低训练成本并提高可解释性。
许多相关的数值特征会减慢训练速度并导致过拟合。
应用 PCA 投影到捕获大部分方差的主成分上;首先进行缩放。
原因: PCA 消除多重共线性并压缩维度,以牺牲部分可解释性来换取稳定性。
多个预处理步骤在训练和服务中必须一致应用。
将归因器、编码器和缩放器链接到一个 `Pipeline` / `ColumnTransformer` 中,仅在训练数据上拟合。
原因: 一个拟合的管道可以保证一致的转换,并防止折叠之间的数据泄露。
原始日期列的预测价值很小。
分解为年、月、星期几、是否是周末以及循环的 sin/cos 编码。
原因: 模型无法从原始时间戳中读取日历语义;明确的部分可以揭示季节性。
需要对泛化能力进行诚实的估计。
拆分为训练/验证/测试集;在验证集上调优,在未触及的测试集上报告最终结果。
原因: 重复使用测试集进行调优会泄露信息并夸大实际性能。
小数据集使得单次拆分不可靠。
使用k折交叉验证(分类任务使用分层交叉验证)来平均不同折叠的性能。
原因: 交叉验证提供了方差更低的估计,并利用所有数据进行训练和验证。
训练准确率高,测试准确率低。
诊断过拟合(高方差);添加正则化,简化模型,或获取更多数据。
原因: 反之——两个分数都低——是欠拟合(高偏差),需要更丰富的模型或特征。
欺诈模型报告97%的准确率,但错过了大部分欺诈。
使用精确率、召回率、F1、和 ROC-AUC / PR-AUC,而不是准确率。
原因: 在不平衡的目标上,一个不变的多数预测会获得高准确率,但实际上毫无用处。
需要查看分类器在哪里犯错。
阅读混淆矩阵;从中推导出精确率(FP成本)和召回率(FN成本)。
原因: 正确的阈值取决于假阳性还是假阴性的成本更高。
评估一个连续目标模型。
报告 RMSE/MAE 以表示误差大小,R² 以表示解释的方差;当大误差最重要时选择 RMSE。
原因: RMSE 对大错误的惩罚比 MAE 更大;单独的 R² 在非线性拟合上可能会产生误导。
默认模型参数未能充分发挥性能。
在交叉验证下使用网格搜索或随机搜索进行调优;对于大型搜索空间,首选随机搜索。
原因: 当许多参数相互作用时,随机搜索比穷举网格搜索能更快找到好的区域。
比较 AutoAI 的多个候选管道。
根据所选指标在 AutoAI 排行榜上进行排名,然后在部署前在保留数据上验证最佳管道。
原因: 排行榜加速了选择,但最终选择必须在未触及的数据上经受住考验。