手册

AWS Certified Machine Learning Engineer Associate

最后审核：2026年5月

MLA-C01 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

机器学习数据准备

选择一个可视化数据准备工具。

专注于机器学习，与SageMaker Studio集成 + 流 → Processing job → Pipeline → Notebook导出 → SageMaker Data Wrangler。具有可重用配方、数据分析、无SageMaker依赖的通用数据清洗 → AWS Glue DataBrew。50 TB以上数据使用自定义Spark代码 → Amazon EMR。

原因: Data Wrangler是SageMaker原生选项（300多个转换，日期时间提取，导出到Pipeline/Processing）。DataBrew基于配方且与源无关。EMR处理规模和任意Spark任务。

参考

对S3、RDS、DynamoDB中的数据进行编目，以便分析师和SageMaker能够发现数据集。

AWS Glue Crawlers使用Schema + 元数据填充AWS Glue Data Catalog。Athena、Redshift Spectrum和SageMaker都可以使用它。

参考

需要对数据湖进行列级和行级访问控制，并带审计日志。

AWS Lake Formation。IAM和S3桶策略不提供结构化数据的列级粒度。

原因: Lake Formation集中管理Glue Data Catalog的治理，并与CloudTrail集成进行审计。

参考

在S3数据上运行即席SQL，无需预置任何资源。

Amazon Athena。无服务器，按TB扫描量付费。分区数据并使用Parquet来降低成本和时间。

参考

使用现有PySpark代码进行50 TB特征工程，必须在4小时内完成。

带有Spark的Amazon EMR。可调集群大小，支持Spot实例，可运行现有代码而无需修改。

原因: Glue ETL也运行Spark，但EMR对集群形态提供更多控制；SageMaker Processing适用于较小规模的单容器作业。

参考

在训练前运行自定义scikit-learn / pandas预处理脚本。瞬时计算，无闲置成本。

使用SKLearn（或PySpark）容器的SageMaker Processing job。进行资源配置、运行并终止。

原因: 优于在Notebook上运行（持续运行，产生费用）或Lambda（15分钟限制，内存上限）。

参考

经济高效地标注100,000张图片——希望结合人工和自动化标注。

启用自动数据标注的Amazon SageMaker Ground Truth。在初始人工标注子集后，Ground Truth训练一个模型并自动标注高置信度样本。

原因: 主动学习通常可将标注成本降低高达70%。A2I用于人工审查模型预测，而非批量标注。

参考

多个标注者意见不一致；需要高级审阅员验证部分标签。

Ground Truth标签验证（审计）工作流。一部分标签被路由到审查人员进行批准、拒绝或调整。结合标注整合实现多工作者多数投票。

参考

训练（批处理）和推理（亚10毫秒）都需要相同的工程特征。

Amazon SageMaker Feature Store，在特征组上同时启用在线（online）和离线（offline）存储。在线存储支持实时GetRecord；离线存储（S3中的Parquet）支持训练。

原因: 无需自定义DynamoDB ↔ S3同步，即可消除训练/服务偏差。

参考

定义特征组——哪些是强制性的。

记录标识符名称（每条记录的唯一键）和事件时间特征名称（用于时间点查询的时间戳）。

参考

连接两个特征组进行训练，同时避免未来特征值泄露。

使用事件时间列，对离线存储进行时间点（Point-in-time）连接。每个训练行只看到在其事件时间戳存在的特征值。

原因: 直接对最新值进行JOIN会导致数据泄露，因为它会将事件后特征漂移暴露给模型。

参考

为500 GB数据集选择一个SageMaker训练数据输入模式。

文件模式（File mode）→ 整个数据集首先下载（启动慢，EBS成本高）。管道模式（Pipe mode）→ 从S3流式传输，启动快，存储成本低。快速文件模式（FastFile mode）→ 懒惰的文件级流式传输。对于大型数据集，请使用管道模式（或快速文件模式）以避免下载。

参考

数百万个小文件（每个约50 KB）——管道模式吞吐量差。

打包成Amazon RecordIO (protobuf)并通过管道模式进行流式传输。顺序记录消除了每个文件的S3 GET开销。

参考

为S3上的机器学习数据湖选择存储格式和布局，并考虑频繁的列子集读取 + 分区过滤。

Parquet（列式、压缩）按最常过滤的列（例如日期或区域）进行分区。在Athena和SageMaker中驱动列剪枝 + 分区剪枝。

参考

Glue ETL每次运行都会重新处理已处理过的文件。

启用Glue job bookmarks。使用PAUSE选项，以便失败的运行不会推进bookmark；仅在需要时重置。

参考

在Glue ETL管道中验证Schema、类型、值范围和空值约束。

使用DQDL规则的AWS Glue Data Quality。当检查失败时，暂停管道。

参考

编码分类特征。有些是有序的（例如Basic/Standard/Premium），有些是无序的（例如美国州份）。

有序 → 序数编码（保留等级）。无序 → 独热编码（避免虚假序数关系）。避免对无序特征使用标签编码。目标编码需要仔细的交叉验证以避免数据泄露。

数值列存在缺失值，且这些缺失值与另一个特征（例如收入缺失取决于就业类型）相关。

基于组的中位数插补（按就业类型计算中位数）。保留关系；均值对异常值敏感；丢弃会丢失数据；零值会引入偏差。

正类占比为0.3%的二元分类。

仅在训练折叠上（拆分后）进行SMOTE过采样。结合PR曲线/F1评估，而不是准确率。

原因: 在拆分后应用过采样以避免数据泄露。准确率在不平衡数据上具有误导性。

右偏的数值特征（例如收入）损害线性模型性能。

对数变换。压缩右侧尾部并产生更对称的分布。标准化/Min-Max变换改变尺度，但不改变形状。

50个高度相关的特征；希望降低维度同时保留方差。

PCA。将相关特征转换为按方差排序的非相关主成分。

选择训练/验证/测试数据集划分策略。

不平衡分类 → 分层划分（保留类别比例）。时间序列 → 按时间顺序划分（在早期数据上训练，在最新数据上测试）；绝不要随机打乱。IID表格数据 → 随机划分。

机器学习模型开发

选择一个SageMaker内置算法。

表格分类/回归 → XGBoost或Linear Learner。大规模多类别文本分类 → BlazingText（监督式）。具有相关序列和季节性的时间序列 → DeepAR。数值数据的无监督异常检测 → Random Cut Forest。主题建模 → Neural Topic Model。翻译/Seq2Seq → Sequence-to-Sequence。像素级分类 → Semantic Segmentation。配对实体嵌入（用户/物品） → Object2Vec。

参考

在表格数据上自动比较多种算法；希望获得排行榜及其背后的notebook。

SageMaker Autopilot。尝试算法，进行特征工程，调优超参数，生成候选notebook。

参考

内置算法中没有的自定义训练框架/专有分词器。

BYOC (Bring Your Own Container)：带有代码和依赖项的Docker镜像，推送到Amazon ECR，并在SageMaker训练中引用。在不放弃定制化的情况下，保留托管基础设施（Spot、分布式、生命周期）。

参考

用于医学分类的小型图像数据集（约2,000张）。

从ImageNet上预训练的模型（例如ResNet）进行迁移学习。微调最后几层。SageMaker Image Classification直接支持。

原因: 在小数据上从头训练会导致过拟合。预训练特征（边缘、纹理）可以很好地迁移到医学图像。

快速微调预训练的基础模型，无需编写自定义训练代码。

SageMaker JumpStart微调API：选择模型ID，以预期格式（通常是JSONL）提供数据集，启动微调作业，从JumpStart部署到端点。

参考

使LLM适应特定领域。大量静态知识 → 选择RAG vs 微调 vs 仅提示。

经常变化的领域知识 → 通过Bedrock知识库使用RAG。具有标注示例的品牌语调/一致风格 → Bedrock模型定制（微调，通常是参数高效适配器）。小型静态指导 → 少量样本提示工程。

参考

调优8个超参数；每个训练作业30分钟；计算资源有限。

使用贝叶斯优化（默认）的SageMaker Automatic Model Tuning。构建目标函数的概率模型，并采样有前景的区域。

原因: 网格搜索组合爆炸；随机搜索浪费预算。指定目标指标（例如`validation:auc`）和类型（`Maximize`）。

参考

50个作业后调优停滞不前。

使用父作业作为先验，并围绕表现最佳的配置缩小范围，启动带热启动的新调优作业。

参考

每月在新标签上继续训练现有模型——不要从头开始。

增量训练：将之前的模型artifact作为输入。Image Classification、Object Detection、Semantic Segmentation内置算法支持。

参考

选择一种分布式训练策略。

模型适合单个GPU但数据量巨大 → 数据并行（复制模型，拆分批次，AllReduce梯度）。模型不适合单个GPU → 模型并行（跨GPU拆分层/张量）。100亿以上参数 → SageMaker模型并行库（张量+流水线并行）。

参考

PyTorch / TensorFlow训练太慢；希望在不改变准确率的情况下进行图级优化。

SageMaker Training Compiler。编译模型图；可将训练时间缩短高达50%。

参考

可容忍中断的长时间训练作业；希望大幅节省成本。

SageMaker Managed Spot Training（高达90%折扣）。配置检查点到S3，以便SageMaker在中断后可以恢复。

参考

训练损失持续下降，验证损失在第50个epoch后开始上升。

过拟合。在验证损失达到最小值时应用提前停止，并加入Dropout / L2权重衰减。更多层会使情况恶化。

选择正确的分类指标。

不平衡 + 稀有正样本重要 → 召回率（recall）、F1、PR曲线 / 平均精度（Average Precision）（不是ROC AUC，后者会被大量真负例夸大）。带不平衡的多类别 → 宏平均F1。与阈值无关的排序 → AUC。概率校准 → 对数损失（log loss） / Brier分数。

回归模型在高预测值时过高预测，在低预测值时过低预测。

绘制残差与预测值图；使用平均误差（带符号）来评估系统性偏差。RMSE / MAE / R²会隐藏方向。

每个输入可以同时属于多个类别。

每个输出神经元使用Sigmoid激活函数和二元交叉熵损失（独立概率）。Softmax + 类别交叉熵假设类别互斥。

使用元学习器堆叠多个基础模型。

k折交叉验证：每个基础模型在其保留的折叠上生成折外预测；跨折叠收集这些预测，并用它们训练元学习器。

原因: 在相同的训练集上训练基础模型并进行预测会导致信息泄露给元学习器。

跟踪和比较多次训练运行（参数、指标、artifact）。

SageMaker Experiments。将`experiment_config`（实验 + 试验 + 试验组件）传递给训练作业；SageMaker自动记录超参数、输入配置、指标和artifact。

参考

无需重写脚本，即可检测训练病理（梯度消失、损失不下降、张量爆炸）。

带有内置规则（`VanishingGradient`、`LossNotDecreasing`、`ExplodingTensor`、`Overfit`）的SageMaker Debugger。通过hook捕获张量；实时评估规则。

参考

机器学习工作流部署与编排

选择一个SageMaker推理模式。

稳定的低延迟同步 → 实时端点。间歇性/空闲流量，无需GPU → 无服务器推理（配置Provisioned Concurrency以消除冷启动）。每次请求运行时间长（>60秒）或大型payload → 异步推理。S3记录的批量离线评分 → 批量转换（Batch Transform）。

参考

许多低流量模型——每个模型一个端点太昂贵。

SageMaker多模型端点（MME）。模型按需加载到共享实例中。一个端点，多个模型，成本低。

参考

从一个端点，每次请求并行调用两个独立模型。

直接调用模式下的多容器端点。调用者独立地针对每个容器。

参考

每次请求的顺序处理：分词 → 嵌入 → 分类，每个步骤在单独的容器中。

SageMaker推理管道（串行模式）。最多15个容器串联；每个容器的输出作为下一个容器的输入；一个端点。

参考

实时端点必须能应对1000请求/秒的峰值，但在夜间缩减到接近零。

Application Auto Scaling基于`InvocationsPerInstance`的目标跟踪。随着流量变化，在端点后面添加/删除实例。

参考

将新模型推广到10%的流量，烘烤30分钟，在警报时自动回滚。

SageMaker端点部署配置，采用金丝雀或线性流量转移 + CloudWatch警报实现自动回滚。

参考

在不影响用户的情况下，使用生产流量验证新模型。

影子变体（Shadow variants）。生产流量被复制到影子模型；只有生产模型的响应返回给客户端。

参考

在一个端点上运行两个模型版本，流量按90/10分割。

SageMaker生产变体，`initial_variant_weight`设置为0.9 / 0.1。使用`UpdateEndpointWeightsAndCapacities`进行更新。

参考

根据成本/延迟/吞吐量，为实时端点选择合适的实例类型。

SageMaker Inference Recommender。在候选实例类型上对模型进行基准测试并报告建议。

参考

模型版本控制，通过正式批准门控生产部署，跟踪血缘。

SageMaker模型注册表。审批状态（PendingApproval / Approved / Rejected），跟踪血缘，与Pipelines和CI/CD集成。

参考

原生机器学习工作流：训练 → 评估 → 有条件地注册/部署。

带有TrainingStep → ConditionStep（指标阈值）→ RegisterModel → Lambda步（或CreateModel/Endpoint）的SageMaker Pipelines。原生SageMaker集成，参数化，缓存，血缘。

参考

管道必须协调Glue ETL + Lambda + SageMaker训练 + SNS / DynamoDB。

AWS Step Functions。跨堆栈的原生服务集成；对于非SageMaker步骤，比Pipelines功能更丰富。

原因: Pipelines是纯机器学习工作流的正确选择；当需要更广泛的AWS服务集成时，Step Functions是正确选择。

参考

希望获得预构建的MLOps CI/CD脚手架（CodePipeline + CodeBuild + Pipelines）。

SageMaker MLOps项目模板。一键生成仓库 + 管道 + IAM + Pipelines步骤。

参考

当模型监控器检测到漂移时自动再训练。

Model Monitor → CloudWatch警报（基于违规指标）→ EventBridge规则 → 启动SageMaker Pipeline执行。

参考

将TensorFlow模型部署到ARM边缘设备；需要它小巧 + 快速。

SageMaker Neo。为目标硬件编译；速度提高25倍，内存减少约1/10。通过DLR运行时部署；结合IoT Greengrass实现离线边缘。

参考

小型模型（<50 MB），每日请求<100次，可容忍≤10秒延迟，希望成本最低。

带有容器镜像（高达10 GB）的AWS Lambda。按请求付费，无闲置成本；SageMaker端点按小时计费。

推理需要60秒以上（LLM长文本）。实时端点超时。

SageMaker异步推理。立即返回S3位置；处理时间长达60分钟；完成后通过SNS通知。

参考

调整Batch Transform以在独立记录下获得最大吞吐量。

将`BatchStrategy`设置为`MultiRecord`，并设置大的`MaxPayloadInMB`，同时提高`MaxConcurrentTransforms`以在实例中并行处理。

参考

机器学习解决方案监控、维护与安全

检测输入特征分布是否已偏离训练时基线。

SageMaker模型监控器 — 数据质量。捕获推理数据，与从训练数据计算的基线进行比较，在漂移时发出警报。

原因: 设置顺序是固定的：(1) 基线作业 → (2) 监控计划 → (3) 基于约束违规指标的CloudWatch警报。

参考

当地面真实数据延迟到达时，检测预测质量下降（准确率/F1/RMSE）。

SageMaker模型监控器 — 模型质量。将捕获的预测与延迟的地面真实标签合并；当指标低于基线时发出警报。

参考

输入分布看起来没有变化，但预测质量已发生变化。

SageMaker Clarify特征归因漂移监控器（基于SHAP）。通过特征重要性变化检测概念漂移。当有地面真实数据可用时，与模型质量监控器结合使用。

参考

准确率下降，但输入特征分布未变。

概念漂移（标签/特征关系发生变化）。数据漂移已被排除。修复：在最近的标注数据上重新训练。

训练前检查数据集是否存在偏差。

SageMaker Clarify训练前偏差指标。Class Imbalance (CI) 用于样本量差异；Difference in Positive Proportions of Labels (DPL) 用于标签率差异；KL/JS散度用于分布差距。

参考

检查训练后的模型是否存在偏差。

SageMaker Clarify训练后偏差指标。Disparate Impact (DI)、Accuracy Difference (AD)、Conditional Acceptance、Treatment Equality。针对模型预测运行。

原因: 训练前DPL干净但训练后DI有偏差 = 模型本身放大了代理变量。调查特征（例如邮政编码）。

参考

监管机构要求提供每个预测的特征归因。

SageMaker Clarify SHAP值。每个特征对每个预测的贡献的大小 + 方向。与模型卡集成。

参考

合规性要求对每个生产模型进行结构化文档记录（预期用途、训练数据、评估、伦理、局限性）。

SageMaker模型卡。版本化；与模型注册表集成。

参考

审计谁在何时创建了哪个训练作业/端点/Notebook。

AWS CloudTrail。捕获所有SageMaker API调用（身份、时间、IP、参数）。存储在S3中，用Athena查询。

参考

在端点出现5xx错误/延迟峰值时发出警报。

CloudWatch针对`Invocation5XXErrors`、`Invocation4XXErrors`、`ModelLatency`、`OverheadLatency`设置警报。通过SNS通知。

参考

Notebook需要从一个S3桶读取训练数据，并向另一个桶写入artifact。

自定义IAM策略：对训练桶/前缀的`s3:GetObject`权限和对artifact桶/前缀的`s3:PutObject`权限，附加到SageMaker执行角色。避免使用`AmazonS3FullAccess`。

参考

跨SageMaker资源的每个团队隔离。

基于属性的访问控制（ABAC），使用IAM条件`aws:ResourceTag/project`。标签为`project=A`的资源仅对策略匹配的角色可访问。

参考

使用客户管理密钥 + 轮换来加密训练数据和模型artifact。

使用客户管理密钥（CMK）的SSE-KMS。KMS密钥轮换、密钥策略、CloudTrail审计。在训练作业 + 端点配置（卷 + 输出）中指定KMS密钥，供SageMaker使用。

参考

跨多个实例的分布式训练；加密训练容器之间的流量。

在训练作业上设置`EnableInterContainerTrafficEncryption=true`。在分布式容器之间添加TLS。

参考

容器不得进行出站网络调用；数据应保留在SageMaker复制通道内。

在训练/处理作业或端点上设置`EnableNetworkIsolation=true`。SageMaker会在容器运行前将S3输入通道复制进来；容器没有出站网络访问。

参考

训练不得访问公共互联网。

在没有NAT/Internet Gateway的私有子网中运行SageMaker。添加VPC端点——S3的网关端点，SageMaker API + Runtime + ECR + STS + CloudWatch Logs的接口端点。

参考

机器学习管道从RDS拉取特征——凭证必须自动轮换。

AWS Secrets Manager，启用自动轮换（RDS的内置Lambda轮换）。

参考

强制所有SageMaker资源使用VPC + KMS + 批准的实例类型。

预防性措施 → SageMaker Service Catalog产品（预批准配置）和IAM条件键（`sagemaker:VpcSecurityGroupIds`、`sagemaker:VolumeKmsKey`），拒绝不合规的API调用。检测性措施 → AWS Config托管/自定义规则。

参考