手册

Google Cloud Professional Machine Learning Engineer

最后审核：2026年5月

PMLE 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

设计机器学习解决方案

为具有强大 SQL 技能的团队，在 BigQuery 的大型表格数据集上构建分类、回归或推荐模型。

使用 BigQuery ML 和 SQL 语法（例如，`CREATE MODEL ... OPTIONS(model_type='BOOSTED_TREE_CLASSIFIER')`）。使用 `EXPLAIN_PREDICT` 启用可解释性。

原因: 避免数据移动，利用现有 SQL 技能快速开发。将数据治理保留在 BigQuery 内部，并提供集成式可解释性。

参考

从表单或发票等非结构化文档中提取结构化数据（例如，姓名、日期、代码），且只需最少的 ML 专业知识。

使用 Document AI，配合预训练或自定义处理器。使用带标签的示例文档训练自定义处理器，以适应特定布局。

原因: 一个专用的托管式文档解析服务，其性能优于从头开始构建自定义 OCR 和解析逻辑。

参考

分析音频或文本等非结构化数据，以获取情感、实体或主题，无需训练自定义模型。

链式调用预训练 API。示例：先使用 Speech-to-Text API 进行转录，再使用 Natural Language API 进行实体和情感分析。

原因: 常见用例的最快上市时间。利用 Google 训练的模型，无需数据标注或模型训练。

使用带标签的数据，但在 ML 编码专业知识有限的情况下，构建高质量的自定义图像、视频或表格模型。

使用 Vertex AI AutoML（例如，AutoML Vision Object Detection）。提供带标签的数据，让服务处理架构搜索和训练。

原因: 平衡自定义模型需求与易用性。在自定义任务（例如，识别特定产品）上优于通用预训练 API。

参考

构建基于大型专有文档语料库回答问题的对话式 AI 或知识助手。

实现检索增强生成（RAG）模式。使用 Vertex AI Vector Search 查找相关文档块，并将其作为上下文传递给 Gemini 模型，以生成有根据的响应。

原因: 将 LLM 响应基于事实数据，减少幻觉并提供引用。相比针对知识的微调，更具可扩展性和时效性。

以最少的代码创建企业级聊天机器人或搜索引擎，并连接到 Cloud Storage 或 BigQuery 等内部数据源。

使用 Vertex AI Agent Builder。配置数据存储连接器到您的知识库，并使用工具（函数调用）进行实时数据查找。

原因: 一种低代码解决方案，可自动化 RAG 管道创建，包括文档解析、分块、嵌入和检索，实现快速部署。

对来自制造摄像机的高容量视频流进行实时缺陷检测，延迟低于一秒。

使用 Vertex AI Edge Manager 将优化模型部署到边缘设备。在本地执行推理，并仅将缺陷元数据发送到云端进行监控。

原因: 处理高带宽和低延迟要求，这些要求如果仅采用云端方法则不可行或成本过高。

协作与数据/模型管理

管理 ML 特征，确保批处理训练和实时服务之间的一致性，防止训练-服务偏差。

使用 Vertex AI Feature Store。定义具有不同同步计划（批处理、流式处理）的特征组。使用时间旅行查询获取时间点正确的训练数据。

原因: 提供集中式特征存储库，确保特征定义的一致性，并解决训练数据的时间点正确性问题。

参考

通过版本控制、审批工作流和可审计的部署历史记录来实现模型治理。

使用 Vertex AI Model Registry 进行模型版本控制和存储。链接到实验和数据集。使用 IAM 和版本别名（例如，“生产”）来管理部署审批。

原因: 集中式模型管理，实现治理、可复现性和安全回滚能力。与 CI/CD 管道集成。

系统地跟踪和比较 ML 实验，包括超参数、指标和工件，以确保可复现性。

使用 Vertex AI Experiments。自动记录训练作业的参数和指标。链接工件和数据集以进行完整血缘跟踪。

原因: 提供结构化、可查询的实验管理系统，超越电子表格或手动日志，实现更好的协作。

在敏感数据（例如，PHI、PII）上训练和部署模型，同时满足严格的数据驻留和安全要求。

在 VPC Service Controls 边界内配置 Vertex AI。使用 Private Endpoints 进行网络隔离，并使用客户管理加密密钥 (CMEK) 来保护静态数据。

原因: 创建安全的网络边界，防止数据外泄，并确保所有处理和数据传输都在受控边界内进行。

对训练数据进行版本控制，以确保实验可复现，并且模型可以追溯到用于训练的精确数据快照。

使用带有版本控制的 Vertex AI 托管数据集。为重要数据更改创建新的数据集版本，并将特定版本链接到训练运行。

原因: 提供不可变、版本化的数据快照，并在 ML Metadata 中自动进行血缘跟踪，这对于合规性和调试至关重要。

以有限的人工标注预算，为一个大型未标注数据集进行标注，用于模型训练。

实现主动学习循环。在一个小的带标签子集上训练初始模型，然后使用其不确定性分数来优先选择最具信息量的样本进行人工标注。

原因: 最大化每个标注样本的价值，与随机抽样或穷举标注相比，减少了标注成本和时间。

将原型扩展为机器学习模型

通过在多个 GPU 或节点上进行扩展，缩短大型模型在海量数据集上的训练时间。

使用同步数据并行策略，例如 TensorFlow 的 `MultiWorkerMirroredStrategy`。打包训练代码并以多工作器配置提交到 Vertex AI Training。

原因: 大多数训练作业扩展的标准有效方法。Vertex AI 管理集群设置和同步，只需最少的代码更改。

训练一个基础模型（LLM），该模型太大，无法放入单个加速器的内存中（例如，超过 50B 参数）。

使用 3D 并行：张量并行（在节点内分片层）、管道并行（跨节点分阶段层）和数据并行（跨 pod 复制）。在 TPU Pod 上训练。

原因: 训练超出单设备内存的模型唯一可行的方法。每个并行维度都解决了不同的扩展瓶颈（内存、计算、网络）。

最小化长时间运行、容错训练作业（例如，>12 小时）的成本。

使用 Spot VMs（可抢占式）进行训练，可节省高达 80% 的成本。实现频繁地将检查点保存到 Cloud Storage，并配置作业自动重启。

原因: 大幅降低训练成本。检查点确保在抢占时只丢失最少的进度，使其成为非紧急作业的可靠策略。

针对具有大型复杂搜索空间的模型，高效寻找最优超参数。

使用 Vertex AI 超参数调优 (Vizier) 和贝叶斯优化。定义搜索空间和目标指标。启用提前停止以剪除无前景的试验。

原因: 贝叶斯优化比网格搜索或随机搜索的样本效率更高，能够以更少的试验找到更好的配置，从而节省时间和金钱。

训练作业需要特定库版本、自定义 CUDA 内核或预构建容器中不可用的私有软件包。

构建一个包含所有固定依赖项的自定义 Docker 容器。将容器推送到 Artifact Registry 并在 Vertex AI Training 作业中引用它。

原因: 提供对执行环境的完全控制，确保可复现性并处理预构建容器无法处理的复杂依赖项。

在非常大的 BigQuery 数据集上训练模型，而无需将其导出到 Cloud Storage 的延迟或成本。

直接从训练容器中使用 BigQuery Storage Read API。这使得数据能够高吞吐量、并行流式传输到 TensorFlow 或 PyTorch 数据加载器中。

原因: 读取大型 BQ 数据集进行训练最快、最有效的方法。避免了中间存储和 I/O 瓶颈。

参考

模型部署与扩展

在保持低延迟和优化成本的同时，服务一个具有高或可变流量（例如，峰值 10,000 RPS）的模型。

将模型部署到具有 GPU 机器类型的 Vertex AI 端点。根据流量或利用率配置自动扩缩，设置最小和最大副本数量。

原因: 自动扩缩资源以匹配需求，确保在高峰期的性能和在低谷期的成本节约。GPU 为复杂模型提供低延迟。

向全球用户群提供模型预测，并在每个区域保持最小延迟。

将模型部署到每个目标地理区域（例如，美国、欧盟、亚太地区）的区域 Vertex AI 端点。使用全球负载均衡器将用户路由到最近的端点。

原因: 通过从靠近用户的基础设施提供请求，最大限度地减少网络延迟。对于延迟敏感的全球应用程序至关重要。

通过在监控性能的同时逐步转移流量，安全地部署新模型版本。

将新版本部署到与当前模型相同的 Vertex AI 端点。使用流量拆分将一小部分流量（例如，5%）发送到新版本，然后逐渐增加。

原因: 支持金丝雀部署和 A/B 测试。允许在新模型在真实生产流量下进行安全验证，并具有即时回滚能力。

从包含数百万个商品的目录中提供实时推荐，延迟低于 50 毫秒。

实现两阶段架构：1) 使用 Vertex AI Vector Search (ANN) 进行快速检索阶段，以找到 Top-K 候选。2) 精确排序阶段，将更复杂的模型应用于小候选集。

原因: 平衡精度和延迟。快速 ANN 检索修剪了庞大的商品空间，使得计算成本较高的排序器能够在可管理的子集上运行。

降低模型推理延迟，以满足严格的实时要求（<20 毫秒）。

应用模型优化技术。使用 TensorRT 编译 GPU 模型，或使用 OpenVINO 编译 CPU 模型。使用量化（例如，INT8）来降低精度并提高吞吐量。

原因: 这些技术优化了模型图并利用硬件特定的加速，通常可以实现 2-5 倍的延迟降低，而不会显著损失准确性。

经济高效地服务数十个低流量模型，而无需为每个模型配置专用资源。

使用多模型端点在共享的服务资源集上共同托管多个模型。Vertex AI 根据传入请求动态加载模型。

原因: 通过提高资源利用率，相比于专用的单模型端点，显著降低了服务大量低频流量模型的成本。

降低大型语言模型（LLM）生成内容的延迟，以适应交互式应用。

实施推测解码。使用一个更小、更快的“草稿”模型生成候选标记，然后由更大、更准确的模型一次性验证这些标记。

原因: 通过将顺序解码替换为并行验证，显著加速了标记生成，从而减少了 LLM 服务的主要瓶颈。

自动化与编排机器学习管道

自动化多步骤 ML 工作流，包括数据验证、预处理、训练、评估和条件部署。

使用 Vertex AI Pipelines 和 Kubeflow Pipelines (KFP) SDK 将工作流定义为 DAG。为每个步骤使用预构建或自定义组件。

原因: 为 ML 提供托管的无服务器编排服务，内置工件跟踪、血缘、缓存和条件执行。

参考

防止不良数据进入训练管道并导致模型质量下降。

在管道早期添加 TensorFlow Data Validation (TFDV) 组件。将传入数据统计信息与基线架构进行比较，如果检测到漂移或异常则停止管道。

原因: 作为自动质量门，主动捕获数据问题，避免浪费计算资源并导致模型缺陷。

当新数据到来或检测到模型漂移时，自动触发模型再训练。

使用事件驱动架构。Pub/Sub 消息（例如，来自 Cloud Storage 更新或漂移警报）触发 Cloud Function 或 Eventarc 触发器，启动 Vertex AI Pipeline 运行。

原因: 创建一个响应迅速、高效的系统，仅在必要时重新训练模型，确保模型的新鲜度，避免浪费的计划运行。

仅当新模型在关键业务指标上优于当前生产模型时，才自动化模型晋升到生产环境。

在 Vertex AI Pipeline 中，添加一个评估组件，将新模型与生产基线进行比较。使用 `dsl.Condition` 仅在新模型达到或超过性能阈值时执行部署组件。

原因: 自动化 MLOps 管道中的最终质量门，防止性能退化，并确保只部署更优的模型。

在多个 ML 管道和团队中标准化常见任务（例如，特征工程、评估）。

将共享逻辑打包成带版本控制的容器化自定义组件。将其存储在 Artifact Registry 中并在项目之间共享。

原因: 促进代码重用，确保一致性，并简化维护。团队可以从可信赖的标准化组件库中组合复杂的管道。

通过避免重复运行期间的冗余计算，加速管道开发并降低成本。

在 Vertex AI Pipelines 中启用执行缓存。如果组件的输入和实现未更改，服务将自动重用其输出。

原因: 通过允许您重新运行管道并仅执行已更改的组件，显著加快了迭代开发速度。

实现 CI/CD 工作流，自动测试和部署 ML 管道代码的更改。

使用由 Git 仓库推送触发的 Cloud Build。构建过程运行组件单元测试，编译管道，并将其部署到预演或生产环境。

原因: 将软件工程最佳实践应用于 MLOps，从而实现对生产 ML 系统的快速、可靠和自动化更新。

监控与维护机器学习解决方案

检测生产模型的性能何时因传入数据或预测结果的变化而下降。

配置 Vertex AI 模型监控。设置作业以检测训练-服务偏差（输入分布与训练时相比发生变化）和预测漂移（输出分布随时间变化）。

原因: 为模型退化提供自动预警系统，从而在业务指标受到显著影响之前进行主动再训练或干预。

参考

模型性能正在下降，但输入特征分布看起来稳定（未检测到数据漂移）。

实施对预测结果与延迟的真实标签进行监控。准确性或其他评估指标的下降表明概念漂移，即特征与目标之间的关系发生了变化。

原因: 单独的特征漂移监控是不够的。概念漂移需要根据实际结果评估模型预测，以检测潜在模式的变化。

为单个模型预测提供解释，以满足法规遵从性或赢得利益相关者的信任。

在已部署的端点上启用 Vertex AI Explainable AI。使用 Sampled Shapley 或 Integrated Gradients 等方法获取每个预测的特征归因。

原因: 提供局部、每个预测的解释，识别哪些特征促成了决策，这对于审计和调试“黑盒”模型至关重要。

确保模型在不同用户群体（例如，人口统计学）之间公平运行，并检测隐藏的偏见。

配置模型监控，以计算和跟踪由敏感属性定义的数据切片上的性能指标（例如，准确性、错误率）。

原因: 聚合指标可能会隐藏少数子群体的糟糕性能。切片分析对于识别和缓解公平性问题至关重要。

防止模型对与其训练数据根本不同的输入做出不可靠、过于自信的预测。

在主模型旁边实现一个分布外 (OOD) 检测模型（例如，自编码器）。高重建误差会将输入标记为 OOD，从而触发回退逻辑。

原因: 提供针对领域漂移的安全机制，通过识别模型何时在其专业领域之外运行来提高模型鲁棒性。

为技术和非技术利益相关者记录模型的预期用途、局限性、训练数据和公平性评估。

使用 Google 的框架创建模型卡。包含模型详细信息、预期用途、道德考量、定量分析（包括切片指标）和局限性等部分。

原因: 负责任的 AI 文档标准，可在整个组织中促进透明度、问责制和正确模型使用。

维护所有预测请求和响应的可搜索、可审计日志，用于合规性和调试。

在 Vertex AI 端点上启用访问日志。配置日志以导出到 BigQuery，用于结构化、长期存储和分析。

原因: BigQuery 提供了一个可扩展、可查询的平台，用于创建审计跟踪、分析预测趋势并将预测与真实数据结合。