手册

AWS Certified AI Practitioner

最后审核：2026年4月

AIF-C01 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

AI和ML基础知识

选择一种学习范式：有标签数据、无标签数据或交互式试错法。

有标签 → 监督学习。无标签聚类/分割 → 无监督学习。智能体通过奖励学习 → 强化学习。

原因: 选择取决于现有数据。RLHF是受人类评分引导的强化学习，用于对齐LLM。

参考

调整预训练模型以适应新的相关任务，而不是从头开始训练。

使用迁移学习。在新领域数据集上对现有模型进行微调。

原因: 重用已学习的表示，与从零开始构建模型相比，可减少训练时间和数据需求。

根据工作负载形状选择 SageMaker 推理模式。

稳定低延迟 → 实时。峰值/空闲流量 → 无服务器。大负载（≤1 GB）或长时间作业（≤1 小时）且接近实时 → 异步。离线批量 → 批量转换。

原因: 实时推理有负载/超时限制；异步推理队列处理大型作业；批量推理用于周期性离线评分。

参考

多个ML团队需要共享和重用特征工程后的特征。

使用 Amazon SageMaker Feature Store 作为在线+离线特征的中央存储库。

原因: 避免重复的特征工程，并保持团队间训练/服务的一致性。

参考

无需编码或ML专业知识即可构建ML模型（例如，为分析师提供需求预测）。

Amazon SageMaker Canvas — 用于训练和推理的可视化无代码界面。

参考

在 VPC 内快速部署基础模型。

Amazon SageMaker JumpStart — 预训练模型可作为 SageMaker 端点部署在您的 VPC 中。

原因: JumpStart 将模型工件和笔记本打包，实现一键式 VPC 绑定部署。

参考

自动化超参数调优和模型选择。

Amazon SageMaker Autopilot — 自动探索算法并调优超参数。

参考

为分类模型选择正确的评估指标。

图像/二元分类正确性 → 准确率。类别细分 → 混淆矩阵。类别不平衡 → F1、精确率、召回率。阈值无关 → AUC。

原因: 准确率在不平衡数据上具有误导性；混淆矩阵显示TP/FP/TN/FN计数；F1平衡了精确率和召回率。

漏报（假阴性）的成本远高于误报（假阳性）——例如欺诈检测、疾病筛查。

优化召回率（敏感度）。接受较低的精确率。

原因: 召回率 = TP / (TP + FN)。最大化召回率可在产生更多误报的代价下，最小化漏报。

模型在训练数据上得分很高，但在测试/生产数据上表现不佳；或者准确率随着 epoch 增加而先提高后下降。

过拟合。通过增加数据、正则化、提前停止、Dropout 或使用更简单的模型来缓解。

原因: 大的训练与测试差距意味着模型记忆了噪声而不是学习了模式。

为单一用途任务选择托管式AI服务。

NLP/情感/实体 → Comprehend。语音转文本 → Transcribe。文本转语音 → Polly。翻译 → Translate。聊天机器人/语音UI → Lex。图像/视频 → Rekognition。文档/PDF文本提取 → Textract。推荐 → Personalize。预测 → Forecast。

原因: 当任务范围明确且在目录中时，托管式AI服务优于自定义模型。

参考

生成式AI基础知识

在AWS上构建生成式AI应用程序，而无需管理模型基础设施。

Amazon Bedrock — 通过单个API全面管理对基础模型（Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere）的访问。

原因: 无需GPU预置，无需模型托管；按令牌付费。当您需要在 VPC 中自托管端点时，SageMaker JumpStart 是替代方案。

参考

定义模型成为“基础模型”的特征。

在多样化、大部分无标签数据上预训练的大型模型；可通过提示、微调或 RAG 适应许多下游任务。

估算单个提示中可容纳多少输入以及什么因素驱动推理成本。

Token 是子词单元。上下文窗口 = 每个请求的最大令牌数（输入 + 输出）。推理成本大致与处理的令牌数成正比。

原因: 令牌数量而非请求数量决定了 Bedrock 的定价。如果长文档超出上下文窗口，请将其分块或选择更大的上下文窗口模型。

选择输出风格：确定性 vs 创造性。

低温度（~0.0–0.3）→ 确定性、可重复。高温度（~0.7–1.0）→ 创造性、多样化。对分类或情感分析使用0，以获得一致的标签。

除了温度之外，进一步限制候选令牌池。

Top-K = 只考虑 K 个最有可能的令牌。Top-P（核心采样）= 考虑令牌直到累积概率达到 P。

原因: Top-P 根据分布形状调整候选集大小；Top-K 是固定宽度的。

以特定风格、长度或语言获取 LLM 输出。

提示工程。添加明确指令（“用法语回应，不超过50字，正式语气”）。

原因: 与为了风格控制而进行微调、再训练或更改模型大小相比，成本更低、速度更快。

在不重新训练的情况下，提高 LLM 在特定任务上的准确性。

少样本提示 — 在新输入之前，将2-5个带标签的输入/输出示例嵌入到提示中。

原因: 上下文学习使模型无需更新权重即可根据示例进行模式匹配。

LLM 在多步推理问题上给出错误答案。

思维链提示 — 指导模型在最终答案之前逐步进行推理（“让我们一步一步地思考”）。

LLM 生成的文本听起来合理，但实际上是错误的或捏造的。

幻觉。通过 RAG（基于检索到的事实）、Bedrock Guardrails、降低温度以及对高风险输出进行人工审查来缓解。

为文本或多模态数据上的语义搜索、聚类或 RAG 检索提供支持。

使用嵌入模型（例如 Titan Embeddings, Cohere Embed）将内容转换为密集向量。在向量数据库中存储和查询。

原因: 嵌入捕获语义意义，因此相似项目在向量空间中彼此靠近（余弦/点积相似性）。

参考

搜索应用程序接受文本和图像作为输入。

多模态嵌入模型（例如 Titan Multimodal Embeddings）— 将文本和图像投影到同一向量空间中。

参考

无需代码或 AWS 账户设置，快速原型化生成式 AI 应用程序。

PartyRock (Amazon Bedrock Playground) — 基于浏览器的无代码应用构建器。

参考

选择 Bedrock 定价模型。

可变/不可预测负载 → 按需（按令牌计费）。稳定高容量或保证吞吐量 → 预置吞吐量。自定义微调模型 → 必须使用预置吞吐量。

原因: 按需定价没有承诺；预置吞吐量按模型单位购买专用容量。

参考

选择能满足您所需质量的最经济的定制方案。

按此顺序尝试：(1) 提示工程，(2) 结合知识库的 RAG，(3) 微调，(4) 持续预训练。

原因: 每一步的投入和成本都会增加。在第一个满足要求的步骤停止。

基础模型的应用

在不微调的情况下，使用公司私有数据（PDF、文档、S3内容）增强基础模型。

创建 Amazon Bedrock 知识库。Bedrock 在推理时处理摄取、分块、嵌入和检索 (RAG)。

原因: 比微调更新成本更低、速度更快。源数据更改 → 重新同步知识库；无需重新训练。

参考

数据频繁变化（库存、价格、新闻），模型必须反映当前状态。

使用知识库进行 RAG。避免微调 — 再训练周期无法跟上。

原因: RAG 将模型与数据分离；知识库独立于模型进行更新。

使用带标签的示例对基础模型进行微调，以完成特定任务。

提供提示-完成（指令-响应）对。JSONL 格式是标准。

原因: 指令微调教导模型将用户输入映射到目标任务中期望的输出。

参考

使用大量无标签的领域文本，教导基础模型专业词汇（医学、法律、科学）。

在无标签领域语料库上进行持续预训练。

原因: 持续预训练更新模型对词汇和概念的理解；指令微调教导任务行为。目标不同，数据形状也不同。

参考

结合 LLM 推理与外部 API、数据库或 AWS 服务调用的多步骤工作流。

Amazon Bedrock Agents — 在单个托管运行时中协调 LLM 推理、工具/API 调用和结果合成。

原因: Agent 规划步骤、调用工具并将结果整合回最终响应，而无需您编写编排循环。

参考

为嵌入选择一个向量数据库。

托管式 RAG → Bedrock 知识库（自动处理向量存储）。自定义向量数据库 → OpenSearch Service (k-NN), 带有 pgvector 的 Aurora PostgreSQL, Neptune Analytics, 或带有 pgvector 的 RDS for PostgreSQL。

原因: OpenSearch 是大规模 k-NN 的默认选择；pgvector 重用现有关系数据库。

参考

从 Bedrock 部署微调模型以用于生产服务。

为自定义 Bedrock 模型购买预置吞吐量。自定义模型无法通过按需定价调用。

原因: 自定义模型容量是专用的，按模型单位计费，并且是调用所必需的。

参考

估算或降低 Bedrock 推理成本。

成本 ≈ 处理的令牌数 × 每令牌费率。通过缩短提示、削减少样本示例、选择更小的模型或在支持的情况下使用提示缓存来降低成本。

参考

通过人工审查（例如专业图像、医疗记录）生成高准确度的带标签数据。

Amazon SageMaker Ground Truth Plus — 托管式 HITL 标签标注团队。

原因: 对于低置信度模型预测的定期审计，请与 Amazon A2I（增强型AI）结合使用。

参考

语音识别误听领域特定术语（医学、法律、品牌名称）。

带有自定义语言模型或在领域文本上训练的自定义词汇表的 Amazon Transcribe。

参考

模型在训练时表现良好，但在生产中表现不佳（过拟合）——在不改变架构的情况下提高泛化能力。

增加训练数据的数量和多样性。不要削减数据或仅添加超参数。

原因: 更具代表性的数据是最高效的解决方案；正则化和提前停止有所帮助，但数据是决定性因素。

评估生成输出的质量。

翻译质量 → BLEU。摘要质量 → ROUGE。与参考的语义相似性 → BERTScore。风格偏好 → 使用自定义提示集进行人工评估。

为输出风格很重要的用例选择 Bedrock 基础模型。

在自定义提示数据集上对候选模型进行人工评估。不要单独依赖公共排行榜或延迟指标。

原因: 风格/语气的契合度是主观的；基准测试无法捕捉到这一点。

参考

通过针对业务数据的自然语言问题生成图表和仪表盘。

QuickSight 中的 Amazon Q — 在 QuickSight 数据集上进行自然语言 BI。

参考

负责任AI指南

检测训练数据或模型预测中的偏差；生成可解释性报告。

Amazon SageMaker Clarify。在训练前后对受保护属性运行偏差指标，并提供基于 SHAP 的特征归因。

原因: 对于受监管的领域（贷款、招聘、医疗保健）是必需的，您必须展示公平性和可解释性。

参考

模型在某个人口统计、族裔群体或地理区域表现较差（例如，不成比例地标记某些群体）。

抽样偏差。重新平衡数据集：对代表性不足的类别进行数据增强；确保数据来源多样化和有代表性。

原因: 代表性不足的训练数据会生成对这些群体服务不足的模型。应在数据层而非模型层进行修复。

记录模型的预期用途、训练数据、性能、局限性和风险，以用于治理和审计。

Amazon SageMaker Model Cards — 与模型绑定的结构化、版本化文档。

参考

限制LLM主题，过滤有害内容，屏蔽PII，或阻止提示注入模式。

Amazon Bedrock Guardrails。配置拒绝的主题、内容过滤器（仇恨、暴力、性、侮辱）、单词过滤器、敏感信息过滤器和上下文 grounding 检查。

原因: 适用于输入和输出；适用于任何 Bedrock 模型和您自己的自定义模型。

参考

确定公司在生成式AI部署中的安全责任份额。

AWS 生成式AI安全范围矩阵。范围1（消费者应用，最低责任）→ 范围5（自训练模型，最高责任）。

原因: 在私有数据上从头开始构建和训练模型，将最大的安全责任赋予公司。

参考

利益相关者或监管机构要求解释模型如何得出预测。

尽可能使用可解释模型（决策树、线性/逻辑回归）。对于复杂模型，可使用偏依赖图（Partial Dependence Plots）、通过 SageMaker Clarify 的 SHAP 特征重要性，或 SageMaker 模型卡。

原因: PDPs 显示每个特征的边际效应；SHAP 分配每个预测的贡献；模型卡为审计捕获完整信息。

生成式AI输出可能复制受版权保护的材料，或被冒充为人类创作的作品。

剽窃/侵犯知识产权风险。通过引用要求、内容来源跟踪、在支持的情况下添加水印、人工审查以及清晰的AI内容披露政策来缓解。

AI解决方案的安全、合规和治理

基础模型应用程序必须将提示和响应保留在 AWS 网络上 — 禁止公共互联网出口。

将 Bedrock 与 VPC 端点 (PrivateLink) 结合用于运行时 API。在组织层面使用 SCP 阻止公共 Bedrock 端点。

原因: PrivateLink 保持请求的私密性并避免数据离开 VPC；SCPs 在所有账户中强制执行规则。

参考

多个团队针对共享的 S3 数据调用 Bedrock；每个团队只能访问自己的客户数据。

为每个团队创建一个 IAM 服务角色，该角色仅授予 Bedrock 访问该团队的 S3 前缀或 KMS 密钥的权限。

原因: 自定义服务角色在资源级别强制执行最小权限。不要授予 Bedrock 广泛的 S3 访问权限，并依赖应用层过滤。

Bedrock 无法读取使用 SSE-KMS 加密的 S3 数据。

授予 Bedrock 服务角色对相关 CMK 的 `kms:Decrypt` 权限和对存储桶/前缀的 `s3:GetObject` 权限。

原因: Bedrock 假定其服务角色来读取数据；该角色需要 S3 和 KMS 权限。

参考

捕获 Bedrock 活动以进行监控、调试、审计和合规性。

两项互补服务。CloudTrail = 每个API调用的发起者/时间/来源（身份、时间戳、源IP）。Bedrock 模型调用日志记录 = 实际的提示/响应负载，写入 CloudWatch Logs 或 S3。同时启用这两项。

原因: CloudTrail 仅捕获元数据；调用日志记录捕获内容。合规性通常需要这两项。

参考

审计员要求提供AI工作负载的AWS合规性报告（SOC、ISO、PCI、HIPAA）。

AWS Artifact — 用于按需AWS合规性报告和协议的自助服务门户。

原因: AWS Audit Manager 持续审计您的使用情况；AWS Artifact 提供AWS自己的证明。

参考

发现和分类 S3 中存在的 PII 或其他敏感数据（训练语料库、模型日志）。

Amazon Macie — 基于 ML 的 S3 敏感数据发现服务。

原因: 使用 Macie 查找需要在数据进入模型或其输出之前进行屏蔽、删除或 KMS 加密的数据。

参考

恶意用户输入试图覆盖系统提示、窃取数据或触发意外操作。

纵深防御：使用 Bedrock Guardrails 进行内容过滤，使用检测/忽略覆盖模式的提示模板，设置输入长度限制，进行输出验证，并为代理设置最小权限的工具权限。

原因: 没有单一的缓解措施是足够的；需要结合输入过滤、输出过滤和能力限制。

自定义模型使用不应泄露到响应中的机密数据进行训练。

删除模型，从训练集中清除机密记录，然后重新训练。输出过滤不足以解决问题。

原因: 嵌入在模型权重中的知识无法在推理时可靠地屏蔽；只有在没有该数据的情况下重新训练才能将其删除。

确定 AWS 负责保护什么，以及客户为 AI 工作负载保护什么。

AWS 责任共担模型：AWS = 云的安全性（硬件、管理程序、区域）。客户 = 云中的安全性（数据、IAM、KMS 密钥、网络、应用程序配置）。

参考