选择一种学习范式:有标签数据、无标签数据或交互式试错法。
有标签 → 监督学习。无标签聚类/分割 → 无监督学习。智能体通过奖励学习 → 强化学习。
原因: 选择取决于现有数据。RLHF是受人类评分引导的强化学习,用于对齐LLM。
AWS Certified AI Practitioner
最后审核:2026年4月
AIF-C01 考试涉及的架构模式快速参考。从头到尾阅读,或跳转到任意章节。
选择一种学习范式:有标签数据、无标签数据或交互式试错法。
有标签 → 监督学习。无标签聚类/分割 → 无监督学习。智能体通过奖励学习 → 强化学习。
原因: 选择取决于现有数据。RLHF是受人类评分引导的强化学习,用于对齐LLM。
调整预训练模型以适应新的相关任务,而不是从头开始训练。
使用迁移学习。在新领域数据集上对现有模型进行微调。
原因: 重用已学习的表示,与从零开始构建模型相比,可减少训练时间和数据需求。
根据工作负载形状选择 SageMaker 推理模式。
稳定低延迟 → 实时。峰值/空闲流量 → 无服务器。大负载(≤1 GB)或长时间作业(≤1 小时)且接近实时 → 异步。离线批量 → 批量转换。
原因: 实时推理有负载/超时限制;异步推理队列处理大型作业;批量推理用于周期性离线评分。
多个ML团队需要共享和重用特征工程后的特征。
使用 Amazon SageMaker Feature Store 作为在线+离线特征的中央存储库。
原因: 避免重复的特征工程,并保持团队间训练/服务的一致性。
无需编码或ML专业知识即可构建ML模型(例如,为分析师提供需求预测)。
Amazon SageMaker Canvas — 用于训练和推理的可视化无代码界面。
在 VPC 内快速部署基础模型。
Amazon SageMaker JumpStart — 预训练模型可作为 SageMaker 端点部署在您的 VPC 中。
原因: JumpStart 将模型工件和笔记本打包,实现一键式 VPC 绑定部署。
自动化超参数调优和模型选择。
Amazon SageMaker Autopilot — 自动探索算法并调优超参数。
为分类模型选择正确的评估指标。
图像/二元分类正确性 → 准确率。类别细分 → 混淆矩阵。类别不平衡 → F1、精确率、召回率。阈值无关 → AUC。
原因: 准确率在不平衡数据上具有误导性;混淆矩阵显示TP/FP/TN/FN计数;F1平衡了精确率和召回率。
漏报(假阴性)的成本远高于误报(假阳性)——例如欺诈检测、疾病筛查。
优化召回率(敏感度)。接受较低的精确率。
原因: 召回率 = TP / (TP + FN)。最大化召回率可在产生更多误报的代价下,最小化漏报。
模型在训练数据上得分很高,但在测试/生产数据上表现不佳;或者准确率随着 epoch 增加而先提高后下降。
过拟合。通过增加数据、正则化、提前停止、Dropout 或使用更简单的模型来缓解。
原因: 大的训练与测试差距意味着模型记忆了噪声而不是学习了模式。
为单一用途任务选择托管式AI服务。
NLP/情感/实体 → Comprehend。语音转文本 → Transcribe。文本转语音 → Polly。翻译 → Translate。聊天机器人/语音UI → Lex。图像/视频 → Rekognition。文档/PDF文本提取 → Textract。推荐 → Personalize。预测 → Forecast。
原因: 当任务范围明确且在目录中时,托管式AI服务优于自定义模型。
在AWS上构建生成式AI应用程序,而无需管理模型基础设施。
Amazon Bedrock — 通过单个API全面管理对基础模型(Anthropic Claude, Meta Llama, Amazon Titan, Stability, AI21, Mistral, Cohere)的访问。
原因: 无需GPU预置,无需模型托管;按令牌付费。当您需要在 VPC 中自托管端点时,SageMaker JumpStart 是替代方案。
定义模型成为“基础模型”的特征。
在多样化、大部分无标签数据上预训练的大型模型;可通过提示、微调或 RAG 适应许多下游任务。
估算单个提示中可容纳多少输入以及什么因素驱动推理成本。
Token 是子词单元。上下文窗口 = 每个请求的最大令牌数(输入 + 输出)。推理成本大致与处理的令牌数成正比。
原因: 令牌数量而非请求数量决定了 Bedrock 的定价。如果长文档超出上下文窗口,请将其分块或选择更大的上下文窗口模型。
选择输出风格:确定性 vs 创造性。
低温度(~0.0–0.3)→ 确定性、可重复。高温度(~0.7–1.0)→ 创造性、多样化。对分类或情感分析使用0,以获得一致的标签。
除了温度之外,进一步限制候选令牌池。
Top-K = 只考虑 K 个最有可能的令牌。Top-P(核心采样)= 考虑令牌直到累积概率达到 P。
原因: Top-P 根据分布形状调整候选集大小;Top-K 是固定宽度的。
以特定风格、长度或语言获取 LLM 输出。
提示工程。添加明确指令(“用法语回应,不超过50字,正式语气”)。
原因: 与为了风格控制而进行微调、再训练或更改模型大小相比,成本更低、速度更快。
在不重新训练的情况下,提高 LLM 在特定任务上的准确性。
少样本提示 — 在新输入之前,将2-5个带标签的输入/输出示例嵌入到提示中。
原因: 上下文学习使模型无需更新权重即可根据示例进行模式匹配。
LLM 在多步推理问题上给出错误答案。
思维链提示 — 指导模型在最终答案之前逐步进行推理(“让我们一步一步地思考”)。
LLM 生成的文本听起来合理,但实际上是错误的或捏造的。
幻觉。通过 RAG(基于检索到的事实)、Bedrock Guardrails、降低温度以及对高风险输出进行人工审查来缓解。
为文本或多模态数据上的语义搜索、聚类或 RAG 检索提供支持。
使用嵌入模型(例如 Titan Embeddings, Cohere Embed)将内容转换为密集向量。在向量数据库中存储和查询。
原因: 嵌入捕获语义意义,因此相似项目在向量空间中彼此靠近(余弦/点积相似性)。
搜索应用程序接受文本和图像作为输入。
多模态嵌入模型(例如 Titan Multimodal Embeddings)— 将文本和图像投影到同一向量空间中。
无需代码或 AWS 账户设置,快速原型化生成式 AI 应用程序。
PartyRock (Amazon Bedrock Playground) — 基于浏览器的无代码应用构建器。
选择 Bedrock 定价模型。
可变/不可预测负载 → 按需(按令牌计费)。稳定高容量或保证吞吐量 → 预置吞吐量。自定义微调模型 → 必须使用预置吞吐量。
原因: 按需定价没有承诺;预置吞吐量按模型单位购买专用容量。
选择能满足您所需质量的最经济的定制方案。
按此顺序尝试:(1) 提示工程,(2) 结合知识库的 RAG,(3) 微调,(4) 持续预训练。
原因: 每一步的投入和成本都会增加。在第一个满足要求的步骤停止。
在不微调的情况下,使用公司私有数据(PDF、文档、S3内容)增强基础模型。
创建 Amazon Bedrock 知识库。Bedrock 在推理时处理摄取、分块、嵌入和检索 (RAG)。
原因: 比微调更新成本更低、速度更快。源数据更改 → 重新同步知识库;无需重新训练。
数据频繁变化(库存、价格、新闻),模型必须反映当前状态。
使用知识库进行 RAG。避免微调 — 再训练周期无法跟上。
原因: RAG 将模型与数据分离;知识库独立于模型进行更新。
使用带标签的示例对基础模型进行微调,以完成特定任务。
提供提示-完成(指令-响应)对。JSONL 格式是标准。
原因: 指令微调教导模型将用户输入映射到目标任务中期望的输出。
使用大量无标签的领域文本,教导基础模型专业词汇(医学、法律、科学)。
在无标签领域语料库上进行持续预训练。
原因: 持续预训练更新模型对词汇和概念的理解;指令微调教导任务行为。目标不同,数据形状也不同。
结合 LLM 推理与外部 API、数据库或 AWS 服务调用的多步骤工作流。
Amazon Bedrock Agents — 在单个托管运行时中协调 LLM 推理、工具/API 调用和结果合成。
原因: Agent 规划步骤、调用工具并将结果整合回最终响应,而无需您编写编排循环。
为嵌入选择一个向量数据库。
托管式 RAG → Bedrock 知识库(自动处理向量存储)。自定义向量数据库 → OpenSearch Service (k-NN), 带有 pgvector 的 Aurora PostgreSQL, Neptune Analytics, 或带有 pgvector 的 RDS for PostgreSQL。
原因: OpenSearch 是大规模 k-NN 的默认选择;pgvector 重用现有关系数据库。
从 Bedrock 部署微调模型以用于生产服务。
为自定义 Bedrock 模型购买预置吞吐量。自定义模型无法通过按需定价调用。
原因: 自定义模型容量是专用的,按模型单位计费,并且是调用所必需的。
估算或降低 Bedrock 推理成本。
成本 ≈ 处理的令牌数 × 每令牌费率。通过缩短提示、削减少样本示例、选择更小的模型或在支持的情况下使用提示缓存来降低成本。
通过人工审查(例如专业图像、医疗记录)生成高准确度的带标签数据。
Amazon SageMaker Ground Truth Plus — 托管式 HITL 标签标注团队。
原因: 对于低置信度模型预测的定期审计,请与 Amazon A2I(增强型AI)结合使用。
语音识别误听领域特定术语(医学、法律、品牌名称)。
带有自定义语言模型或在领域文本上训练的自定义词汇表的 Amazon Transcribe。
模型在训练时表现良好,但在生产中表现不佳(过拟合)——在不改变架构的情况下提高泛化能力。
增加训练数据的数量和多样性。不要削减数据或仅添加超参数。
原因: 更具代表性的数据是最高效的解决方案;正则化和提前停止有所帮助,但数据是决定性因素。
评估生成输出的质量。
翻译质量 → BLEU。摘要质量 → ROUGE。与参考的语义相似性 → BERTScore。风格偏好 → 使用自定义提示集进行人工评估。
为输出风格很重要的用例选择 Bedrock 基础模型。
在自定义提示数据集上对候选模型进行人工评估。不要单独依赖公共排行榜或延迟指标。
原因: 风格/语气的契合度是主观的;基准测试无法捕捉到这一点。
通过针对业务数据的自然语言问题生成图表和仪表盘。
QuickSight 中的 Amazon Q — 在 QuickSight 数据集上进行自然语言 BI。
检测训练数据或模型预测中的偏差;生成可解释性报告。
Amazon SageMaker Clarify。在训练前后对受保护属性运行偏差指标,并提供基于 SHAP 的特征归因。
原因: 对于受监管的领域(贷款、招聘、医疗保健)是必需的,您必须展示公平性和可解释性。
模型在某个人口统计、族裔群体或地理区域表现较差(例如,不成比例地标记某些群体)。
抽样偏差。重新平衡数据集:对代表性不足的类别进行数据增强;确保数据来源多样化和有代表性。
原因: 代表性不足的训练数据会生成对这些群体服务不足的模型。应在数据层而非模型层进行修复。
记录模型的预期用途、训练数据、性能、局限性和风险,以用于治理和审计。
Amazon SageMaker Model Cards — 与模型绑定的结构化、版本化文档。
限制LLM主题,过滤有害内容,屏蔽PII,或阻止提示注入模式。
Amazon Bedrock Guardrails。配置拒绝的主题、内容过滤器(仇恨、暴力、性、侮辱)、单词过滤器、敏感信息过滤器和上下文 grounding 检查。
原因: 适用于输入和输出;适用于任何 Bedrock 模型和您自己的自定义模型。
确定公司在生成式AI部署中的安全责任份额。
AWS 生成式AI安全范围矩阵。范围1(消费者应用,最低责任)→ 范围5(自训练模型,最高责任)。
原因: 在私有数据上从头开始构建和训练模型,将最大的安全责任赋予公司。
利益相关者或监管机构要求解释模型如何得出预测。
尽可能使用可解释模型(决策树、线性/逻辑回归)。对于复杂模型,可使用偏依赖图(Partial Dependence Plots)、通过 SageMaker Clarify 的 SHAP 特征重要性,或 SageMaker 模型卡。
原因: PDPs 显示每个特征的边际效应;SHAP 分配每个预测的贡献;模型卡为审计捕获完整信息。
生成式AI输出可能复制受版权保护的材料,或被冒充为人类创作的作品。
剽窃/侵犯知识产权风险。通过引用要求、内容来源跟踪、在支持的情况下添加水印、人工审查以及清晰的AI内容披露政策来缓解。
基础模型应用程序必须将提示和响应保留在 AWS 网络上 — 禁止公共互联网出口。
将 Bedrock 与 VPC 端点 (PrivateLink) 结合用于运行时 API。在组织层面使用 SCP 阻止公共 Bedrock 端点。
原因: PrivateLink 保持请求的私密性并避免数据离开 VPC;SCPs 在所有账户中强制执行规则。
多个团队针对共享的 S3 数据调用 Bedrock;每个团队只能访问自己的客户数据。
为每个团队创建一个 IAM 服务角色,该角色仅授予 Bedrock 访问该团队的 S3 前缀或 KMS 密钥的权限。
原因: 自定义服务角色在资源级别强制执行最小权限。不要授予 Bedrock 广泛的 S3 访问权限,并依赖应用层过滤。
Bedrock 无法读取使用 SSE-KMS 加密的 S3 数据。
授予 Bedrock 服务角色对相关 CMK 的 `kms:Decrypt` 权限和对存储桶/前缀的 `s3:GetObject` 权限。
原因: Bedrock 假定其服务角色来读取数据;该角色需要 S3 和 KMS 权限。
捕获 Bedrock 活动以进行监控、调试、审计和合规性。
两项互补服务。CloudTrail = 每个API调用的发起者/时间/来源(身份、时间戳、源IP)。Bedrock 模型调用日志记录 = 实际的提示/响应负载,写入 CloudWatch Logs 或 S3。同时启用这两项。
原因: CloudTrail 仅捕获元数据;调用日志记录捕获内容。合规性通常需要这两项。
审计员要求提供AI工作负载的AWS合规性报告(SOC、ISO、PCI、HIPAA)。
AWS Artifact — 用于按需AWS合规性报告和协议的自助服务门户。
原因: AWS Audit Manager 持续审计您的使用情况;AWS Artifact 提供AWS自己的证明。
发现和分类 S3 中存在的 PII 或其他敏感数据(训练语料库、模型日志)。
Amazon Macie — 基于 ML 的 S3 敏感数据发现服务。
原因: 使用 Macie 查找需要在数据进入模型或其输出之前进行屏蔽、删除或 KMS 加密的数据。
恶意用户输入试图覆盖系统提示、窃取数据或触发意外操作。
纵深防御:使用 Bedrock Guardrails 进行内容过滤,使用检测/忽略覆盖模式的提示模板,设置输入长度限制,进行输出验证,并为代理设置最小权限的工具权限。
原因: 没有单一的缓解措施是足够的;需要结合输入过滤、输出过滤和能力限制。
自定义模型使用不应泄露到响应中的机密数据进行训练。
删除模型,从训练集中清除机密记录,然后重新训练。输出过滤不足以解决问题。
原因: 嵌入在模型权重中的知识无法在推理时可靠地屏蔽;只有在没有该数据的情况下重新训练才能将其删除。
确定 AWS 负责保护什么,以及客户为 AI 工作负载保护什么。
AWS 责任共担模型:AWS = 云的安全性(硬件、管理程序、区域)。客户 = 云中的安全性(数据、IAM、KMS 密钥、网络、应用程序配置)。