手册

AWS Certified Generative AI Developer - Professional

最后审核：2026年5月

AIP-C01 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

基础模型集成、数据管理与合规性

为您的用例选择一个 Bedrock 基础模型。

长上下文推理 + 工具使用 → Claude (Sonnet/Opus)。成本优化聊天 → Claude Haiku 或 Titan Text Lite。代码 → Claude 或 Llama。嵌入 → Titan Embeddings V2 或 Cohere Embed。图像生成 → Titan Image, Stable Diffusion 或 Nova Canvas。具有自托管控制的开源模型 → Llama, Mistral 或自定义模型导入。

原因: 没有一个模型在成本、延迟、能力和许可条款方面都是最佳的。根据瓶颈匹配模型类别。

参考

知识库源是简短、独立的问题解答或产品说明（每个约 100-500 字）。

使用默认令牌大小（300）和重叠（20%）进行固定大小分块。

原因: 独立单元不需要边界感知分块。固定大小最简单、最便宜。

参考

文档段落内有自然的主题切换；固定大小的分割会在思维中途打断句子。

语义分块。Bedrock 知识库将嵌入相似的连续句子进行分组，并在意义边界处分割。

原因: 在分块内保留连贯的思想 → 更清晰的检索，更高的答案质量。

参考

包含章节间交叉引用的长篇技术手册；问题需要跨文档进行综合。

分层分块。Bedrock 构建父（大）+ 子（小）分块；在子嵌入上进行检索，返回父上下文。

原因: 小分块提供精确检索；父上下文保留交叉引用和周围细节。

参考

源文件已预先分块，或每个文件刻意作为一个逻辑单元。

不采用任何分块策略。每个文件在知识库中成为一个分块。

参考

PDF 源包含文本和图表；用户提出的问题需要理解图表。

启用 Bedrock 知识库高级解析，使用基础模型（Claude/Nova）作为解析器。图表和表格通过视觉进行描述，然后嵌入。

原因: 默认解析仅支持文本。多模态解析在嵌入之前将视觉内容转换为描述性文本。

参考

选择 Titan Embeddings G1 还是 V2。

V2 支持可配置维度（256/512/1024），并在多语言基准测试中优于 G1。G1 固定为 1536。对于存储受限或非英语用例选择 V2；G1 仅用于旧版兼容性。

参考

50万产品目录：短标题（50 字）+ 长规格（500 字）。优化搜索质量和成本。

每个项目嵌入一次（组合字段或单独字段）。使用 Titan Embeddings V2 降低维度（256 或 512）以优化成本；使用相同的模型嵌入查询和文档。

原因: 混合嵌入模型或跳过标准化会破坏相似性搜索。降低维度可在边缘质量损失的情况下削减存储和查询成本。

参考

为 Bedrock 知识库选择一个向量存储。

默认/最快设置 → Amazon OpenSearch Serverless（自动管理）。频繁模式更新 + 关系连接的亚毫秒级延迟 → 带有 pgvector 的 Aurora PostgreSQL。现有 Pinecone / MongoDB Atlas / Redis 客户 → 保持现有。小型知识库（<10K 文档）成本优化 → Aurora pgvector 或 Neptune Analytics。

原因: OpenSearch Serverless 是最省力的默认选项。当需要事务或元数据连接时，Aurora pgvector 更有优势。

参考

知识库返回语义相关的文档，但它们来自过时/错误区域的版本。

向源文件添加元数据（`version`、`region`、`effective_date`），并通过 `retrievalConfiguration.vectorSearchConfiguration.filter` 在查询时应用元数据过滤器。

原因: 纯向量相似性忽略了新近度和权威性。元数据过滤在排名之前缩小了候选池。

参考

RAG 错过了包含精确标识符（SKU、错误代码、法规编号）的查询，因为语义搜索过度强调了意义相似的文本。

在知识库上启用混合搜索（语义 + 关键词/BM25）。将向量相似性与用于 ID、代码和专有名称的词汇匹配结合起来。

参考

Top-k=5 检索到 5 个分块，但最相关的通常排在第 3 或第 4 位。

将 `numberOfResults` 增加到 20，然后启用重排序模型（Cohere Rerank 或 Amazon Rerank）以按与原始查询的相关性重新排序。

原因: 嵌入相似性 ≠ 任务相关性。交叉编码器重排序器同时查看查询和分块，并进行精确评分。

参考

用户问题是对话式、多部分或包含代词/后续提问；知识库检索质量下降。

启用 Bedrock 知识库查询重构。模型在检索之前将复杂查询重写为多个有重点的子查询。

参考

S3 源文档频繁更新；知识库必须始终反映最新版本而无需手动同步。

通过 S3 事件通知 → EventBridge → StartIngestionJob 配置知识库数据源进行自动化同步，或使用知识库计划同步。避免依赖手动控制台的“同步”按钮。

参考

长文档问答模型在文档中间找到答案的问题上产生幻觉。

不要在提示中传递完整文档——通过 RAG 进行分块 + 检索，以便只有相关的分块到达模型。如果完整文档是强制性的，请使用具有强大长上下文召回能力的模型（Claude Sonnet 200K）并将问题放在文档之后。

原因: 大多数 LLM 表现出“中间遗失”的召回退化。RAG 规避了这一点；当 RAG 不可用时，放置位置有所帮助。

选择满足质量标准的最低成本定制。

按顺序尝试：(1) 提示工程，(2) RAG 与知识库，(3) 微调，(4) 持续预训练，(5) 自定义模型导入。在第一个满足标准的步骤停止。

原因: 每一步的努力和持续成本都在增加。微调 + Provisioned Throughput 比 RAG 昂贵得多。

参考

使用带标签的任务示例对 Bedrock 模型进行微调。

S3 中的 JSONL 文件，每行一个示例：`{"prompt": "...", "completion": "..."}`（或模型系列对应的聊天格式）。

原因: 每个模型系列（Titan、Claude、Llama）都有特定的模式；在格式化之前检查模型的微调文档。

参考

使用大量未标记的领域文本将基础模型适应专业词汇（法律、医学、科学）。

对未标记的领域语料库进行持续预训练。这与指令微调（需要提示-完成对）不同。

原因: 持续预训练更新语言理解；指令微调教授任务行为。不同的数据形态，不同的目标。

参考

用于微调的客户交互数据包含姓名、电子邮件、电话号码。

在将训练数据集上传到 S3 之前，擦除或标记 PII。一旦权重吸收了 PII，输出过滤就无法可靠地对其进行掩盖。

原因: 微调模型可能会复述训练数据片段。在数据层进行擦除是唯一持久的缓解措施。

参考

引入一个自微调的 Llama 或 Mistral 模型，并通过 Bedrock 的统一 API 提供服务。

自定义模型导入。将权重上传到 S3，向 Bedrock 注册，通过 Bedrock 运行时使用统一的 IAM 和日志进行调用。

原因: 允许您在自带权重上重用 Bedrock Guardrails、知识库和代理，而无需部署 SageMaker 端点。

参考

在生产环境中部署一个微调过的 Bedrock 模型。

购买 Provisioned Throughput。自定义（微调、持续预训练、导入）模型无法按需调用。

参考

高流量 Claude 应用程序在高峰期达到每区域配额；需要在不购买 Provisioned Throughput 的情况下获得更高的吞吐量。

跨区域推理配置文件。Bedrock 透明地将调用路由到多个区域，以提高有效 TPM/RPM 配额。

原因: 单区域按需配额在高峰期会达到上限；跨区域配置文件大致可以将配额倍增，除了使用推理配置文件 ARN 外，无需更改应用程序代码。

参考

部署在 us-east-1 的 Bedrock 应用程序上，APAC 用户遇到的延迟明显高于美国/欧盟用户。

在 ap-northeast-1 / ap-southeast-1 / ap-south-1（模型已通用可用）部署区域性 Bedrock 端点。通过 Route 53 延迟或地理位置策略路由用户。

原因: 对于长上下文，LLM 往返时间占主导地位；跨太平洋 RTT 仅需 150-250 毫秒。

参考

受 HIPAA 监管的应用程序需要使用 Bedrock 总结 PHI。

仅使用符合 HIPAA 资格的基础模型（根据 HIPAA 合格服务列表）。与 AWS 签署 BAA。使用客户管理的 KMS 密钥加密提示/响应。禁用模型调用日志记录，或将其范围限定为具有受限访问权限的私有 S3 存储桶。

参考

根据敏感度（公开/机密/受限）决定哪些数据可以流向 Bedrock。

公开 → 不受限制。机密 → 仅通过 VPC 端点 + CMK + 私有存储桶中的调用日志。受限（商业秘密、受监管的 PHI/PCI）→ 完全阻止流向 Bedrock 或使用符合 Bedrock 资格的合规制度 + 在调用前进行 redaction。

多账户组织希望账户 A 在不复制权重的情况下与账户 B 共享自定义 Bedrock 模型。

通过 AWS RAM 进行自定义模型共享。所有者共享自定义模型 ARN；消费者账户通过标准 Bedrock 运行时，使用资源策略上的跨账户 IAM 主体进行调用。

原因: 避免了冗余的微调成本并集中了模型生命周期。RAM 控制谁可以消费共享资源。

参考

需要标准 Bedrock 目录中没有的利基第三方模型（例如，医疗保健专用 LLM）。

Amazon Bedrock Marketplace。从 Marketplace 目录订阅模型，部署到 Bedrock 端点，通过标准运行时 API 调用。

原因: 将第三方计费、IAM、KMS 和可观察性与第一方 Bedrock 模型统一起来。

参考

高容量搜索应用程序在每次查询刷新时重新嵌入相同的文档；嵌入成本占主导地位。

在文档摄取时预计算嵌入，将向量存储在以文档 ID + 内容哈希为键的 DynamoDB 或 OpenSearch 中。仅当内容哈希更改时才重新嵌入。

原因: 重复嵌入相同的文本是最常见的可避免成本。哈希键缓存是 O(1) 跳过。

共享知识库为多个团队提供服务；每个团队只能看到自己的文档。

在摄取时为每个分块标记 `tenant_id` / `team_id` / `clearance` 元数据。在查询时将 `retrievalConfiguration.vectorSearchConfiguration.filter` 设置为调用者从 IAM 会话或应用程序上下文中允许的值。

原因: 向量相似性忽略访问控制；元数据过滤是共享知识库中每个租户持久隔离的唯一方法。

参考

欧盟客户要求提示和知识库嵌入永不离开 eu-west-1。

在 eu-west-1 中部署 Bedrock + 知识库 + S3 源存储桶。通过范围限定为 eu-west-1 的推理配置文件 ARN 固定调用；对其他区域的 `bedrock:*` 使用 SCP `aws:RequestedRegion` 拒绝。

参考

实施与集成

多步骤工作流需要 LLM 推理、调用外部 API/数据库和综合。

Amazon Bedrock Agent。定义指令、操作组（Lambda + OpenAPI 模式）和可选的知识库。代理计划、调用工具并拼接结果。

原因: 省去了自己编写编排循环的麻烦。内置跟踪、会话内存和控制返回钩子。

参考

Bedrock Agent 必须调用三个内部 API（CRM、库存、支付）。

为每个 API 定义一个操作组。每个操作组都有一个描述其操作的 OpenAPI 模式和一个执行调用的 Lambda 函数（或控制返回端点）。

参考

代理必须仅在人工/业务确认后执行高风险操作（账户删除、大额退款）。

使用控制返回（RoC）配置操作组。Bedrock 将建议的操作返回给应用程序而不是调用它；应用程序在批准后才执行，并重新提交结果。

原因: 将高风险步骤置于代理运行时之外，以便在执行前进行审计或人工确认。

参考

代理必须在一个用户会话中的不同回合之间记住上下文。

使用代理的内置会话属性和提示会话属性。将 `sessionId` 传递给 InvokeAgent — Bedrock 会在配置的空闲超时时间内保留对话状态。

参考

代理必须在跨会话中回忆有关回头客的事实（偏好、历史记录）并总结较早的交流。

启用 Bedrock Agent 内存。代理会持久保存每个 `memoryId` 的会话历史摘要，并在未来的调用中将其作为上下文重放。

参考

工作流需要由顶级规划器协调的专业代理（研究、代码、计费）。

Bedrock Agents 多代理协作：定义一个主管代理和几个协作代理。主管根据协作代理的描述委派子任务并综合结果。

参考

需要多步骤管道：提取 → 分类 → 路由 → 总结，并带有条件分支。

Amazon Bedrock Prompt Flows。带有提示节点、条件节点、知识库节点、Lambda 节点的视觉工作流；版本化并可作为单个 API 调用。

原因: 取代了手动编写的 Step Functions 以实现提示管道，并暴露了一个入口点。

参考

多租户 SaaS：每个租户的系统提示、模型偏好和版本控制。

Amazon Bedrock Prompt Management。将提示存储为版本化、参数化的资产；在运行时通过 ARN 引用；根据每个租户 A/B 测试不同版本。

参考

应用程序必须使用统一的聊天式 API 界面跨 Claude、Llama、Titan 和 Cohere 工作。

使用 Bedrock Converse API。统一的消息列表格式、工具使用和跨模型系列的系统提示。当可移植性很重要时，避免使用模型特定的 InvokeModel JSON。

参考

聊天机器人必须逐令牌显示响应以减少感知延迟。

ConverseStream（或 InvokeModelWithResponseStream）。与 API Gateway WebSocket 或 AppSync 订阅配对，将令牌扇出到浏览器。

参考

实时客户支持聊天：响应流式传输、500 个并发用户、对话历史记录。

浏览器 ↔ API Gateway WebSocket ↔ Lambda ↔ Bedrock ConverseStream。将对话存储在以 `sessionId` 为键的 DynamoDB 中，并在每次轮换时重新加载。

原因: WebSocket 避免了 HTTP 轮询；DynamoDB 会话存储在 Lambda 无状态性下也能存活。

参考

需要模型决定何时调用函数（数据库查询、计算器、API）。

使用 Converse API 工具使用（`toolConfig`）——声明具有名称 + JSON 模式的工具；模型发出 `toolUse` 块；应用程序执行并返回 `toolResult`。适用于 Claude、Llama、Mistral、Cohere Command R。

参考

第三方系统中的新工单 → 自动 Bedrock 分析（情感、紧急性、类别）→ 路由。

Webhook → API Gateway → EventBridge → Lambda 目标 → Bedrock。EventBridge 解耦生产者和消费者，并免费提供重试 + 死信队列。

参考

多个微服务提交 Bedrock 生成请求；消费者不需要立即获得结果。

生产者 → SQS → Lambda（或 ECS）消费者 → Bedrock InvokeModel → 将结果存储在 S3/DynamoDB 中。SQS 可以在服务配额内平滑峰值并重试失败。

每晚为 100,000 个 SKU 生成描述；延迟容忍；想要最低成本。

Amazon Bedrock Batch Inference。在 S3 中提交输入 JSONL，Bedrock 以比按需低 50% 的每令牌成本运行作业，并写入输出 JSONL。

原因: 批处理以延迟换取成本。只要不需要实时结果，就可以使用它。

参考

Lambda + Bedrock 前的 API Gateway 在长时间生成时返回 504 Gateway Timeout。

API Gateway REST 集成超时上限为 29 秒。切换到异步模式（返回作业 ID，通过第二个端点轮询）或切换到 API Gateway WebSocket + ConverseStream，以便在超时窗口之前流出部分令牌。

参考

从产品图片 + 简短文本生成产品描述。

通过 Converse API 使用 Bedrock 上具有视觉能力的模型（Claude 3+ Sonnet, Nova），并与文本一起使用 `image` 内容块。

参考

亚秒级高质量消息翻译成英语。

通过 Bedrock 使用基础模型（Claude Haiku 或 Llama 小型）实现细微差别，或者在字面翻译足够时使用 Amazon Translate 以获得速度/成本。Bedrock 用于上下文感知；Translate 用于事务性。

使用杀死开关功能，逐渐将生产流量从模型 A 转移到模型 B。

AWS AppConfig 特性标志，包含活动模型标识符和流量分割。Lambda 每次调用读取该标志，并相应地路由。通过 AppConfig 部署回滚即时回滚。

参考

决定在 Bedrock 和 SageMaker JumpStart 之间选择哪个来托管基础模型。

当您需要托管推理、统一 API、知识库/代理/Guardrails 时，选择 Bedrock。当您需要具有完全网络/IAM 控制或 Bedrock 中没有的开源模型的私有 VPC 托管端点时，选择 SageMaker JumpStart。

参考

选择操作组定义样式：OpenAPI 3.0 规范 vs 函数模式。

当底层 API 已有 OpenAPI 3.0 规范或您需要完整的 HTTP 语义（路径、方法、参数类型）时，选择 OpenAPI。对于通过简单 JSON 属性声明定义的内联/轻量级操作，选择函数模式。

原因: OpenAPI 是现有 REST API 的规范。对于新的代理内部助手，函数模式更快。

参考

代理必须执行精确的数学运算、统计分析或运行小型 Python 片段来回答问题。

启用 Bedrock Agents 代码解释器。代理在托管沙盒中运行 Python；结果流回响应合成。

原因: LLM 在精确数学方面不可靠；沙盒运行时提供确定性数值结果，无需编写自定义操作组。

参考

默认代理提示产生冗长的响应；需要收紧生产环境的编排提示。

为代理的每个步骤（预处理、编排、知识库响应生成、后处理）配置提示模板覆盖。覆盖与代理一起进行版本控制。

参考

在开发环境中迭代代理，而生产流量保持在稳定版本。

使用代理版本和别名。`DRAFT` 用于活跃编辑；发布带编号的版本；通过别名路由（`prod` → 版本 7，`dev` → DRAFT）。通过更新别名进行推广。

参考

代理选择了错误的操作组；需要逐步调试推理。

在 InvokeAgent 上启用跟踪（`enableTrace: true`）。响应流包含 `preProcessingTrace`、`orchestrationTrace`、`postProcessingTrace` 和 `failureTrace` 块，显示模型推理、工具选择和输入。

参考

为“提取实体 → 在知识库中查找 → 总结 → 电子邮件”构建一个 Bedrock Flow。

组合节点：提示节点（提取）、知识库节点（查找）、提示节点（总结）、Lambda 节点（通过 SES 发送电子邮件）。批量流使用 S3 输入/输出节点；分支使用条件节点。

参考

为多步骤 GenAI 管道选择 Bedrock Flows 还是 Step Functions。

当步骤主要是 Bedrock 原语（提示、知识库、代理）时，选择 Bedrock Flows——单 API 调用，无需额外的 IAM 粘合。当工作流涉及许多 AWS 服务，具有重试、并行分支、复杂错误处理或长时间等待时，选择 Step Functions。

实现一个聊天循环，其中模型迭代调用工具，然后形成最终答案。

模式：发送用户消息 → 模型返回 `toolUse` → 应用程序执行工具 → 应用程序通过 Converse 发回 `toolResult` → 循环直到模型返回最终文本。限制迭代次数以防止失控。

原因: 模型决定何时有足够信息停止；应用程序必须驱动循环并强制执行最大步数限制。

参考

模型需要查找客户 + 订单 + 库存；顺序工具调用会增加 3 倍延迟。

支持并行工具使用的模型（Claude 3+, Nova）在一个回合中发出多个 `toolUse` 块。在应用程序中并发执行它们，并在下一次推理之前返回所有 `toolResult`。

参考

在无状态 Lambda 调用中持久化多轮聊天状态，并自动清理过期会话。

DynamoDB 表以 `sessionId` 为键，存储 `messages` + `lastActivity`。设置 TTL 属性（`expiresAt`）以自动删除超过 24 小时的会话。Lambda 每次轮换读取/写入。

参考

聊天每秒查询量约为 1000 次；会话历史记录上的每次轮换 DynamoDB 读取是热点。

使用 ElastiCache for Redis 作为 DynamoDB 的前端。将每个会话的最后 N 条消息缓存在 Redis 哈希中；写入 DynamoDB 以实现持久性。设置 Redis 键的 TTL 以限制内存。

参考

重试 Bedrock InvokeModel 调用可能会导致对同一个逻辑请求两次计费。

为每个逻辑请求生成一个幂等性密钥（例如，输入 + 用户的 UUID v5）。将响应以幂等性密钥为键缓存到 DynamoDB 或 ElastiCache 中；在重试时返回缓存的响应。

原因: Bedrock 本身不是幂等的——每次调用相同的输入都会被计费。应用程序层缓存是唯一实现幂等性的方法。

在迁移过程中运行两个生产模型版本，而不同时切换所有用户。

将用户 ID 哈希到 N 个桶中；根据特性标志（AppConfig / Parameter Store）将桶 i 路由到模型 A 或模型 B。并行监控指标；转移桶分配以向前或向后滚动。

AI 安全、安保与治理

面向客户的聊天机器人必须阻止有害内容、被拒绝的主题、PII 泄漏。

Amazon Bedrock Guardrails。配置被拒绝的主题、内容过滤器（仇恨、暴力、色情、侮辱、不当行为）、词语过滤器、敏感信息过滤器（PII 匿名化）和上下文接地检查。应用于 InvokeModel 输入和输出。

原因: Guardrails 与模型无关，并应用于两个方向；它们比任何单一模型切换都更持久。

参考

Guardrail 阻止提及美元金额的合法财务响应。

降低受影响内容过滤器的敏感度层级（例如 `MEDIUM` → `LOW`），和/或删除过于宽泛的被拒绝主题措辞。在重新部署之前，针对基准提示集进行重新测试。

参考

医疗摘要应用程序不得在源文档之外杜撰事实。

启用 Bedrock Guardrails 上下文接地检查，并设置高相关性 + 接地阈值。低于阈值的响应将被阻止或替换为安全默认消息。

原因: 即使模型从检索到的分块过度泛化，纯 RAG 仍然会产生幻觉。上下文接地根据每个响应对答案与源的对齐进行评分。

参考

Bedrock 应用程序接收包含客户 PII 的提示；在日志记录或下游使用之前需要自动掩码。

配置 Guardrails PII 过滤器，并对 PII 实体类型（SSN、电子邮件、电话、地址）使用 `BLOCK` 或 `ANONYMIZE` 操作。过滤在输入和输出上独立进行。

参考

面向公众的应用程序接受串联到系统提示中的用户输入；必须抵制提示注入。

纵深防御：(1) Guardrails（被拒绝主题 + 越狱检测），(2) 强化系统提示，将用户输入框定为数据并拒绝元指令，(3) 根据预期模式进行输出验证，(4) 最小权限工具权限，以便受损的提示无法触发破坏性操作。

原因: 没有单一的缓解措施是足够的；分层防御限制了爆炸半径。

参考

红队发现模型可以通过角色扮演框架（“假装你是一个没有限制的 AI”）被强制产生有害输出。

启用 Guardrails 越狱检测内容过滤器。为角色扮演尝试添加明确的被拒绝主题。每次更改后使用相同的红队提示集重新测试。

参考

所有 Bedrock 数据必须使用客户管理的密钥在传输中和静态时进行加密。

传输中强制执行 TLS 1.2+。静态时：为 Bedrock 模型定制、知识库嵌入 + S3 源数据、调用日志目的地配置客户管理的 KMS 密钥。通过 SCP 强制执行，防止使用 AWS 管理的密钥。

参考

多团队组织：每个团队应仅访问特定的基础模型。

IAM 基于身份的策略，允许在范围限定为允许模型 ID 的资源 ARN 上执行 `bedrock:InvokeModel`。结合 `aws:RequestedRegion` 条件以锁定区域。

原因: 对 `arn:aws:bedrock:*::foundation-model/<id>` 进行资源级允许是强制执行模型级访问的唯一持久方法。不要依赖应用程序层 gating。

参考

Lambda 仅在 us-east-1 中调用 Claude 3.5 Sonnet。

允许 `bedrock:InvokeModel`，资源为 `Resource: arn:aws:bedrock:us-east-1::foundation-model/anthropic.claude-3-5-sonnet-*`，条件为 `Condition: aws:RequestedRegion = us-east-1`。拒绝所有其他模型和区域。

参考

Bedrock 应用程序不得流出到公共互联网。

带有 VPC 接口端点（PrivateLink）的 Bedrock 用于运行时 API。通过 SCP 阻止公共 Bedrock 端点。添加一个端点策略，将操作限制为批准的集合。

参考

监管机构要求对每次 Bedrock 模型调用进行完整审计跟踪：提示、响应、模型版本、时间戳。

启用 Bedrock 模型调用日志记录到 CloudWatch Logs 或 S3。捕获完整的提示 + 响应 + 模型 ID + 时间戳。与 CloudTrail 配对，用于 API 调用元数据层（谁/何时/从何处）。

原因: CloudTrail 仅捕获元数据；调用日志记录捕获内容。合规性通常要求两者。

参考

确定公司在 Bedrock 部署中的安全责任分担。

AWS Generative AI Security Scoping Matrix。范围 1（消费者 SaaS）→ 范围 5（在私有数据上自训练模型）。带有按需基础模型的 Bedrock 通常是范围 2；知识库/代理 + RAG 趋向于范围 3；微调是范围 4；自定义模型导入是范围 5。

参考

保护 API Gateway 后面的 GenAI API 端点免受滥用。

AWS WAF 带有基于速率的规则（按 IP）、机器人控制托管规则集，以及针对可疑越狱短语的自定义字符串匹配规则。阻止常见的 LLM-DDoS 模式（长提示洪水）。

参考

在 PII 或其他敏感数据进入知识库或微调作业之前，在 S3 源语料库中发现它们。

Amazon Macie 在相关 S3 存储桶上安排发现作业。发现结果发送到 Security Hub / EventBridge 进行后续匿名化。

参考

下游检测 AI 生成图像以验证内容来源。

使用 Titan Image Generator（或 Nova Canvas）——输出包含不可见的水印。使用 Bedrock 水印检测 API 进行验证。

参考

营销聊天机器人不得提及竞争对手，也不得做出未经证实的声明。

Guardrails 被拒绝的主题：明确的竞争对手名称列表 + 主题级别的“未经证实的产品声明”。为绝对声明（“保证”、“最佳”、“100%”）添加词语过滤器。

参考

将 Bedrock Guardrail 应用于非 Bedrock 模型（例如，自托管 SageMaker 端点）的输出。

使用文本 + Guardrail ID + 版本调用独立的 `ApplyGuardrail` API。返回内容是否被阻止或修改，以及触发了哪些过滤器。

原因: 将 Guardrails 与模型解耦。用作用户输入的事前检查或任何模型输出的事后检查。

参考

单一 Guardrail 策略必须适用于 us-east-1、eu-west-1 和 ap-southeast-1。

在每个区域重新创建相同的 Guardrail（相同的配置）。Guardrails 是区域性资源；使用 IaC（CloudFormation / CDK / Terraform）保持配置同步。

原因: Guardrails 没有托管的跨区域复制。IaC 是唯一持久的一致性方法。

参考

攻击者通过毒化面向公众的知识库中的文档，使代理在检索它们时泄漏系统提示或数据。

将检索到的知识库内容视为不受信任：在输入和输出上启用 Guardrails，通过提示注入检测或模式匹配清理检索到的分块，对代理操作组强制执行最小权限，以防止受损提示升级。

原因: 间接注入绕过了输入过滤——恶意提示是通过检索到的上下文而不是用户消息到达的。

参考

在具有单个后端角色的多租户应用程序上需要每个用户的模型访问权限。

在 AssumeRole 期间将用户属性作为会话标签传递。在 Bedrock 身份策略中通过 `aws:PrincipalTag/<key>` 条件引用它们，以根据每个用户限制 `bedrock:InvokeModel`。

参考

为 Bedrock 调用日志记录选择目的地。

CloudWatch Logs 适用于短提示/响应、快速日志洞察查询、小型应用程序。S3 适用于高容量、大负载（知识库 + 代理跟踪）、长期保留、下游 Athena/Glue 分析。如果任何单个响应可以超过 256 KB，请使用 S3。

原因: CloudWatch Logs 对每个事件有大小限制；S3 没有。根据负载大小和分析模式选择。

参考

保护公共聊天 API 免受 DDoS 和大规模令牌洪水滥用。

AWS Shield Standard 默认启用；在关键端点上启用 Shield Advanced 以获得 L7 保护 + 24/7 SRT 支持。与 WAF 基于速率的规则和 CloudFront 配对，以在边缘吸收。

参考

图像生成应用程序必须阻止色情、暴力或仇恨图像。

Bedrock Guardrails 图像内容过滤器应用于输入（上传的图像）和输出（生成的图像）。过滤器以 HIGH/MEDIUM/LOW 阈值对视觉内容进行分类。

参考

在客户支持记录上微调 Bedrock 模型之前的工作流。

管道：S3 源 → Macie 发现作业识别 PII → Comprehend PII 检测 + 匿名化（或带有正则表达式的 Glue）→ 清理后的数据集到单独的 S3 前缀 → Bedrock 微调。Macie 失败触发 EventBridge → SNS 到安全值班。

原因: 一旦数据进入权重，删除就需要重新训练。预处理匿名化比事件后重新训练便宜得多。

运营效率与优化

选择按需还是 Provisioned Throughput。

可变/未知流量 → 按需。稳定高容量且保证吞吐量 SLA → Provisioned Throughput（模型单元，1 个月或 6 个月承诺）。自定义（微调、导入）模型 → Provisioned Throughput 是强制性的。

原因: 按需是按令牌计费，无承诺。PT 是按小时计费，专用容量，在高利用率下每令牌便宜约 50%。

参考

应用程序在所有用户交互中重复使用相同的 4,000 令牌系统提示；只有用户消息发生变化。

启用 Bedrock 提示缓存。将静态前缀标记为可缓存；后续调用跳过重新处理它，缓存 TTL 约为 5 分钟，从而将缓存令牌的每次调用成本削减约 90%。

参考

许多用户提出相似但不完全相同的问题；希望在不同的释义之间缓存答案。

嵌入用户查询，并在相似性阈值之上，在向量缓存（DynamoDB + ElastiCache 或 OpenSearch）中查找最近邻。缓存命中 → 返回存储的响应。缓存未命中 → 调用 Bedrock 并写回。

原因: 标准键值缓存会错过释义。语义相似性捕捉意图。

降低 Bedrock 应用程序的每次调用成本。

收紧系统提示，删除冗余的少样本示例，对输出设置明确的 `maxTokens`，使用停止序列提前终止。在质量允许的情况下选择更小的模型。

原因: 成本大致与处理的总令牌数成比例。输出令牌通常比输入令牌定价更高——限制输出具有高杠杆作用。

代码补全：亚秒级延迟，成本均衡，高请求量。

Bedrock 上的 Claude Haiku（或 Nova Micro / Llama 小型）。对于延迟敏感的令牌补全路径，避免使用 Opus 或大型 Llama。

知识库有 50 万文档，但每天只有约 200 次查询；最小化成本。

带有 pgvector 的 Aurora PostgreSQL Serverless v2。空闲时可扩展到接近零 ACU；在低 QPS 下，按查询付费模型优于始终开启的 OpenSearch Serverless OCU 底层成本。

参考

OpenSearch Serverless 知识库查询延迟 800 毫秒；需要 <200 毫秒。

增加搜索集合的 OCU 底层（更多计算 = 更多缓存向量）。减少嵌入维度，严格提高 top-k，修剪元数据，在应用程序层启用结果缓存。

参考

长时间运行的微调作业，可容忍中断；最小化成本。

对于 SageMaker 微调，使用 Managed Spot Training（最高可节省 90%）。Bedrock 的原生微调仅支持按需——当预算是主要考虑因素时，选择 SageMaker JumpStart 进行支持 Spot 的自定义训练。

参考

在团队或产品线之间分配 Bedrock 支出。

对 Bedrock 资源（Provisioned Throughput、自定义模型、应用程序堆栈）应用成本分配标签。在计费 → 成本分配标签中激活标签。报告将按标签细分。

参考

监控 Bedrock 调用延迟、令牌量和错误。

CloudWatch 指标在 `AWS/Bedrock` 下：`InvocationLatency`、`InputTokenCount`、`OutputTokenCount`、`Invocations`、`InvocationClientErrors`、`InvocationServerErrors`、`InvocationThrottles`。对 p95 延迟和错误率设置警报。

参考

每天约 100 次对话，简单 FAQ；最小化成本。

使用最小的、有能力的模型（Titan Text Lite、Claude Haiku 或 Nova Micro）的 Bedrock 按需服务。Lambda + API Gateway HTTP API。如果 FAQ 适合系统提示，则不需要知识库；如果需要，可在 Aurora pgvector 上使用小型知识库。

为稳定状态的 Bedrock 工作负载确定 Provisioned Throughput 的大小。

在影子流量上测量峰值输入 + 输出每秒令牌数。Bedrock 发布每个模型单元的吞吐量；预置 `ceil(峰值 TPS / 每单元 TPS)` 单元。在提交前用影子流量验证。

原因: 预置不足会导致节流；预置过度会浪费每小时的承诺。通过影子流量进行经验性大小调整是唯一可靠的方法。

参考

在共享账户中按应用程序或团队分配 Bedrock 成本。

为每个应用程序创建应用程序推理配置文件，并附加成本分配标签（例如 `application=chatbot-X`、`team=marketing`）。每次调用都引用配置文件 ARN；Cost Explorer 按标签细分支出。

参考

测试、验证与故障排除

在总结任务上比较三个基础模型；需要自动化、可重现的评估。

Amazon Bedrock 模型评估作业（自动）。提供一个提示数据集；Bedrock 运行每个模型并报告 BLEU、ROUGE、BERTScore 以及适用的毒性/准确性。

参考

ROUGE 分数很高，但人类读者表示摘要遗漏了关键点。

切换到基于人类的 Bedrock 评估，并使用自定义指标（相关性、完整性、忠实度）。定义评估标准，将样本路由到工作人员，汇总分数。

原因: 词汇重叠指标（BLEU、ROUGE）会错过语义忠实度。人类评估是主观任务的地面真相。

参考

需要大规模、可重现的评估，但纯人工审查太慢/太昂贵。

Bedrock LLM-as-a-judge 评估。强大的模型根据评估标准对响应进行评分；结果与人类评审员高度相关，并且在几分钟内运行，而不是几天。

参考

生成的投资组合摘要必须与源文档数字完全匹配。

限制生成：低温度（0-0.2），严格的提示指令（“逐字引用源中的数字”），Guardrails 对输出进行上下文接地检查，生成后使用正则表达式/解析器验证数字与源。

原因: 即使有接地的 RAG，模型也会改写数字。多层（提示 + 接地 + 解析器）可以捕获剩余情况。

RAG 经常返回“我没有足够的信息”，即使是知识库中涵盖的主题。

检查检索跟踪：分块分数、检索到的分块数量、查询与分块的对齐。常见修复方法：启用混合搜索、提高 top-k、调整分块大小、切换到语义分块、启用查询重构、降低相关性阈值。

参考

即使最近同步了知识库，代理仍返回过时的定价；数据源是带有版本控制的 S3。

确认最新的 IngestionJob `status: COMPLETE` 和 `documentsModified` 反映了新对象。版本控制意味着如果数据源未限定为仅限当前版本，非当前版本仍可被索引——验证数据源过滤器并重新同步。

参考

HR 代理在巧妙询问时偶尔会泄露其他员工的工资信息。

收紧代理的指令（“只回答关于请求用户自己的数据”），通过包含用户 ID 的会话属性来限制操作组，将支持操作组的 Lambda 上的 IAM 范围限定为仅查询用户自己的记录，为跨用户工资查询添加 Guardrails 被拒绝的主题。

Bedrock 调用偶尔会出现 p95 延迟峰值。

检查 CloudWatch `InvocationThrottles`（速率限制命中）和 `ModelLatency`；为调用 Lambda 开启 AWS X-Ray 跟踪；检查 CloudWatch Logs Insights 以查找慢速工具调用或知识库检索。通过跨区域推理、更小的模型、提示缓存或批处理进行缓解。

参考

在不发生回归的情况下，从 Claude v2 迁移到 Claude 3.5 Sonnet。

运行一个 Bedrock 评估作业，在一个代表性提示集上比较两者。然后在生产环境中进行影子流量：将相同的输入发送给两者，离线比较输出。使用 AppConfig 特性标志以 10% → 50% → 100% 的比例推广。

在每次模型配置更改时，作为 CI/CD 的一部分运行 Bedrock 模型评估。

使用 `CreateEvaluationJob` API。在 S3 中定义数据集、评估器（内置或自定义）和目标模型。轮询作业状态；在 `COMPLETED` 且指标高于阈值时进行推广。

原因: Studio UI 适用于一次性操作；API 是自动化、可重复评估门禁的唯一途径。

参考

在生产环境中升级基础模型时，避免质量回归。

维护一个精选的回归测试集：100-500 个带有预期输出（或评估标准）的代表性提示。在每次模型切换时通过 Bedrock 模型评估运行。如果分数下降超过定义的阈值，则阻止推广。

衡量模型在工具使用聊天中是否使用正确的工具和正确的参数。

构建一个带标签的集合：提示 + 预期的 `toolUse` 块。通过自定义评估器运行，该评估器比较实际与预期的工具名称 + JSON 参数。跟踪每个工具的准确率/召回率。

原因: 词汇指标（BLEU）会错过代理是否调用了正确的操作。工具使用准确性是代理工作负载的正确指标。