手册 — C1000-185 IBM Certified watsonx Generative AI Engineer - Associate

最后审核：2026年6月

C1000-185 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

基础模型和Prompt Engineering

企业需要一个具有宽松许可和赔偿条款的指令遵循模型。

从 watsonx.ai 目录中选择 IBM Granite instruct 模型，而不是第三方托管模型。

原因: Granite 模型由 IBM 构建和治理，并带有 IBM's 的 IP 赔偿条款 — 这是受监管工作负载的默认安全选择。

参考

为单轮提取任务选择聊天优化型或指令优化型变体。

使用带明确指令 prompt 的 instruct 变体；将 chat 模型保留用于多轮对话。

原因: Chat 模型期望角色结构化的轮次；对于一次性任务，instruct 模型更简单、更便宜。

合规报告的输出必须是确定性且可重现的。

将解码设置为贪婪模式（无采样），以便始终选择最高概率的 token。

原因: 贪婪解码消除了随机性；带温度参数的采样会引入在审计输出中不希望出现的变异。

参考

创意文案生成感觉重复且平淡。

切换到采样解码并提高温度（例如 0.7-1.0）以扩大 token 分布。

原因: 更高的温度会使概率趋于平坦，从而选择排名较低的 token，增加多样性。

采样输出偶尔会因稀有 token 而偏离主题。

使用 top-k 或 top-p（核）限制采样，将候选 token 限制为最有可能的 token。

原因: top-k 限制候选数量；top-p 限制累积概率质量 — 两者都能修剪导致漂移的长尾。

模型循环，重复相同的短语或句子。

增加重复惩罚参数，以阻止重新生成最近的 token。

原因: 惩罚会降低已出现 token 的概率；单独的停止序列无法修复生成过程中的循环。

生成内容超出答案，进入幻觉式后续文本。

定义一个或多个停止序列（例如“\n\n”、“###”），以便在已知边界处停止生成。

原因: 停止序列确定性地结束输出；仅依靠最大 token 数量会在句子中间截断。

响应在完成请求的 JSON 之前被截断。

提高最大新 token 数量；在需要时设置最小新 token 数量以强制生成最短长度的答案。

原因: max new tokens 限制输出长度；如果太低，它会在右大括号前截断结构化输出。

零样本分类错误标记了边缘情况。

直接在 prompt 中添加少量带标签的输入/输出示例（few-shot）。

原因: Few-shot 示例在不进行任何调优的情况下，在上下文中设置输出格式和决策边界。

团队希望在编写任何代码之前迭代 prompt。

使用 Prompt Lab — 在自由格式、结构化和聊天模式之间切换，调整参数，然后保存为 prompt 模板。

原因: Prompt Lab 是无代码迭代界面；结构化模式清晰地分离了指令、示例和输入。

参考

长文档超出了所选模型的上下文窗口。

分块并只检索相关段落（RAG），或者从目录中选择上下文更长的模型。

原因: 您不能超过模型的 token 限制；塞入更多文本会导致静默丢弃或错误 — 检索是可扩展的解决方案。

模型训练、调优与评估

Prompt engineering 在需要一致风格的狭窄领域任务上遇到了瓶颈。

在 Tuning Studio 中运行 prompt tuning，以在带标签的示例上学习软 prompt（调优向量）。

原因: Prompt tuning 在不改变基础权重的情况下调整行为 — 比 fine-tuning 更便宜，比长 prompt 更可靠。

参考

模型缺乏最新的、真实的业务知识。

使用 RAG 将答案基于检索到的文档，而不是根据这些事实调优模型。

原因: Tuning 教授风格/行为，而不是新事实；RAG 注入当前有依据的上下文且易于更新。

为助理级 watsonx 项目决定使用 prompt tuning 还是完整的 fine-tuning。

优先选择 prompt tuning：它训练的参数少得多，运行速度更快，并且是 Tuning Studio 中支持的路径。

原因: 完整的 fine-tuning 成本高昂，需要大型数据集，并存在灾难性遗忘的风险；prompt tuning 是 watsonx 的默认选项。

准备数据以对摘要模型进行 prompt tuning。

以预期的 JSON/JSONL 格式提供输入/输出对，并将其分为训练集和验证集。

原因: 干净、有代表性的数据对驱动调优质量；需要一个保留的验证集来评估泛化能力。

调优损失曲线在早期趋于平坦，而验证损失开始上升。

停止或减少 epoch — 模型开始对训练集过拟合。

原因: 训练/验证损失发散是经典的过拟合信号；更多的 epoch 会导致记忆，而不是泛化。

Prompt tuning 结果在不同运行中不稳定。

调整调优配置中的学习率、epoch 数量、批大小和虚拟 token 数量。

原因: 过高的学习率会使训练不稳定；这些是 Tuning Studio 为收敛而暴露的杠杆。

需要客观比较两个 prompt 或调优资产。

使用任务指标（例如，摘要的 ROUGE/BLEU，提取的精确匹配/F1）加上人工评审进行评估。

原因: 生成质量是多维的；自动化指标可以发现回归，但人工评审可以判断忠实度。

调优模型仍然会编造来源中不存在的事实。

使用 RAG 进行 grounding，降低温度，并指示模型只从提供的上下文中回答或表示不知道。

原因: 幻觉更多是 grounding 和解码问题，而不是权重问题；检索加上约束可以解决大部分问题。

只有几十个带标签的示例可用于调整。

坚持使用 few-shot prompting 或轻量级 prompt tuning；不要在少量数据上进行 fine-tuning。

原因: 小数据集在完全 fine-tuning 下会严重过拟合；在此规模下，上下文示例的泛化能力更好。

为分类任务选择要进行 prompt tuning 的基础模型。

选择 Tuning Studio 支持的、适合任务大小的可调优 Granite 基础模型进行 prompt tuning。

原因: 并非每个目录模型都可调优；调优一个较小的受支持模型更便宜，并且通常足以满足分类需求。

生成式输出质量必须在生产中持续跟踪。

针对部署配置 watsonx.governance 评估指标（质量、漂移、生成式 AI 指标）。

原因: Governance 将一次性评估转化为带警报的监控阈值，而不是手动抽查。

同一个调优 prompt 必须服务于许多具有不同字段的输入。

使用命名变量参数化 prompt 模板，并在推理时提供值。

原因: 变量保持一个可重用模板，而不是硬编码输入，并且它们与 API 参数清晰映射。

模型忽略任务指令，只继续文本。

使用指令优化模型，并将 prompt 构造成一个明确的指令，而不是一个需要完成的片段。

原因: 基础补全模型进行模式延续；指令模型经过训练以遵循指令。

使用 watsonx.data 进行数据管理

需要跨对象存储数据运行交互式 SQL，用于 AI 特征准备。

在对象存储中的 Iceberg 表上使用 watsonx.data Presto 引擎。

原因: Presto 在开放表格式上提供快速联合 SQL，无需将数据复制到数据仓库中。

参考

分析数据需要在 lakehouse 上进行模式演进和时间旅行。

将其存储为由 watsonx.data 管理的 Apache Iceberg 表。

原因: Iceberg 支持对象存储上的模式演进、快照和 ACID 操作 — 这是 lakehouse 的默认选项。

选择用于繁重 ETL 转换与即席查询的引擎。

使用 Spark 进行大型批处理转换/ETL；使用 Presto 进行交互式、低延迟的 SQL 查询。

原因: Spark 扩展批处理计算；Presto 针对快速联合查询进行了优化 — 根据工作负载类型选择。

RAG 需要一个与受治理数据共存的 embeddings 向量存储。

在 watsonx.data 内部部署 Milvus 作为用于相似性搜索的向量数据库。

原因: Milvus 是 watsonx.data 集成的向量存储；将 embeddings 保留在 lakehouse 中可简化治理。

参考

在 Milvus 和 watsonx Discovery 之间选择检索方案。

使用 Milvus 进行您控制的原始向量相似性搜索；使用 watsonx Discovery（基于 Elasticsearch）进行带混合检索的托管企业搜索。

原因: Milvus 是您操作的向量数据库；Discovery 是一个更高层次的搜索服务，内置了摄取和排名功能。

准备文档，以便基础模型能够基于它们提供答案。

分块文档，使用 watsonx.ai embedding 模型生成 embeddings，并在 Milvus 中对其进行索引。

原因: 检索质量取决于合理的文档分块和匹配的 embedding 模型；维度不匹配会破坏索引。

AI 功能需要分布在多个数据库和存储桶中的数据。

在 watsonx.data 中注册数据源，并通过引擎的联合查询功能直接查询它们。

原因: 联合查询避免了昂贵的数据重复，并保持了单一的受治理访问点。

治理团队要求对模型使用的数据进行血缘和访问控制。

在 watsonx.data 目录中对数据集进行编目，并应用 IAM/基于策略的访问控制。

原因: 受治理的目录是数据血缘与模型事实表（factsheet）关联的基础 — 临时存储桶访问会绕过它。

watsonx.ai 项目必须读取为 RAG 准备的湖仓（lakehouse）表。

向项目中添加 watsonx.data 连接，并将表引用为数据资产。

原因: 连接将受治理的 lakehouse 数据暴露给 AI 项目，而无需导出副本。

部署和集成 GenAI 解决方案

一个可用的 Prompt Lab prompt 必须成为可重用、可部署的资产。

将其保存为项目中的 prompt 模板资产，然后将其提升到部署空间。

原因: 部署空间是生产边界；prompt 必须先提升到那里才能被提供服务。

应用程序需要一个用于调优 prompt 的低延迟推理端点。

在部署空间中创建在线部署；它会暴露一个评分/生成 REST 端点。

原因: 在线部署提供同步端点；批处理部署用于离线评分作业。

参考

从 Python 应用程序代码调用基础模型。

使用 watsonx.ai Python SDK 的 ModelInference 类，并使用您的参数调用 generate_text。

原因: ModelInference 将认证、模型 ID、项目/空间和参数封装在一个客户端中 — 比原始 REST 更简洁。

参考

非 Python 服务必须调用 watsonx.ai 推理。

使用模型 ID、输入和参数在 JSON 正文中调用 watsonx.ai 文本生成 REST 端点。

原因: REST API 是语言无关的；SDK 只是对相同端点的封装。

对 watsonx.ai 的 SDK 或 API 调用进行认证。

将 IBM Cloud IAM API 密钥换取 bearer token，然后使用该 token 和您的项目/空间 ID 调用端点。

原因: watsonx 使用 IBM Cloud IAM；在每次调用中嵌入原始 API 密钥或硬编码 token 是错误且不安全的。

参考

决定模型资产在开发阶段和提供服务阶段的存放位置。

在项目中进行开发和实验；将资产提升到部署空间以提供服务。

原因: 项目是协作开发沙箱；部署空间包含提升到生产环境、受访问控制的资产。

将检索和生成连接到一个应用程序流中。

嵌入查询，从 Milvus/Discovery 检索 top-k 分块，将其注入 prompt 模板，然后调用已部署的模型。

原因: “检索-然后-生成”的顺序是答案的基础；首先调用模型会使 RAG 失败。

watsonx 平台概述与架构

将 GenAI 工作负载映射到 watsonx 产品系列。

在 watsonx.ai 中构建和调优，在 watsonx.data 中存储/查询数据，在 watsonx.governance 中进行治理和监控。

原因: 这三个组件是互补的，不可互换 — 了解各自的功能是核心考试知识。

参考

企业因数据驻留原因需要在本地部署 watsonx。

将 watsonx 作为软件部署在 Cloud Pak for Data (Red Hat OpenShift) 上，而不是使用 IBM Cloud SaaS 服务。

原因: SaaS 在 IBM Cloud 中运行；软件形式部署在您自己的 OpenShift 集群中，以满足驻留/气隙需求。

组织协作式 GenAI 工作及其工件。

使用 watsonx 项目作为工作区，其中包含数据资产、Notebook、prompt 和共享访问的调优模型。

原因: 项目是协作和资产范围的单位；部署空间是独立的，面向生产环境。

控制哪些人可以访问哪些 watsonx 实例和资产。

使用 IBM Cloud 帐户、资源组和 IAM 访问策略/角色来限定访问范围。

原因: watsonx 中的访问是在帐户/资源组级别由 IAM 驱动的 — 而不是仅仅依靠临时的按资产共享。

估算运行基础模型推理的成本。

计算 watsonx.ai 推理的基于 token 的计费，以及 watsonx.data 中预置的引擎/存储。

原因: GenAI 成本主要由输入/输出 token 决定；lakehouse 和向量存储的计算是单独的计费项。

在 watsonx 上绘制生产 RAG 架构。

湖仓数据 → Milvus 中的 embeddings → watsonx.ai 检索 + 生成 → 应用程序，并在整个过程中由 watsonx.governance 进行监控。

原因: 这种端到端流程是考试要求您识别的典型 watsonx 参考模式。

治理、合规与负责任的 AI

审计师要求提供已部署模型的生命周期和来源记录。

使用 watsonx.governance AI factsheet 捕获模型元数据、血缘和整个生命周期中的审批。

原因: Factsheet 是 watsonx 模型来源的记录系统 — 它文档化回答了“这个模型从何而来”。

参考

生产模型的输出质量随时间下降。

在部署上配置 watsonx.governance 漂移和质量监控器，设置阈值和警报。

原因: 持续监控可以在用户发现之前捕捉到漂移；一次性验证无法检测部署后的衰退。

必须检查模型是否存在对受保护群体的偏颇对待。

在 watsonx.governance 中运行公平性/偏见评估，并在 factsheet 中记录缓解措施。

原因: 负责任的 AI 义务要求对公平性进行衡量和记录 — 而不是仅仅未经衡量的公平性假设。

合规团队需要将 GenAI 系统映射到 AI 法规。

使用 watsonx.governance 跟踪风险，将控制措施与法规关联，并维护可供审计的证据。

原因: 治理将模型风险与法规控制集中在一个地方，这是审计和 IBM 负责任 AI 原则所要求的。