手册

Google Cloud Generative AI Leader

最后审核：2026年5月

GAIL 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

领域 1：生成式 AI 基础

区分不同 AI 类型以适应业务用例。

将生成式 AI 用于内容创作（文本、图像、代码）。将传统/判别式 AI 用于现有数据的分类、预测和分析。

原因: 生成式 AI *创建* 新颖内容。传统 AI *分析* 或 *分类* 现有数据。这是一个基本概念。

决定是从头开始构建模型还是使用预训练模型。

利用在海量、多样化数据集上预训练的基础模型（例如 Gemini），并使其适应特定任务。

原因: 基础模型通过提供强大、通用的基础，可通过提示或微调进行专业化，从而大幅减少开发时间和资源成本。

解决方案需要理解和处理文本、图像、音频或视频的组合。

使用像 Gemini 这样的多模态基础模型，它可以在单个提示中原生推理不同数据类型。

原因: 多模态模型避免了为每种数据类型拼接独立模型的复杂性，从而实现更复杂、跨领域的理解。

大型语言模型（LLM）自信地生成看似合理但事实不准确的信息。

实施溯源技术，主要是检索增强生成（RAG），将模型连接到可验证的数据源。

原因: 幻觉是固有的风险。溯源将模型的响应锚定在事实来源上，使其成为提高事实准确性的主要策略。

理解使现代 LLM 能够理解上下文的核心技术。

Transformer 架构及其自注意力机制，允许模型衡量输入中所有词语之间相对的重要性。

原因: 自注意力是使 LLM 能够理解长距离依赖和上下文的关键创新，这与旧的序列模型（RNNs）不同。

构建一个能理解查询背后含义而不仅仅是关键词的搜索系统。

使用嵌入模型（例如来自 Vertex AI 的模型）将文本转换为数值向量。存储这些向量并使用向量相似度搜索来查找语义相关内容。

原因: 嵌入捕捉语义含义。查询可以找到概念上相似的结果，即使它们不共享关键词。

创意应用程序需要多样化的输出，而事实型聊天机器人需要确定性响应。

对于创意任务，增加 `temperature` 参数（例如 >0.7）。对于事实性、一致性响应，降低 `temperature`（例如 <0.3）。

原因: Temperature 控制输出的随机性。低 temperature 选择最可能的词；高 temperature 增加多样性。

处理超出模型 token 限制的大型文档。

设计一个使用分块、摘要或 RAG 方法的解决方案，将文档处理成适合上下文窗口的可管理片段。

原因: 模型具有有限的上下文窗口。任何超出此限制的输入都将被忽略，导致信息丢失。架构必须考虑到这一点。

领域 2：生成式 AI 解决方案开发

在 Google Cloud 上发现、测试和部署各种基础模型。

使用 Vertex AI Model Garden 作为 Google 专有模型（Gemini）、开源模型（Llama, Mistral）和合作伙伴模型的中心目录。

原因: Model Garden 是访问精选基础模型的统一入口点，简化了企业级环境中的发现和部署。

参考

AI 助手需要回答有关频繁变化信息的问题，例如产品库存或最新新闻。

实施检索增强生成（RAG）模式。将 LLM 连接到外部、最新的知识库（例如数据库、文档存储）。

原因: RAG 允许模型在推理时访问实时信息，克服其知识截止日期，并提供准确、最新的答案。

构建基于公司数据的企业搜索引擎或对话式 AI 代理。

使用 Vertex AI Search and Conversation（Agent Builder 的一部分）。将其指向您的数据源（网站、文档）以创建搜索应用程序或聊天机器人。

原因: 这是一个托管的低代码解决方案，用于构建基于事实的企业级搜索和聊天应用程序，显著降低了开发复杂性。

模型需要学习高度专业化的技能、术语或一致的行为，而仅靠提示无法实现。

使用高质量示例的精选数据集对基础模型执行监督微调。

原因: 微调调整模型的内部权重，使其成为特定领域的专家。对于深度专业化，它比提示更强大。

需要为特定领域定制基础模型，但缺乏进行完全微调的资源。

使用 Vertex AI 中可用的参数高效微调（PEFT）方法，如 LoRA 或适配器微调。

原因: PEFT 只调整模型参数的一小部分，以极低的计算成本和时间实现显著的定制化。

模型在需要复杂多步推理的任务（例如数学问题、逻辑谜题）中表现不佳。

使用思维链（CoT）提示。指示模型在给出最终答案之前“一步一步思考”。

原因: CoT 鼓励模型分解问题，这已被证明可以显著提高其在复杂任务上的推理能力和最终答案的准确性。

模型需要始终以特定格式（例如 JSON、某种写作风格）生成输出。

使用少样本提示。在提示中直接提供 2-5 个所需输入-输出模式的示例。

原因: 提供示例比仅描述格式更有效。模型会学习该模式并将其应用于新请求。

为特定用例选择合适的 Gemini 模型变体。

将 Gemini Pro 用于复杂、高质量的推理。将 Gemini Flash 用于大批量、低延迟和成本敏感的任务。将 Gemini Nano 用于设备端应用程序。

原因: 选择合适的模型大小是能力、速度和成本之间的关键权衡。使用满足要求的最小模型是最佳实践。

自动化从发票或收据等非结构化文档中提取结构化数据（例如行项目、日期、总计）。

使用 Google Cloud Document AI。利用其针对常见文档类型的预训练处理器，或为独特格式构建自定义处理器。

原因: Document AI 是一项专门构建的服务，它超越了简单的 OCR，能够理解文档结构和语义，为数据提取任务提供更高的准确性。

参考

将生成式 AI 功能（例如摘要、情感分析）应用于存储在 BigQuery 数据仓库中的数据。

使用 BigQuery ML 通过 SQL 命令直接调用 Vertex AI 基础模型。在原地处理数据，无需移动。

原因: 这简化了架构，通过将数据保留在 BigQuery 中提高了安全性，并允许数据分析师使用熟悉的 SQL 语法利用 AI。

在 Gmail、Docs 和 Sheets 等现有工具中提高业务用户的生产力。

集成适用于 Google Workspace 的 Gemini。这可以在 Workspace 应用程序中直接提供 AI 帮助，完成起草电子邮件、总结文档和分析数据等任务。

原因: 这使得 AI 能力进入用户熟悉的日常工作流程，加速采用并立即提供生产力优势，无需切换上下文。

提高开发人员效率和代码质量。

为开发人员提供 Gemini Code Assist，它集成到 IDE 中，提供代码补全、生成、解释和测试创建。

原因: AI 代码助手减少了花在样板代码上的时间，有助于理解复杂的代码库，并提高整体开发人员生产力。

为生成式 AI 实验和开发选择合适的工具。

使用 Google AI Studio 通过 API 密钥快速、免费地进行基于网络的 Gemini 模型原型设计。使用 Vertex AI Studio 进行企业级开发，它具有 GCP 集成、安全控制和 MLOps 功能。

原因: Google AI Studio 用于快速原型设计；Vertex AI Studio 是通向生产的途径，提供企业级安全性、数据治理和可扩展性。

AI 代理需要采用特定角色、遵循规则并在对话中保持一致的语气。

使用系统提示定义代理的行为。此指令独立于用户查询提供给模型，以指导其整体行为。

原因: 系统提示是建立持久、一致行为准则的最有效方式，无需在每个面向用户的提示中重复。

解决方案需要常见的特定 AI 功能，例如翻译、语音转文本或文本转语音。

使用预训练的专用 API：Cloud Translation API、Speech-to-Text API 或 Text-to-Speech API。

原因: 这些托管 API 针对其特定任务进行了高度优化，比使用通用 LLM 执行相同功能更具成本效益且实现起来更简单。

领域 3：生成式 AI 解决方案运营

AI 系统用于错误代价高昂或危险的关键流程（例如医疗摘要、财务报告）。

实施人工干预（HITL）工作流。AI 生成草稿，然后由人工专家审阅、编辑和批准。

原因: HITL 结合了 AI 的速度与人类的判断和问责制，这对于减轻关键应用中的风险至关重要。

AI 模型部署到生产环境后，其性能随时间推移而下降。

实施持续监控以跟踪模型性能并检测数据漂移或概念漂移。

原因: 现实世界在变化。数据漂移发生在生产数据不再与训练数据相似时。监控对于了解何时需要重新训练或更新至关重要。

预测和管理生成式 AI 服务的运营成本。

了解 Vertex AI GenAI 服务的计费方式是按使用量付费，通常是每 1,000 个输入和输出字符或 token。

原因: 成本与使用量直接挂钩。架构师必须设计系统来管理提示和响应长度，以控制运营开支。

AI 应用程序在用户流量高峰期出现高延迟或错误。

扩展模型部署。对于 Vertex AI Prediction 端点，增加机器副本数量或使用更高性能的机器类型。

原因: 推理性能并非无限可扩展。必须预置底层基础设施以处理预期的请求量。

生成式 AI 解决方案必须处理受区域数据主权法规（例如 GDPR）约束的敏感数据。

将 Vertex AI 配置为使用区域端点。与 VPC Service Controls 集成，以创建服务边界，防止数据外泄。

原因: Google Cloud 提供明确的控制措施，以确保数据在特定地理区域内处理并与公共网络隔离，这对于许多合规制度是强制性的。

应用程序处理简单和复杂查询的混合，而使用单个大型模型成本过高。

实施模型路由器。预先分类传入的提示，将简单请求路由到小型、快速且经济的模型（例如 Gemini Flash），将复杂请求路由到功能强大的模型（例如 Gemini Pro）。

原因: 这种模式通过为每个任务使用最合适的资源来优化成本-性能权衡，显著降低了整体运营成本。

领域 4：生成式 AI 负责任设计与治理

在组织内部启动新的生成式 AI 项目。

首先确定一个高价值的业务问题或用例。不要从技术开始，然后寻找问题。

原因: 成功的 AI 项目是那些能带来可衡量业务价值的项目。清晰的问题陈述确保专注并将项目与战略目标对齐。

AI 模型显示出针对某些人口群体的偏见行为。

在整个机器学习生命周期中解决偏见：审计和管理训练数据以确保公平性，测试模型是否存在不同影响，并实施部署后监控以发现有偏见的结果。

原因: 偏见主要源于数据。它无法通过单一技术解决方案修复；它需要一个全面、持续的测试和缓解过程。

企业需要在多个部门中负责任地扩展 AI 的使用。

成立跨职能 AI 治理委员会。为 AI 开发、风险评估、道德审查、部署和监控制定明确的政策。

原因: 集中治理确保一致性，管理风险，并促进 AI 的负责任使用，防止出现无序的“狂野西部”式的非托管 AI 项目。

防止面向公众的聊天机器人生成有害、仇恨或不适当的内容。

在 Vertex AI 中启用内置安全过滤器。配置仇恨言论、骚扰和危险内容等类别的阈值。

原因: 这些预训练分类模型为防止生成不安全内容提供了关键的第一道防线，构成了负责任 AI 部署的核心部分。

向高层领导证明 AI 投资的合理性。

全面衡量 ROI。跟踪效率指标（例如节省时间、成本降低）和效益指标（例如营收提升、质量改进、客户满意度）。

原因: 全面的 ROI 分析不仅仅关注成本节约，还捕捉了完整的业务价值，包括质量改进和新的营收机会。

在需要决策透明度的受监管行业（例如金融、医疗保健）部署 AI 系统。

对于传统机器学习，使用 Vertex AI Explainability。对于生成式 AI，使用带来源归因的 RAG 来提供生成答案的引用和依据。

原因: 透明度建立信任，并且在许多领域是法律要求。为生成式 AI 响应提供引用是可解释性的主要方法。

制定保护 AI 系统免受新型威胁的企业战略。

采纳 Google 安全 AI 框架（SAIF）的原则，该框架为保护 AI 供应链、模型和部署提供了建议。

原因: SAIF 提供了一个结构化的概念指南，用于将传统的网络安全实践扩展到 AI 的独特挑战，例如提示注入和数据投毒。

参考

向员工推出新的 AI 工具，以确保成功采用。

实施结构化变革管理计划。获得高管支持，清晰沟通 AI 的作用，提供全面培训，并逐步将 AI 整合到现有工作流程中。

原因: 技术只是解决方案的一部分。AI 的成功采用取决于人员和流程，需要刻意努力来培养技能、建立信任和新的工作方式。

使用客户数据训练或运行生成式 AI 模型。

确保严格遵守数据隐私法规（例如 GDPR）。尽可能使用数据最小化原则，对 PII 进行匿名化处理，并仔细审查 AI 提供商的数据使用政策。

原因: 将客户数据与 AI 结合使用会产生重大的隐私和合规风险。数据治理和隐私从一开始就必须是核心设计考虑因素。