手册 — CDL Google Cloud Digital Leader

最后审核：2026年5月

CDL 考试涉及的架构模式快速参考。从头到尾阅读，或跳转到任意章节。

描述利用 Google Cloud 进行数字化转型

将 IT 支出从大量前期硬件采购转变为按需付费模式。

利用云服务将资本支出 (CapEx) 转换为运营支出 (OpEx)。

原因: 云提供了财务灵活性，降低了进入门槛，并使成本与使用量直接挂钩，避免了过度配置。

阐明云提供商和客户之间的安全职责归属。

Google 负责保护云基础设施（硬件、网络）。客户负责保护他们放入云中的内容（数据、IAM、应用程序代码）。

原因: 无论服务模型（IaaS、PaaS、SaaS）如何，客户始终对其数据和访问控制负责。

参考

采用云服务的同时保持使用其他平台或技术的灵活性。

优先选择基于 Kubernetes (GKE)、TensorFlow 和 Apache Beam (Dataflow) 等开源技术构建的服务。

原因: 开源标准提高了工作负载的可移植性，防止了对专有 API 的锁定，并支持混合/多云策略。

减少 IT 运营的碳足迹，以实现企业可持续发展目标。

在 Google Cloud 上托管工作负载，利用其 100% 可再生能源匹配。使用 Carbon Footprint 工具监控并选择低碳区域。

原因: Google Cloud 运营着最清洁的云之一，允许企业继承其可持续发展优势。

参考

由于法规或数据主权原因，将本地基础设施与云服务集成。

使用 Anthos 在本地和 Google Cloud 上提供一致的基于 Kubernetes 的平台。

原因: Anthos 为应用程序提供统一的管理和控制平面，无论它们在哪里运行，从而简化了混合操作。

参考

利用数据和 Google Cloud 进行创新

在不管理基础设施的情况下，使用复杂的 SQL 查询分析 PB 级的结构化数据。

使用 BigQuery。

原因: BigQuery 是一个完全托管的无服务器数据仓库，专为大规模分析查询而优化。

参考

需要一个具有强一致性和水平可伸缩性的全球分布式关系数据库。

使用 Cloud Spanner。

原因: Spanner 将关系语义（ACID、SQL）与非关系型规模相结合，是金融等关键任务全球应用的理想选择。

参考

以个位数毫秒级延迟存储和检索大量简单的键值数据（例如，IoT、用户配置文件）。

使用 Cloud Bigtable。

原因: Bigtable 是一个宽列 NoSQL 数据库，专为高吞吐量、低延迟的操作和分析工作负载而优化。

参考

构建需要实时数据同步和离线功能的移动或网络应用程序。

使用 Firestore。

原因: Firestore 是一个 NoSQL 文档数据库，内置实时同步和离线持久性，专为现代应用程序开发而设计。

参考

将传统的本地 MySQL、PostgreSQL 或 SQL Server 数据库迁移到托管云服务，并进行最少更改。

使用 Cloud SQL。

原因: Cloud SQL 是一个完全托管的关系数据库服务，提供与标准数据库引擎的兼容性，自动执行备份、补丁和复制。

参考

摄取和处理高吞吐量、实时数据流（例如，IoT、点击流）以进行即时分析。

使用 Pub/Sub 进行摄取，Dataflow 进行流处理，以及 BigQuery 进行分析。

原因: 这是 Google Cloud 上可扩展、实时分析的典型无服务器模式。

经济高效地存储具有不同访问模式（频繁、不频繁、存档）的数据。

使用 Cloud Storage 及其生命周期策略，自动在 Standard、Nearline、Coldline 和 Archive 存储类别之间转换数据。

原因: 生命周期策略自动化了数据分层，无需人工干预即可将存储成本与访问频率匹配。

参考

存储大量原始、非结构化和半结构化数据，用于未来的处理和分析。

使用 Cloud Storage 作为中央存储库（数据湖）。

原因: Cloud Storage 提供持久、低成本的对象存储，可与所有 GCP 数据处理服务（BigQuery、Dataproc、Dataflow）集成。

使用 Apache Spark 和 Hadoop 等开源框架运行大规模数据处理作业。

使用 Dataproc。

原因: Dataproc 提供完全托管的 Spark 和 Hadoop 集群，自动化集群创建和管理，让团队专注于他们的作业。

参考

利用 Google Cloud 人工智能和机器学习进行创新

在没有 ML 专业知识的情况下，为应用程序添加图像识别、情感分析或语音转录等 AI 功能。

使用预训练的 API：Vision AI、Natural Language AI、Speech-to-Text API、Translation API。

原因: 这些 API 为常见用例提供了 Google 最先进的模型，只需简单的 REST API 调用即可。

参考

使用自己的标记数据（例如，产品图像、客户文本）训练自定义 ML 模型，但没有 ML 编码经验。

在 Vertex AI 中使用 AutoML。

原因: AutoML 自动化了模型构建过程，使团队能够通过简单的图形界面创建高质量的自定义模型。

参考

数据科学团队需要一个统一平台来构建、训练、部署和管理其生命周期中的自定义 ML 模型 (MLOps)。

使用 Vertex AI。

原因: Vertex AI 是一个全面的 MLOps 平台，在单一环境中为机器学习工作流的每一步提供工具。

参考

自动从扫描文档或 PDF 中提取结构化信息（例如，发票号码、明细项）。

使用 Document AI。

原因: Document AI 经过专门训练，能够理解文档布局并提取结构化数据，从而减少手动数据录入。

参考

构建聊天机器人或基于语音的虚拟代理来处理客户服务咨询。

使用 Dialogflow。

原因: Dialogflow 是一个自然语言理解平台，旨在构建会话界面，管理意图、实体和对话流程。

参考

仅使用 SQL 在数据仓库中存储的数据上直接构建和运行预测模型。

使用 BigQuery ML。

原因: BigQuery ML 通过允许数据分析师使用熟悉的 SQL 语法创建模型，从而实现机器学习的民主化，避免了数据移动。

参考

构建可以生成新内容（例如文本摘要、代码或图像）的应用程序。

使用 Vertex AI Generative AI 平台，访问 Gemini 等基础模型。

原因: Vertex AI 通过 API 提供对强大基础模型的托管访问，从而能够快速开发生成式 AI 功能。

参考

利用 Google Cloud 现代化基础设施和应用程序

以最少的更改将运行在 VM 上的传统应用程序迁移到云端，需要完全的操作系统控制。

使用 Compute Engine。

原因: Compute Engine (IaaS) 提供虚拟机，为本地服务器提供最大程度的控制和直接迁移路径。

参考

部署一个无状态、容器化的 Web 应用程序，该应用程序必须根据流量自动扩展，包括扩展到零。

使用 Cloud Run。

原因: Cloud Run 是一个完全托管的无服务器容器平台，它抽象了所有基础设施，并且只对活动请求处理时间计费。

参考

使用容器运行复杂的微服务架构，需要细粒度的编排和控制。

使用 Google Kubernetes Engine (GKE)。

原因: GKE 提供了一个托管的、生产就绪的 Kubernetes 环境，提供完整的编排能力，同时自动化集群管理。

参考

响应事件执行一小段代码，例如文件上传到 Cloud Storage 或 Pub/Sub 消息。

使用 Cloud Functions。

原因: Cloud Functions (FaaS) 是一个无服务器、事件驱动的计算服务，非常适合短期、单一用途的函数，无需管理服务器。

参考

部署一个 Web 应用程序，只专注于编写代码，让平台处理服务器、扩展和打补丁。

使用 App Engine。

原因: App Engine (PaaS) 是一个完全托管的平台，抽象了所有基础设施，是希望以最快方式部署应用程序的开发人员的理想选择。

参考

以尽可能低的成本运行大型、容错的批处理或高性能计算作业。

在 Compute Engine 上使用 Spot VM。

原因: Spot VM 为可中断的工作负载提供深度折扣（高达 91%），使其对于非关键批处理作业具有极高的成本效益。

在本地数据中心和 Google Cloud 之间建立高带宽、低延迟的专用连接。

使用 Cloud Interconnect。

原因: Cloud Interconnect 提供专用物理连接，比通过公共互联网的 VPN 提供更可靠、更一致的性能。

参考

以低延迟向全球用户群交付网页或视频内容。

使用 Cloud CDN。

原因: Cloud CDN 在 Google 全球分布式边缘站点缓存内容，从离用户最近的接入点提供服务。

参考

安全地存储和管理容器镜像、操作系统包和语言包，并进行漏洞扫描。

使用 Artifact Registry。

原因: Artifact Registry 是一个通用的托管仓库，与 CI/CD 和 GKE 集成，提供安全和集中的包管理。

参考

将现有 VMware 工作负载迁移到 Google Cloud，无需重新架构应用程序或更改操作工具。

使用 Google Cloud VMware Engine。

原因: 它在 Google Cloud 上提供了一个专用、完全托管的 VMware 软件定义数据中心 (SDDC)，实现了 VMware 工作负载的无缝“即时迁移”。

参考

Google Cloud 的信任与安全

根据工作职能管理用户对云资源的访问，遵循最小权限原则。

将预定义或自定义 IAM 角色分配给 Google 群组，而不是单个用户。

原因: 通过群组管理权限简化了管理，并确保新用户自动继承正确且最小的权限。

获得整个 GCP 组织中安全漏洞、威胁和错误配置的集中视图。

使用 Security Command Center。

原因: 它作为安全的单一视图，聚合来自多个来源的发现，并提供可操作的见解。

参考

保护面向公众的 Web 应用程序免受 DDoS 攻击和常见的 Web 攻击（例如，SQL 注入）。

使用 Cloud Armor。

原因: Cloud Armor 是 Google 的 Web 应用程序防火墙 (WAF) 和 DDoS 缓解服务，与全球负载均衡器集成。

参考

加密云服务中的数据，同时保持对加密密钥的完全控制。

使用 Cloud Key Management Service (Cloud KMS) 创建客户管理加密密钥 (CMEK)。

原因: CMEK 允许您出于合规性或策略原因控制密钥生命周期（轮换、销毁），而 Google 管理密钥基础设施。

参考

发现、分类和匿名化存储在 Cloud Storage 或 BigQuery 中的敏感数据（例如，信用卡号、PII）。

使用 Cloud Data Loss Prevention (DLP)。

原因: Cloud DLP 提供工具，可自动扫描敏感数据并采取措施，防止意外暴露。

参考

在不使用传统 VPN 的情况下，为员工提供对内部 Web 应用程序的安全访问。

使用 Identity-Aware Proxy (IAP)。

原因: IAP 根据用户身份和上下文强制执行访问策略，为应用程序创建零信任安全模型。

参考

通过在敏感的 Google Cloud 项目和服务周围创建安全边界来防止数据渗漏。

使用 VPC Service Controls。

原因: VPC Service Controls 隔离服务和数据，确保数据无法移出定义的边界，即使是具有有效 IAM 权限的用户也无法做到。

参考

安全地存储和管理应用程序机密，例如 API 密钥、密码和证书。

使用 Secret Manager。

原因: Secret Manager 提供了一个集中、版本化和经过审计的机密存储，具有细粒度的 IAM 权限，比将它们存储在代码或配置文件中更安全。

参考

管理云运营

通过指标、日志和跟踪获取对应用程序和基础设施健康状况的全面可观察性。

使用 Google Cloud 运营套件：Cloud Monitoring（指标/警报）、Cloud Logging（日志）和 Cloud Trace（跟踪）。

原因: 这个集成套件提供了系统性能的完整视图，用于主动监控和更快地排除故障。

参考

主动管理云支出，并在成本超出计划金额之前接收通知。

配置 Cloud Billing 预算警报。

原因: 当支出达到特定阈值时，预算提供编程通知，防止成本超支。

参考

跟踪云成本并将其分配给特定的团队、项目或成本中心以进行费用分摊。

对所有资源应用标签，并使用 Cloud Billing 报告按标签筛选和分组成本。

原因: 标签是组织资源和归因成本以进行财务治理的主要机制。

降低持续运行的可预测、稳态工作负载（例如，数据库服务器）的成本。

购买 Compute Engine 或其他服务的 1 年或 3 年承诺使用折扣 (CUD)。

原因: CUDs 相较于按需定价提供了显著的节省，以换取对一致资源使用水平的承诺。

参考

组织云资源以反映公司结构（例如，部门、环境），并分层应用策略。

使用组织 (Organization) > 文件夹 (Folders) > 项目 (Projects) 资源层次结构。

原因: 此结构实现了集中控制，因为 IAM 和组织策略沿层次结构向下继承，从而简化了大规模治理。

参考

以可重复、版本控制和自动化的方式定义、部署和管理云基础设施。

使用 Terraform 或 Cloud Deployment Manager 等基础设施即代码 (IaC) 工具。

原因: IaC 减少了手动错误，提高了部署速度，并提供了基础设施更改的可审计记录。

平衡服务可靠性需求与创新和发布新功能的需求。

实施站点可靠性工程 (SRE) 原则：定义服务级别目标 (SLO) 并使用由此产生的错误预算 (Error Budget)。

原因: 错误预算提供了一个数据驱动的框架，用于决定何时优先处理可靠性工作而非功能开发，从而保护用户体验。

参考