将 IT 支出从大量前期硬件采购转变为按需付费模式。
利用云服务将资本支出 (CapEx) 转换为运营支出 (OpEx)。
原因: 云提供了财务灵活性,降低了进入门槛,并使成本与使用量直接挂钩,避免了过度配置。
Google Cloud Digital Leader
最后审核:2026年5月
CDL 考试涉及的架构模式快速参考。从头到尾阅读,或跳转到任意章节。
将 IT 支出从大量前期硬件采购转变为按需付费模式。
利用云服务将资本支出 (CapEx) 转换为运营支出 (OpEx)。
原因: 云提供了财务灵活性,降低了进入门槛,并使成本与使用量直接挂钩,避免了过度配置。
阐明云提供商和客户之间的安全职责归属。
Google 负责保护云基础设施(硬件、网络)。客户负责保护他们放入云中的内容(数据、IAM、应用程序代码)。
原因: 无论服务模型(IaaS、PaaS、SaaS)如何,客户始终对其数据和访问控制负责。
采用云服务的同时保持使用其他平台或技术的灵活性。
优先选择基于 Kubernetes (GKE)、TensorFlow 和 Apache Beam (Dataflow) 等开源技术构建的服务。
原因: 开源标准提高了工作负载的可移植性,防止了对专有 API 的锁定,并支持混合/多云策略。
减少 IT 运营的碳足迹,以实现企业可持续发展目标。
在 Google Cloud 上托管工作负载,利用其 100% 可再生能源匹配。使用 Carbon Footprint 工具监控并选择低碳区域。
原因: Google Cloud 运营着最清洁的云之一,允许企业继承其可持续发展优势。
由于法规或数据主权原因,将本地基础设施与云服务集成。
使用 Anthos 在本地和 Google Cloud 上提供一致的基于 Kubernetes 的平台。
原因: Anthos 为应用程序提供统一的管理和控制平面,无论它们在哪里运行,从而简化了混合操作。
在不管理基础设施的情况下,使用复杂的 SQL 查询分析 PB 级的结构化数据。
使用 BigQuery。
原因: BigQuery 是一个完全托管的无服务器数据仓库,专为大规模分析查询而优化。
需要一个具有强一致性和水平可伸缩性的全球分布式关系数据库。
使用 Cloud Spanner。
原因: Spanner 将关系语义(ACID、SQL)与非关系型规模相结合,是金融等关键任务全球应用的理想选择。
以个位数毫秒级延迟存储和检索大量简单的键值数据(例如,IoT、用户配置文件)。
使用 Cloud Bigtable。
原因: Bigtable 是一个宽列 NoSQL 数据库,专为高吞吐量、低延迟的操作和分析工作负载而优化。
构建需要实时数据同步和离线功能的移动或网络应用程序。
使用 Firestore。
原因: Firestore 是一个 NoSQL 文档数据库,内置实时同步和离线持久性,专为现代应用程序开发而设计。
将传统的本地 MySQL、PostgreSQL 或 SQL Server 数据库迁移到托管云服务,并进行最少更改。
使用 Cloud SQL。
原因: Cloud SQL 是一个完全托管的关系数据库服务,提供与标准数据库引擎的兼容性,自动执行备份、补丁和复制。
摄取和处理高吞吐量、实时数据流(例如,IoT、点击流)以进行即时分析。
使用 Pub/Sub 进行摄取,Dataflow 进行流处理,以及 BigQuery 进行分析。
原因: 这是 Google Cloud 上可扩展、实时分析的典型无服务器模式。
经济高效地存储具有不同访问模式(频繁、不频繁、存档)的数据。
使用 Cloud Storage 及其生命周期策略,自动在 Standard、Nearline、Coldline 和 Archive 存储类别之间转换数据。
原因: 生命周期策略自动化了数据分层,无需人工干预即可将存储成本与访问频率匹配。
存储大量原始、非结构化和半结构化数据,用于未来的处理和分析。
使用 Cloud Storage 作为中央存储库(数据湖)。
原因: Cloud Storage 提供持久、低成本的对象存储,可与所有 GCP 数据处理服务(BigQuery、Dataproc、Dataflow)集成。
使用 Apache Spark 和 Hadoop 等开源框架运行大规模数据处理作业。
使用 Dataproc。
原因: Dataproc 提供完全托管的 Spark 和 Hadoop 集群,自动化集群创建和管理,让团队专注于他们的作业。
在没有 ML 专业知识的情况下,为应用程序添加图像识别、情感分析或语音转录等 AI 功能。
使用预训练的 API:Vision AI、Natural Language AI、Speech-to-Text API、Translation API。
原因: 这些 API 为常见用例提供了 Google 最先进的模型,只需简单的 REST API 调用即可。
使用自己的标记数据(例如,产品图像、客户文本)训练自定义 ML 模型,但没有 ML 编码经验。
在 Vertex AI 中使用 AutoML。
原因: AutoML 自动化了模型构建过程,使团队能够通过简单的图形界面创建高质量的自定义模型。
数据科学团队需要一个统一平台来构建、训练、部署和管理其生命周期中的自定义 ML 模型 (MLOps)。
使用 Vertex AI。
原因: Vertex AI 是一个全面的 MLOps 平台,在单一环境中为机器学习工作流的每一步提供工具。
自动从扫描文档或 PDF 中提取结构化信息(例如,发票号码、明细项)。
使用 Document AI。
原因: Document AI 经过专门训练,能够理解文档布局并提取结构化数据,从而减少手动数据录入。
构建聊天机器人或基于语音的虚拟代理来处理客户服务咨询。
使用 Dialogflow。
原因: Dialogflow 是一个自然语言理解平台,旨在构建会话界面,管理意图、实体和对话流程。
仅使用 SQL 在数据仓库中存储的数据上直接构建和运行预测模型。
使用 BigQuery ML。
原因: BigQuery ML 通过允许数据分析师使用熟悉的 SQL 语法创建模型,从而实现机器学习的民主化,避免了数据移动。
构建可以生成新内容(例如文本摘要、代码或图像)的应用程序。
使用 Vertex AI Generative AI 平台,访问 Gemini 等基础模型。
原因: Vertex AI 通过 API 提供对强大基础模型的托管访问,从而能够快速开发生成式 AI 功能。
以最少的更改将运行在 VM 上的传统应用程序迁移到云端,需要完全的操作系统控制。
使用 Compute Engine。
原因: Compute Engine (IaaS) 提供虚拟机,为本地服务器提供最大程度的控制和直接迁移路径。
部署一个无状态、容器化的 Web 应用程序,该应用程序必须根据流量自动扩展,包括扩展到零。
使用 Cloud Run。
原因: Cloud Run 是一个完全托管的无服务器容器平台,它抽象了所有基础设施,并且只对活动请求处理时间计费。
使用容器运行复杂的微服务架构,需要细粒度的编排和控制。
使用 Google Kubernetes Engine (GKE)。
原因: GKE 提供了一个托管的、生产就绪的 Kubernetes 环境,提供完整的编排能力,同时自动化集群管理。
响应事件执行一小段代码,例如文件上传到 Cloud Storage 或 Pub/Sub 消息。
使用 Cloud Functions。
原因: Cloud Functions (FaaS) 是一个无服务器、事件驱动的计算服务,非常适合短期、单一用途的函数,无需管理服务器。
部署一个 Web 应用程序,只专注于编写代码,让平台处理服务器、扩展和打补丁。
使用 App Engine。
原因: App Engine (PaaS) 是一个完全托管的平台,抽象了所有基础设施,是希望以最快方式部署应用程序的开发人员的理想选择。
以尽可能低的成本运行大型、容错的批处理或高性能计算作业。
在 Compute Engine 上使用 Spot VM。
原因: Spot VM 为可中断的工作负载提供深度折扣(高达 91%),使其对于非关键批处理作业具有极高的成本效益。
在本地数据中心和 Google Cloud 之间建立高带宽、低延迟的专用连接。
使用 Cloud Interconnect。
原因: Cloud Interconnect 提供专用物理连接,比通过公共互联网的 VPN 提供更可靠、更一致的性能。
以低延迟向全球用户群交付网页或视频内容。
使用 Cloud CDN。
原因: Cloud CDN 在 Google 全球分布式边缘站点缓存内容,从离用户最近的接入点提供服务。
安全地存储和管理容器镜像、操作系统包和语言包,并进行漏洞扫描。
使用 Artifact Registry。
原因: Artifact Registry 是一个通用的托管仓库,与 CI/CD 和 GKE 集成,提供安全和集中的包管理。
将现有 VMware 工作负载迁移到 Google Cloud,无需重新架构应用程序或更改操作工具。
使用 Google Cloud VMware Engine。
原因: 它在 Google Cloud 上提供了一个专用、完全托管的 VMware 软件定义数据中心 (SDDC),实现了 VMware 工作负载的无缝“即时迁移”。
根据工作职能管理用户对云资源的访问,遵循最小权限原则。
将预定义或自定义 IAM 角色分配给 Google 群组,而不是单个用户。
原因: 通过群组管理权限简化了管理,并确保新用户自动继承正确且最小的权限。
获得整个 GCP 组织中安全漏洞、威胁和错误配置的集中视图。
使用 Security Command Center。
原因: 它作为安全的单一视图,聚合来自多个来源的发现,并提供可操作的见解。
保护面向公众的 Web 应用程序免受 DDoS 攻击和常见的 Web 攻击(例如,SQL 注入)。
使用 Cloud Armor。
原因: Cloud Armor 是 Google 的 Web 应用程序防火墙 (WAF) 和 DDoS 缓解服务,与全球负载均衡器集成。
加密云服务中的数据,同时保持对加密密钥的完全控制。
使用 Cloud Key Management Service (Cloud KMS) 创建客户管理加密密钥 (CMEK)。
原因: CMEK 允许您出于合规性或策略原因控制密钥生命周期(轮换、销毁),而 Google 管理密钥基础设施。
发现、分类和匿名化存储在 Cloud Storage 或 BigQuery 中的敏感数据(例如,信用卡号、PII)。
使用 Cloud Data Loss Prevention (DLP)。
原因: Cloud DLP 提供工具,可自动扫描敏感数据并采取措施,防止意外暴露。
在不使用传统 VPN 的情况下,为员工提供对内部 Web 应用程序的安全访问。
使用 Identity-Aware Proxy (IAP)。
原因: IAP 根据用户身份和上下文强制执行访问策略,为应用程序创建零信任安全模型。
通过在敏感的 Google Cloud 项目和服务周围创建安全边界来防止数据渗漏。
使用 VPC Service Controls。
原因: VPC Service Controls 隔离服务和数据,确保数据无法移出定义的边界,即使是具有有效 IAM 权限的用户也无法做到。
安全地存储和管理应用程序机密,例如 API 密钥、密码和证书。
使用 Secret Manager。
原因: Secret Manager 提供了一个集中、版本化和经过审计的机密存储,具有细粒度的 IAM 权限,比将它们存储在代码或配置文件中更安全。
通过指标、日志和跟踪获取对应用程序和基础设施健康状况的全面可观察性。
使用 Google Cloud 运营套件:Cloud Monitoring(指标/警报)、Cloud Logging(日志)和 Cloud Trace(跟踪)。
原因: 这个集成套件提供了系统性能的完整视图,用于主动监控和更快地排除故障。
主动管理云支出,并在成本超出计划金额之前接收通知。
配置 Cloud Billing 预算警报。
原因: 当支出达到特定阈值时,预算提供编程通知,防止成本超支。
跟踪云成本并将其分配给特定的团队、项目或成本中心以进行费用分摊。
对所有资源应用标签,并使用 Cloud Billing 报告按标签筛选和分组成本。
原因: 标签是组织资源和归因成本以进行财务治理的主要机制。
降低持续运行的可预测、稳态工作负载(例如,数据库服务器)的成本。
购买 Compute Engine 或其他服务的 1 年或 3 年承诺使用折扣 (CUD)。
原因: CUDs 相较于按需定价提供了显著的节省,以换取对一致资源使用水平的承诺。
组织云资源以反映公司结构(例如,部门、环境),并分层应用策略。
使用组织 (Organization) > 文件夹 (Folders) > 项目 (Projects) 资源层次结构。
原因: 此结构实现了集中控制,因为 IAM 和组织策略沿层次结构向下继承,从而简化了大规模治理。
以可重复、版本控制和自动化的方式定义、部署和管理云基础设施。
使用 Terraform 或 Cloud Deployment Manager 等基础设施即代码 (IaC) 工具。
原因: IaC 减少了手动错误,提高了部署速度,并提供了基础设施更改的可审计记录。
平衡服务可靠性需求与创新和发布新功能的需求。
实施站点可靠性工程 (SRE) 原则:定义服务级别目标 (SLO) 并使用由此产生的错误预算 (Error Budget)。
原因: 错误预算提供了一个数据驱动的框架,用于决定何时优先处理可靠性工作而非功能开发,从而保护用户体验。