Google Cloud Professional Data Engineer
225道练习题
最后审核:April 2026
为你的学习之旅记录个人笔记和资源链接
按认证筛选
Google Cloud 专业数据工程师 (PDE) 认证验证了在 Google Cloud 上设计、构建、保护和操作数据处理系统的能力。该考试是更受欢迎的 GCP 专业认证之一,并一直位居市场上薪酬最高的单一数据认证之列。考试内容深入涵盖 BigQuery(分区、聚类、具体化视图、BI Engine、BigLake、Omni)、Dataflow(Apache Beam 批处理和流处理、窗口、水印)、Pub/Sub、Dataproc、Cloud Composer(托管 Airflow)、Dataform、Dataplex、Datastream 以及 Vertex AI 用于 ML 流水线的集成。题目风格侧重场景,奖励那些能同时考虑成本、延迟、数据新鲜度和架构演进权衡的候选人。
源系统分析、数据仓库与数据湖与湖仓设计、BigQuery 的模式建模(非规范化、嵌套、ARRAY/STRUCT)、选择正确的存储(BigQuery 与 Bigtable 与 Spanner 与 Firestore 与 Cloud SQL)。22%。
占比 25% 的最大领域。Pub/Sub 模式、使用 Apache Beam 进行 Dataflow 批处理和流处理(窗口、触发器、水印、精确一次语义)、Dataproc Spark 作业、Datastream CDC、Storage Transfer Service。
BigQuery 分区和聚类、具体化视图、BI Engine、BigLake 外部表、表级快照和时间旅行、Bigtable 模式设计、Cloud Storage 类别转换。20%。
BigQuery SQL(窗口函数、ARRAY/STRUCT 操作、搜索索引)、BigQuery ML、Looker 语义模型基础、对 Cloud SQL / Spanner / Cloud Storage 的联邦查询、Vertex AI 集成。15%。
Cloud Composer DAGs、Dataform 工作流、BigQuery 定时查询、槽位预留和按需定价、使用 Cloud Monitoring 进行监控、数据集/表/列/行级别的 IAM。18%。
您将在考试中遇到的服务及其重要性。
无服务器列式数据仓库,存储与计算分离,提供按需和预留插槽,支持 BigQuery ML 进行仓内建模,并利用物化视图实现增量聚合。
为什么会出现在考试中: BigQuery 是 PDE 全部五个领域的核心分析平台——分区、聚类、插槽预留和查询优化是考试的重点。
作为 GCP 数据湖基石的对象存储,支持原始/精炼/消费区,多区域和双区域存储桶,生命周期策略,并作为所有下游分析服务的数据源。
为什么会出现在考试中: 每个 PDE 存储和摄取场景都以 Cloud Storage 作为底层;存储类别、保留策略和签名 URL 访问模式是“数据存储”考题的关键。
完全托管的 Apache Beam 运行器,用于统一的流式和批处理管道,具备自动扩缩工作器、Streaming Engine 以及可重复部署的 Flex 模板。
为什么会出现在考试中: Dataflow 是“数据摄取和处理”领域的标准答案——涉及窗口操作、触发器、精确一次语义以及流式与批处理权衡的问题都集中在此。
托管的 Spark、Hadoop、Hive、Presto 和 Flink 集群,支持瞬时自动扩缩,提供用于批处理 Spark 的 Dataproc Serverless,以及用于共享基础设施的 Spark-on-GKE。
为什么会出现在考试中: PDE 期望将 Dataproc 作为现有 Spark/Hadoop 工作负载的迁移目标——瞬时与长期运行、自动扩缩策略以及 Dataproc-vs-Dataflow 的选择出现在“设计数据处理系统”中。
全球分布式消息服务,用于异步摄取,提供至少一次交付、排序键、死信主题,以及用于成本优化区域流的 Pub/Sub Lite。
为什么会出现在考试中: Pub/Sub 是“数据摄取和处理”中默认的流式摄取接口——交付语义、订阅类型和积压行为是常见的考点。
托管式 Apache Airflow 服务,用于编排跨 BigQuery、Dataflow、Dataproc 和外部系统的 DAG,Composer 2 在 GKE Autopilot 上运行。
为什么会出现在考试中: “数据工作负载的维护与自动化”考察 DAG 模式、重试和 SLA 监控——在 PDE 中,Composer 是指定的编排器,用于对比更简单任务链的 Workflows。
具有强一致性、水平扩展和 SQL 功能的全球分布式关系数据库,用作向分析管道提供数据的运营记录系统。
为什么会出现在考试中: PDE 存储问题区分 OLTP (Spanner) 和 OLAP (BigQuery),并询问 BigQuery 对 Spanner 的联邦查询何时优于 CDC 管道。
宽列 NoSQL 服务,支持 PB 级单毫秒级读取,针对时间序列和 IoT 工作负载进行优化,并兼容 HBase API。
为什么会出现在考试中: “设计数据处理系统”考察行键设计、热点问题以及 SSD-vs-HDD 的权衡——在需要低延迟分析读取时,Bigtable 是 GCP 的解决方案。
托管式 PostgreSQL、MySQL 和 SQL Server,提供自动化备份、只读副本和高可用性——是许多摄取管道的关系型数据源。
为什么会出现在考试中: Cloud SQL 在“数据摄取和存储”中作为上游 OLTP 数据库出现,其变更通过 Datastream 或计划的批处理导出馈送给 BigQuery。
无服务器文档数据库,具有实时侦听器、ACID 事务和企业模式下的全球复制功能——支持应用层事件捕获。
为什么会出现在考试中: PDE 存储场景选择 Firestore 进行低延迟应用层写入,这些数据随后通过 Eventarc 或 Pub/Sub 流入 BigQuery。
统一存储引擎,将 Cloud Storage 和外部数据(S3、ADLS)作为受治理的 BigQuery 表公开,具有细粒度访问控制和 Apache Iceberg 支持。
为什么会出现在考试中: BigLake 是“数据存储”领域的湖仓一体解决方案——它区分了外部表联邦与原生 BigQuery 存储,并支持多云分析。
无服务器变更数据捕获服务,以低延迟将 MySQL、PostgreSQL、Oracle 和 SQL Server 数据复制到 BigQuery、Cloud Storage 或 Cloud SQL。
为什么会出现在考试中: “数据摄取和处理”考察 CDC 模式;Datastream 是将基于日志的复制引入数据仓库的 GCP 原生解决方案,无需自定义 Debezium。
托管式基于 CDAP 的可视化 ETL 平台,拥有 150 多个连接器和一个无需编写代码的管道设计器,底层编译为 Dataproc。
为什么会出现在考试中: 当题目倾向于具有广泛连接器覆盖的低代码可视化 ETL 而非 Dataflow 中手写 Beam 时,PDE 预期选择 Data Fusion。
BigQuery 原生 SQL 工作流服务,提供版本控制、依赖图、断言和增量表物化——类似于 GCP 内的 dbt。
为什么会出现在考试中: “数据工作负载的维护与自动化”考察仓内转换模式;Dataform 是以 BigQuery 为中心的 ELT 的标准 SQL 编排解决方案。
可视化数据整理服务,用于探索、清理和转换结构化/半结构化数据,具有智能建议和配方导出功能。
为什么会出现在考试中: “数据分析准备和使用”将 Dataprep 定位为分析师驱动的数据整形(在 BigQuery 消费之前)的无代码路径。
托管服务,使用检查模板和转换作业,发现、分类和去识别 BigQuery、Cloud Storage 和 Datastore 中的 PII。
为什么会出现在考试中: PDE 治理场景中,引用 Sensitive Data Protection 来在数据进入共享分析层之前对 PII 进行遮盖、标记化或编辑。
针对每个数据服务的项目级和资源级权限,包括 BigQuery 的行级、列级和基于策略标签的细粒度访问控制。
为什么会出现在考试中: PDE 治理问题中,关于对 BigQuery 数据集、Cloud Storage 存储桶和 Pub/Sub 主题的最小权限访问都回归到 IAM 绑定和条件。
托管式加密密钥服务,为 BigQuery、Cloud Storage、Pub/Sub、Dataflow 和 Spanner 提供客户管理加密密钥 (CMEK),并支持 Cloud HSM 和外部密钥选项。
为什么会出现在考试中: 使用 CMEK 进行静态加密是 PDE 保护受监管分析数据、密钥轮换和租户隔离多团队数据仓库的标准答案。
统一的数据架构,用于跨 BigQuery、Cloud Storage 和外部源对数据进行编目、分类、保护和监控,并内置数据沿袭和质量管理。
为什么会出现在考试中: PDE 治理和数据质量场景将 Dataplex 命名为湖仓一体的 GCP 原生编目/沿袭层,取代了独立的 Data Catalog。
为管道运行、BigQuery 作业指标、Dataflow 工作器自动扩缩、Pub/Sub 积压以及通过 Cloud Monitoring 策略进行的基于 SLO 的警报提供统一可观测性。
为什么会出现在考试中: “数据工作负载的维护与自动化”期望使用 Cloud Logging + Cloud Monitoring 进行作业失败警报、插槽利用率仪表板和审计日志保留。
$140k–$195k–$290k USD 每年
该范围反映了以 GCP 为主要平台的美国高级数据工程师。FAANG L5 数据工程师的总薪酬 (TC) 超过 30 万美元。PDE 被招聘薪资范围持续列为薪酬最高的单一数据认证之一;结合强大的 Apache Beam / Dataflow 经验,它在 GCP 商店中享有溢价。纯分析师-工程师职位的薪资趋势较低。
来源:levels.fyi 2025–2026 (Google L4–L5 数据工程师、FAANG 和独角兽高级数据工程师), U.S. BLS OEWS May 2024 (15-2051 数据科学家, 15-1252 软件开发人员)。数据为估算值;实际薪酬取决于职位、地区和经验。
PDE 是 GCP 数据领域最受欢迎的认证,也是 GCP 重点公司中高级数据工程师职位最有力的信号之一。在数字原生 GCP 商店(Spotify、Snap、PayPal、Wayfair、多家主要零售商和广告技术公司)、以 BigQuery 为中心的分析组织以及拥有数据实践的 Google Cloud 合作伙伴中需求旺盛。该认证在 Google 内部也受到重视,用于客户工程数据专家。PDE 自然地与专业 ML 工程师 (PMLE) 结合,形成端到端的“数据 + ML”组合,并与云架构师 (PCA) 结合,形成更广泛的高级工程组合。持有者持续报告收到招聘人员的积极反馈。
没有正式的先决条件。Google 建议拥有三年或以上行业经验,其中一年或以上是在 Google Cloud 上设计和管理解决方案的经验。实际上,对于数据新手而言,PDE 并非一个可靠的首次 GCP 认证——成功的候选人通常已交付过非简单的流水线,并具备 SQL、Python 实践经验,以及至少对 Apache Beam 的概念性了解。
助理云工程师 (ACE) 是一个常见的垫脚石,但助理数据从业者 (ADP) 是针对数据特定内容的更直接的入门途径。熟练掌握 SQL(窗口函数、CTEs、ARRAY/STRUCT 操作)、至少熟悉一种用于 Beam 流水线的编程语言(Python 或 Java),以及熟悉流式传输概念(窗口、水印、精确一次交付)是实际要求。Google Cloud Skills Boost 上的官方数据工程师学习路径(大约 50-80 小时的实验)是一个很好的基础。
PDE 被评定为专业级,且难度一贯很高——许多考生认为它是继 PCA / PCNE 之后第二难的 GCP 认证,主要原因是流处理和 Dataflow / Apache Beam 内容。如果 PDE 是您的第一个 GCP 专业认证,请计划在 10-14 周内投入 100-150 小时的学习;如果您已持有 ACE / ADP 认证并具备生产数据工程经验,则计划在 5-8 周内投入 50-80 小时。考试包含 50-60 道多项选择 / 多项选择题,时长 120 分钟,通过 Pearson VUE 交付(Google 于 2026 年初从 Kryterion / Webassessor 迁移——2026 年 2 月 23 日至 3 月 1 日期间无考试;首次 Pearson 交付为 2026 年 3 月 2 日)。
最常见的绊脚石是 Dataflow 流处理——窗口策略(固定、滑动、会话)、水印、延迟数据和精确一次语义在失败尝试中占了不成比例的份额。第二个绊脚石是在 BigQuery、Bigtable、Spanner 和 Cloud SQL 之间进行选择,以应对多种技术方案都可行的存储场景。Google 不公布具体分数——只显示通过/未通过。该凭证有效期为两年,重新认证需要再次通过当前考试。
现有考试指南于 2023 年初更新,增加了对 BigLake、BigQuery Omni、Dataform、Dataplex 和 Datastream 的覆盖。扩展了与 Vertex AI 的 ML 流水线集成。
重大更新,重新平衡了存储和处理领域,并增加了对 Pub/Sub Lite 和 Dataflow Prime 的覆盖。
首次全面推出——首批三个 Google Cloud 专业认证之一。
PDE (Google Cloud Professional Data Engineer) 是一门一项具有挑战性、场景丰富的考试,要求具备深入的实际操作经验以及做出架构权衡决策的能力Professional级别考试。大多数考生需要为专业和专家级别考试学习 150-300 小时,分摊在 3-6 个月内完成。这些考试通常要求具备先前的助理级别熟练度。 大多数在模拟考试中持续得分高于及格线的考生,在第一次尝试时都能通过。
大多数考生需要为专业和专家级别考试学习 150-300 小时,分摊在 3-6 个月内完成。这些考试通常要求具备先前的助理级别熟练度。 通过考试所需时间因个人经验而异。在底层技术方面具有实际生产经验的工程师通常所需时间较少;平台新手则应计划在学习时间范围的上限。
PDE 是 GCP 生态系统中公认的证书,向雇主、招聘人员和客户表明您已具备经过验证的知识。它是否值得您投入时间和费用取决于您的角色和目标——对于日常使用 GCP 或希望从事相关工作的云工程师、架构师和顾问来说,其回报通常最大。
PDE 的及格分数是 未公布。考试包含 50 道题,时长为 2 小时。
PDE 考试费用为 $200 USD。费用由 GCP 设定,并可能因地区而异;预订前请务必在 GCP 官方认证页面确认当前价格。
Google Cloud 专业级认证有效期为 2 年。通过重新通过当前版本的考试来重新认证。
是的。您可以选择在线考试(通过提供商的安全浏览器进行监考,在大多数地区全天候可用)或在工作时间内前往 Pearson VUE 线下考试中心参加。两种形式使用相同的题目、时间限制和及格分数。
CertLabPro 为 PDE 提供了包含 15 种学习模式的练习题库。考试模拟模式与真实考试一致:50 道题,时长 2 小时,及格分数同样为 未公布。浏览模式允许您静态阅读所有问答。