AWS Certified Data Engineer Associate
275道练习题
最后审核:April 2026
为你的学习之旅记录个人笔记和资源链接
按认证筛选
AWS 认证数据工程师助理 (DEA-C01) 于 2024 年 3 月推出,是已停用的数据分析专业认证的继任者,专注于实践者。它验证了在 AWS 上设计、构建、操作和保护数据管道及分析工作负载的能力 — 包括数据摄取、转换、存储、编排和治理。该考试面向使用 AWS 核心技术栈的在职数据工程师、分析工程师和 ETL 开发人员。重点考察 Glue、Lambda、Kinesis Data Streams / Firehose、Managed Kafka (MSK)、S3 数据湖、Lake Formation、Athena、Redshift 和 EMR。预计将出现情景驱动的问题,涉及成本敏感的摄取选择、文件格式和分区策略以及管道可靠性。DEA-C01 是概念性的(无实验),但要求具备实际的管道经验。
占比最大的领域,为 34%。涉及 Kinesis Data Streams vs. Firehose vs. MSK 的选择、Glue ETL 作业和 DataBrew、用于轻量级 ETL 的 Lambda,以及用于 SaaS 源的 AppFlow。常见难点:在延迟和顺序约束下选择正确的摄取服务。
S3 数据湖设计、文件格式 (Parquet, ORC, Avro)、分区、Lake Formation 治理、Redshift 架构 (RA3, Serverless) 以及用于操作工作负载的 DynamoDB。测试实际存储权衡。
使用 Step Functions、Glue Workflows、MWAA (Managed Airflow) 和 EventBridge 进行工作流编排。CloudWatch 监控数据作业、重试和警报。常被忽视的知识点:何时使用 MWAA 而非更简单的 Step Functions。
Lake Formation 权限、通过行/列级安全进行细粒度访问、用于静态加密的 KMS、跨账户数据共享的 IAM 模式,以及 PII 检测 (Macie)。权重较小 (18%) 但问题密度高。
您将在考试中遇到的服务及其重要性。
无服务器 ETL 平台,提供托管的 Spark/Python 运行时、用于模式发现的爬网程序、Glue Data Catalog 和用于低代码转换的 Glue DataBrew。
为什么会出现在考试中: Glue 是数据摄取与转换领域的核心服务——预计会考查作业书签、动态帧、分区策略以及 DataBrew 与 Glue Studio 之间的权衡。
对象存储,作为 AWS 数据湖的基础——包含着陆区、原始/整理/消费层,以及所有下游分析服务的来源。
为什么会出现在考试中: 每个 DEA-C01 存储和摄取场景都将 S3 作为基础;存储类、生命周期、智能分层和分区布局是数据存储管理领域考查的重点。
托管式云数据仓库,具备列式 MPP 存储、RA3 计算/存储分离、基于 S3 的 Redshift Spectrum,以及从 Aurora 进行零 ETL 摄取。
为什么会出现在考试中: 数据存储管理领域的考题会反复对比 Redshift(数据仓库)与 Athena/Glue/Lake Formation(数据湖仓);分发键、排序键和工作负载管理是此处的重点。
托管的 Hadoop/Spark/Hive/Presto/Flink 运行时,支持 EMR on EC2、EMR Serverless 和 EMR on EKS,用于大规模批处理和流式作业。
为什么会出现在考试中: 当数据摄取与转换场景超出 Glue 的规模或需要 Spark/Hudi/Iceberg 集成时,EMR 是标准答案。
实时流式传输服务,可大规模摄取点击流、IoT、应用程序和日志事件,提供分片或按需容量,并在保留窗口内支持重放。
为什么会出现在考试中: 数据摄取与转换领域考查流式摄取设计——Kinesis Data Streams 是用于为 Firehose、Lambda 或 Flink 提供数据馈送的低延迟管道的 AWS 原生源。
托管式流传输服务,可批量处理、压缩记录,并将其传输到 S3、Redshift、OpenSearch、Splunk 或 HTTP 端点,支持可选的 Lambda 转换。
为什么会出现在考试中: 当问题要求将数据托管式地、近乎实时地传输到目标而无需编写消费者代码时,Firehose 是数据摄取领域的标准答案。
基于 S3(和联邦源)的无服务器交互式 SQL 引擎,使用 Glue Data Catalog,提供用于成本/访问控制的工作组和按查询付费的定价模式。
为什么会出现在考试中: 数据运营与支持场景使用 Athena 进行湖数据即席探索,并作为 Lake Formation 治理背后的查询层。
托管式 Apache Airflow 服务,用于编排、调度和监控数据管道(以 Python DAG 的形式),并提供完整的操作符/传感器支持。
为什么会出现在考试中: 数据运营与支持领域关于管道编排的考题,将 MWAA(Airflow 原生、代码优先)与 Step Functions(状态机)进行区分——对于复杂的跨服务 DAG,请选择 MWAA。
基于 Glue Data Catalog 的细粒度访问控制层,为 Athena、Redshift Spectrum、EMR 和 Glue 提供行、列和基于标签的权限。
为什么会出现在考试中: 数据安全与治理领域将 Lake Formation 作为湖数据行/列级安全的 AWS 原生解决方案进行考查,取代直接基于 S3 的 IAM 模式。
无服务器键值/文档 NoSQL 数据库,具有个位数毫秒延迟、按需或预置容量、用于 CDC 的 Streams 以及零 ETL 导出到 S3 的能力。
为什么会出现在考试中: 数据存储管理领域将 DynamoDB(操作型 NoSQL)与关系型和数据仓库选项进行比较;DynamoDB Streams 为 CDC 注入数据湖提供支持。
托管式关系数据库(PostgreSQL、MySQL、Oracle、SQL Server、MariaDB)以及 Aurora,包括用于分析的零 ETL 复制到 Redshift。
为什么会出现在考试中: 数据存储管理和数据摄取领域都将 RDS/Aurora 视为通过零 ETL、DMS 或逻辑复制向数据仓库馈送数据的操作源。
用于异构数据库之间(如 Oracle/SQL Server 到 Aurora/Redshift,本地到 AWS)一次性及连续(CDC)复制的托管服务。
为什么会出现在考试中: 当源是操作型 RDBMS 而非流或文件时,数据摄取与转换领域将 DMS 作为规范的迁移/CDC 解决方案进行考查。
无服务器工作流编排器,原生集成 Glue、EMR、Lambda、Athena、SageMaker 和 DynamoDB,以标准或快速状态机建模管道。
为什么会出现在考试中: 数据运营与支持领域的考题会区分 Step Functions(状态机,亚秒级/长时间运行)与 MWAA(Airflow DAGs)——对于事件驱动的 AWS 原生流程,Step Functions 更优。
无服务器事件总线,通过内容过滤和调度,将 AWS 服务事件、合作伙伴事件和自定义事件路由到目标(Lambda、Step Functions、Firehose、SQS)。
为什么会出现在考试中: 数据运营与支持领域使用 EventBridge 按计划或根据数据到达事件触发管道,并将信号扇出给不同团队。
无服务器计算服务,用于实时记录转换(Firehose / Kinesis)、轻量级 ETL 粘合、S3 事件驱动的预处理和管道自定义逻辑。
为什么会出现在考试中: 数据摄取与转换领域期望 Lambda 用于 Firehose 数据转换用例,以及连接那些不适合使用 Glue 或 EMR 的事件驱动步骤。
托管式 OpenSearch(以及旧版 Elasticsearch),用于搜索、日志分析和可观测性——包括面向可变容量工作负载的 OpenSearch Serverless。
为什么会出现在考试中: 数据存储管理和数据运营领域将 OpenSearch 引用为日志分析的目标,以及可搜索遥测数据的 Firehose / Kinesis 目的地。
无服务器 BI 服务,提供 SPICE 内存引擎、ML 洞察、嵌入式分析和 Q(自然语言)功能,用于查询 Redshift、Athena、RDS 和 S3 等数据源。
为什么会出现在考试中: 数据运营与支持领域关于向业务用户提供分析的考题,将 QuickSight 指定为数据湖/数据仓库之上的 AWS 原生消费层。
账户级访问控制:包括用户、角色、策略、联合身份,以及对每个 Glue 作业、S3 对象、Redshift 查询和管道步骤的最小权限。
为什么会出现在考试中: 数据安全与治理领域以 IAM 为基础——Glue/EMR 的执行角色、跨账户数据共享和基于资源的存储桶策略是反复出现的考点。
托管式创建和控制加密密钥,用于静态加密 S3 对象、Redshift 集群、RDS 卷、Kinesis 记录和 Glue Data Catalog 元数据。
为什么会出现在考试中: 数据安全与治理领域期望使用 KMS 客户管理密钥 (CMK) 进行静态加密,并要求在所有存储和管道服务中实现可审计的密钥轮换。
账户级 API 调用审计日志——记录谁启动了 Glue 作业、谁查询了 Redshift、谁更改了 Lake Formation 权限、谁从 S3 导出了数据。
为什么会出现在考试中: 数据安全与治理领域的合规场景将 CloudTrail 列为审计、取证调查和监管证据所需的不可变记录。
$105k–$150k–$215k USD 每年
该范围涵盖了需要 AWS 熟练度的美国中高级数据工程职位。FAANG 和大型数据密集型公司的高级职位总薪酬常超过 26 万美元。入门级职位和非沿海市场的薪酬往往较低。DEA-C01 是一个可靠的信号,但很少是唯一的招聘因素。
来源:levels.fyi 2025–2026 数据工程职位, U.S. BLS OEWS May 2024 (15-1252 software developers, 15-2051 data scientists)。数据为估算值;实际薪酬取决于职位、地区和经验。
随着企业持续构建云数据湖、湖仓架构和分析平台,数据工程领域的招聘在 2024–2026 年间保持强劲。DEA-C01 作为 Snowflake、Databricks 或 dbt 经验之外一个可靠的 AWS 特定信号。以 AWS 为中心的数据公司的招聘人员将其与 SQL、Python 和 Spark 流利度一起用作快速筛选条件。它与解决方案架构师助理 (SAA-C03)、机器学习工程师助理 (MLA-C01) 以及 Airflow 和 dbt 等与提供商无关的工具自然结合。该认证本身并不能使候选人胜任高级数据工程师或首席数据平台职位 — 这些职位期望具备成熟的大规模管道所有权和更广泛的系统设计经验。
没有正式的先决条件。AWS 建议至少具备 2–3 年的通用数据工程经验和至少一年的 AWS 数据服务实际操作经验。
大多数候选人在获得 SAA-C03(架构基础)后或直接从扎实的 Spark/SQL/Python 背景开始准备 DEA-C01。对于没有 AWS 经验的职业转型者,CLF-C02 是一个有用的热身。最有效的个人项目准备是一个端到端管道:Kinesis Firehose → S3 (Parquet, 分区) → Glue catalog → Athena 和 Redshift Serverless,使用 Step Functions 或 Glue Workflows 进行编排,并使用 Lake Formation 进行治理。来自非 AWS 数据背景的候选人(例如,本地 Hadoop 或纯 Snowflake)应在 Glue、Lake Formation 和 Kinesis 系列上投入额外时间。
DEA-C01 被评为助理级别,难度与 SAA-C03 相当,但服务范围更集中。对于有数据工程经验的候选人,计划在 8-12 周内学习 70-110 小时;对于没有经验的候选人,则需 120-160 小时。考试包含 65 道计分题,时长 130 分钟 — 为多项选择和多项响应题,无实验。
常见难点包括区分 Kinesis Data Streams(自定义消费者、排序、保留)与 Firehose(托管交付、转换)和 MSK(Kafka 兼容);了解哪种编排器(Step Functions、Glue Workflows、MWAA、EventBridge Scheduler)适合特定的管道;以及 Lake Formation 权限继承的边缘情况。文件格式和分区计算(压缩比、Parquet 列裁剪)会经常出现。
首次正式发布。Beta 考试于 2023 年末进行。取代了针对工程方向候选人的已停用的数据分析专业认证 (DAS-C01)。截至 2026 年 4 月的当前版本。
DEA-C01 (AWS Certified Data Engineer Associate) 是一门中等难度的考试,要求具备实际操作经验以及对最佳实践的扎实理解Associate级别考试。大多数考生需要为助理级别考试学习 80-150 小时,分摊在 6-12 周内完成。 大多数在模拟考试中持续得分高于及格线的考生,在第一次尝试时都能通过。
大多数考生需要为助理级别考试学习 80-150 小时,分摊在 6-12 周内完成。 通过考试所需时间因个人经验而异。在底层技术方面具有实际生产经验的工程师通常所需时间较少;平台新手则应计划在学习时间范围的上限。
DEA-C01 是 AWS 生态系统中公认的证书,向雇主、招聘人员和客户表明您已具备经过验证的知识。它是否值得您投入时间和费用取决于您的角色和目标——对于日常使用 AWS 或希望从事相关工作的云工程师、架构师和顾问来说,其回报通常最大。
DEA-C01 的及格分数是 720 / 1000。考试包含 65 道题,时长为 2 小时 10 分钟。
DEA-C01 考试费用为 $150 USD。费用由 AWS 设定,并可能因地区而异;预订前请务必在 AWS 官方认证页面确认当前价格。
AWS 认证有效期为 3 年。在证书过期前,您可以通过通过相同考试的当前版本,或通过同一路径中更高级别的考试来重新认证。
是的。您可以选择在线考试(通过提供商的安全浏览器进行监考,在大多数地区全天候可用)或在工作时间内前往 Pearson VUE 线下考试中心参加。两种形式使用相同的题目、时间限制和及格分数。
CertLabPro 为 DEA-C01 提供了包含 15 种学习模式的练习题库。考试模拟模式与真实考试一致:65 道题,时长 2 小时 10 分钟,及格分数同样为 720 / 1000。浏览模式允许您静态阅读所有问答。