AWS Certified Data Engineer Associate
275 preguntas de práctica
Última revisión: April 2026
Notas personales y enlaces de recursos para tu camino de estudio
Filtrar por Certificación
La certificación AWS Certified Data Engineer Associate (DEA-C01) se lanzó en marzo de 2024 como la sucesora centrada en profesionales de la retirada Data Analytics Specialty. Valida la capacidad de diseñar, construir, operar y asegurar pipelines de datos y cargas de trabajo de análisis en AWS, incluyendo ingesta, transformación, almacenamiento, orquestación y gobernanza. El examen está dirigido a ingenieros de datos, ingenieros de análisis y desarrolladores de ETL que trabajan con stacks centrados en AWS. Hay un fuerte énfasis en Glue, Lambda, Kinesis Data Streams / Firehose, Managed Kafka (MSK), data lakes en S3, Lake Formation, Athena, Redshift y EMR. Espere preguntas basadas en escenarios sobre elecciones de ingesta conscientes del costo, formato de archivo y estrategia de particionamiento, y confiabilidad de los pipelines. DEA-C01 es conceptual (no incluye laboratorios) pero asume experiencia práctica en pipelines.
El dominio más grande, con un 34%. Selección entre Kinesis Data Streams, Firehose y MSK; trabajos de Glue ETL y DataBrew; Lambda para ETL ligero; y AppFlow para fuentes SaaS. Un error común: elegir el servicio de ingesta adecuado bajo restricciones de latencia y orden.
Diseño de data lake en S3, formatos de archivo (Parquet, ORC, Avro), particionamiento, gobernanza con Lake Formation, arquitectura de Redshift (RA3, Serverless) y DynamoDB para cargas de trabajo operacionales. Evalúa las compensaciones prácticas del almacenamiento.
Orquestación de flujos de trabajo con Step Functions, Glue Workflows, MWAA (Managed Airflow) y EventBridge. Monitoreo de trabajos de datos con CloudWatch, reintentos y alertas. A menudo se pasa por alto: cuándo MWAA se justifica frente a Step Functions más simples.
Permisos de Lake Formation, acceso granular a través de seguridad a nivel de fila/columna, KMS para cifrado en reposo, patrones de IAM para compartir datos entre cuentas y detección de PII (Macie). Menor peso (18%) pero preguntas de alta densidad.
Servicios que encontrarás en el examen y por qué cada uno importa.
Plataforma ETL serverless con un runtime gestionado de Spark/Python, Crawlers para descubrimiento de esquema, el Glue Data Catalog y Glue DataBrew para transformación de bajo código.
Por qué está en el examen: Glue es el servicio principal en Ingestión y Transformación de Datos — espere preguntas sobre job bookmarks, dynamic frames, estrategia de particionamiento y las compensaciones entre DataBrew y Glue Studio.
Almacenamiento de objetos que sirve como base para el data lake de AWS — zona de aterrizaje, capas raw / curadas / de consumo y fuente para cada servicio de análisis downstream.
Por qué está en el examen: Todo escenario de almacenamiento e ingestión de DEA-C01 asume S3 como sustrato; las clases de almacenamiento, el ciclo de vida, Intelligent-Tiering y el diseño de particiones impulsan las preguntas de Gestión de Almacenes de Datos.
Data warehouse en la nube gestionado con almacenamiento columnar MPP, cómputo/almacenamiento separado RA3, Redshift Spectrum sobre S3 e ingestión zero-ETL desde Aurora.
Por qué está en el examen: Las preguntas de Gestión de Almacenes de Datos contrastan repetidamente Redshift (warehouse) con Athena/Glue/Lake Formation (lakehouse) — las distribution keys, sort keys y workload management son relevantes aquí.
Runtime gestionado de Hadoop / Spark / Hive / Presto / Flink que soporta EMR en EC2, EMR Serverless y EMR en EKS para trabajos batch y streaming a gran escala.
Por qué está en el examen: Los escenarios de Ingestión y Transformación de Datos que superan la escala de Glue o que requieren integración con Spark/Hudi/Iceberg nombran a EMR como la respuesta.
Servicio de streaming en tiempo real para ingestar eventos de clickstream, IoT, aplicación y logs a escala, con capacidad por shard o bajo demanda y reproducción dentro de la ventana de retención.
Por qué está en el examen: Ingestión y Transformación de Datos prueba el diseño de ingesta de streaming — Kinesis Data Streams es la fuente nativa de AWS para pipelines de baja latencia que alimentan Firehose, Lambda o Flink.
Servicio gestionado de entrega de streaming que agrupa, comprime y almacena registros en S3, Redshift, OpenSearch, Splunk o endpoints HTTP con transformación opcional mediante Lambda.
Por qué está en el examen: Firehose es la respuesta canónica de Ingestión de Datos cuando una pregunta pide entrega gestionada, casi en tiempo real, a un destino sin escribir código de consumidor.
Motor SQL interactivo serverless sobre S3 (y fuentes federadas) que utiliza el Glue Data Catalog, con workgroups para control de costos/acceso y precios de pago por consulta.
Por qué está en el examen: Los escenarios de Operaciones y Soporte de Datos utilizan Athena para la exploración ad-hoc de datos del lake y como la capa de consulta detrás de la gobernanza de Lake Formation.
Servicio gestionado de Apache Airflow para crear, programar y monitorizar pipelines de datos como DAGs de Python con soporte completo de operadores/sensores.
Por qué está en el examen: Las preguntas de Operaciones y Soporte de Datos sobre orquestación de pipelines distinguen MWAA (nativo de Airflow, code-first) de Step Functions (máquina de estados) — elija MWAA para DAGs complejos entre servicios.
Capa de control de acceso de grano fino sobre el Glue Data Catalog que proporciona permisos basados en filas, columnas y etiquetas a través de Athena, Redshift Spectrum, EMR y Glue.
Por qué está en el examen: Seguridad y Gobernanza de Datos prueba Lake Formation como la respuesta nativa de AWS para la seguridad a nivel de fila/columna en datos del lake, reemplazando los patrones directos de IAM-on-S3.
Base de datos NoSQL de clave-valor / documento serverless con latencia de milisegundos de un solo dígito, capacidad bajo demanda o provisionada, Streams para CDC y exportación zero-ETL a S3.
Por qué está en el examen: Gestión de Almacenes de Datos compara DynamoDB (NoSQL operacional) con opciones relacionales y de warehouse; DynamoDB Streams impulsa el CDC hacia el lake.
Bases de datos relacionales gestionadas (PostgreSQL, MySQL, Oracle, SQL Server, MariaDB) más Aurora — incluyendo replicación zero-ETL en Redshift para análisis.
Por qué está en el examen: Gestión de Almacenes de Datos e Ingestión de Datos se refieren a RDS/Aurora como la fuente operacional que alimenta el warehouse a través de zero-ETL, DMS o replicación lógica.
Servicio gestionado para replicación única y continua (CDC) entre bases de datos heterogéneas — Oracle/SQL Server a Aurora/Redshift, on-prem a AWS.
Por qué está en el examen: Ingestión y Transformación de Datos prueba DMS como la respuesta canónica de migración / CDC cuando la fuente es un RDBMS operacional en lugar de un stream o archivo.
Orquestador de flujos de trabajo serverless con integraciones nativas para Glue, EMR, Lambda, Athena, SageMaker y DynamoDB, modelando pipelines como máquinas de estados Estándar o Express.
Por qué está en el examen: Las preguntas de Operaciones y Soporte de Datos distinguen Step Functions (máquina de estados, sub-segundo / larga duración) de MWAA (DAGs de Airflow) — Step Functions es preferido para flujos impulsados por eventos y nativos de AWS.
Bus de eventos serverless que enruta eventos de servicios de AWS, eventos de socios y eventos personalizados a destinos (Lambda, Step Functions, Firehose, SQS) con filtrado basado en contenido y programaciones.
Por qué está en el examen: Operaciones y Soporte de Datos utiliza EventBridge para disparar pipelines programados o por eventos de llegada de datos y para distribuir señales entre equipos.
Cómputo serverless utilizado para transformación de registros en tránsito (Firehose / Kinesis), pegamento ETL ligero, preprocesamiento impulsado por eventos de S3 y lógica personalizada de pipelines.
Por qué está en el examen: Ingestión y Transformación de Datos espera Lambda para casos de uso de transformación de datos de Firehose y para unir pasos impulsados por eventos que no justifican Glue o EMR.
OpenSearch gestionado (y Elasticsearch heredado) para búsqueda, análisis de logs y observabilidad — incluyendo OpenSearch Serverless para cargas de trabajo de capacidad variable.
Por qué está en el examen: Gestión de Almacenes de Datos y Operaciones de Datos citan a OpenSearch como el objetivo para análisis de logs y como destino de Firehose / Kinesis para telemetría buscable.
Servicio BI serverless con motor en memoria SPICE, ML insights, análisis embebidos y Q (lenguaje natural) para consultar fuentes de Redshift, Athena, RDS y S3.
Por qué está en el examen: Las preguntas de Operaciones y Soporte de Datos sobre cómo servir análisis a usuarios de negocio nombran a QuickSight como la capa de consumo nativa de AWS sobre el lake/warehouse.
Control de acceso a nivel de cuenta: usuarios, roles, políticas, federación y permisos de mínimo privilegio para cada trabajo de Glue, objeto de S3, consulta de Redshift y paso de pipeline.
Por qué está en el examen: Seguridad y Gobernanza de Datos se basa en IAM — los roles de ejecución para Glue/EMR, el intercambio de datos entre cuentas y las políticas de bucket basadas en recursos son preguntas recurrentes.
Creación y control gestionados de claves criptográficas utilizadas para cifrar objetos de S3, clusters de Redshift, volúmenes de RDS, registros de Kinesis y metadatos del Glue Data Catalog en reposo.
Por qué está en el examen: Seguridad y Gobernanza de Datos espera las claves gestionadas por el cliente (CMKs) de KMS para el cifrado en reposo con rotación de claves auditable en cada servicio de almacenamiento y pipeline.
Registro de auditoría a nivel de cuenta de cada llamada a la API — quién lanzó un trabajo de Glue, quién consultó Redshift, quién alteró los permisos de Lake Formation, quién exportó datos de S3.
Por qué está en el examen: Los escenarios de cumplimiento de Seguridad y Gobernanza de Datos citan a CloudTrail como el registro inmutable necesario para auditorías, investigación forense y evidencia regulatoria.
$105k–$150k–$215k USD anual
El rango cubre roles de ingeniería de datos de nivel medio a sénior con base en EE. UU. donde se requiere competencia en AWS. Las empresas FAANG y las grandes compañías intensivas en datos con frecuencia superan los $260k TC en niveles sénior. Los roles de entrada y los mercados no costeros tienden a ser más bajos. DEA-C01 es una señal creíble, pero rara vez es un factor de contratación exclusivo.
Fuente: niveles.fyi 2025–2026 roles de ingeniería de datos, U.S. BLS OEWS Mayo 2024 (15-1252 desarrolladores de software, 15-2051 científicos de datos). Las cifras son aproximadas; la compensación real depende del rol, la región y la experiencia.
La contratación de ingenieros de datos se mantuvo sólida durante 2024-2026 a medida que las empresas continuaron construyendo data lakes en la nube, arquitecturas lakehouse y plataformas de análisis. DEA-C01 funciona como una señal creíble específica de AWS junto con la experiencia en Snowflake, Databricks o dbt. Los reclutadores en empresas de datos centradas en AWS lo usan como un filtro rápido junto con fluidez en SQL, Python y Spark. Se combina naturalmente con Solutions Architect Associate (SAA-C03), Machine Learning Engineer Associate (MLA-C01) y herramientas neutrales del proveedor como Airflow y dbt. La certificación NO califica por sí misma a los candidatos para roles de ingeniero de datos de personal o de plataforma de datos principal; esos roles esperan una probada propiedad de pipelines a gran escala y una experiencia más amplia en diseño de sistemas.
No hay requisitos previos formales. AWS recomienda al menos 2-3 años de experiencia general en ingeniería de datos y al menos un año de experiencia práctica con servicios de datos de AWS.
La mayoría de los candidatos abordan DEA-C01 después de SAA-C03 (base arquitectónica) o directamente desde una sólida experiencia en Spark/SQL/Python. CLF-C02 es un buen calentamiento para quienes cambian de carrera sin exposición a AWS. La preparación de proyecto personal más eficiente es un pipeline de extremo a extremo: Kinesis Firehose → S3 (Parquet, particionado) → catálogo de Glue → Athena y Redshift Serverless, con Step Functions o Glue Workflows para orquestación y Lake Formation para gobernanza. Los candidatos con experiencia en datos no-AWS (por ejemplo, Hadoop on-prem o Snowflake puro) deben planificar tiempo extra en Glue, Lake Formation y la familia Kinesis.
DEA-C01 está clasificada como Asociada y es comparable en dificultad a SAA-C03, con una superficie de servicio más enfocada. Planifique de 70 a 110 horas durante 8 a 12 semanas para candidatos con experiencia previa en ingeniería de datos; de 120 a 160 horas para aquellos sin ella. El examen consta de 65 preguntas puntuables en 130 minutos — de opción múltiple y respuesta múltiple, sin laboratorios.
Los obstáculos comunes incluyen diferenciar Kinesis Data Streams (consumidores personalizados, ordenamiento, retención) de Firehose (entrega gestionada, transformaciones) y MSK (compatible con Kafka); saber qué orquestador (Step Functions, Glue Workflows, MWAA, EventBridge Scheduler) se adapta a un pipeline dado; y los casos extremos de herencia de permisos de Lake Formation. La matemática de formato de archivo y particionamiento (tasas de compresión, poda de columnas de Parquet) aparece regularmente.
Disponibilidad general inicial. El examen beta se realizó a finales de 2023. Reemplaza la retirada Data Analytics Specialty (DAS-C01) para candidatos centrados en ingeniería. Versión actual a partir de abril de 2026.
DEA-C01 (AWS Certified Data Engineer Associate) es un examen de nivel Associate un examen de dificultad moderada que espera experiencia práctica y una sólida comprensión de las mejores prácticas. La mayoría de los candidatos necesitan entre 80 y 150 horas de estudio distribuidas en 6 a 12 semanas para los exámenes de nivel asociado. La mayoría de los candidatos que obtienen consistentemente una puntuación por encima del umbral de aprobación en los exámenes de práctica, aprueban en su primer intento.
La mayoría de los candidatos necesitan entre 80 y 150 horas de estudio distribuidas en 6 a 12 semanas para los exámenes de nivel asociado. El tiempo para aprobar varía ampliamente según la experiencia previa. Los ingenieros con experiencia práctica en producción en la tecnología subyacente suelen necesitar menos; los candidatos nuevos en la plataforma deben planificar hacia el extremo superior de ese rango.
DEA-C01 es una credencial reconocida en el ecosistema de AWS y señala conocimientos validados a empleadores, reclutadores y clientes. Si vale la pena el tiempo y la tarifa para ti, depende de tu rol y objetivos — tiende a ser más rentable para ingenieros de la nube, arquitectos y consultores que trabajan con AWS a diario o quieren pasar a roles que lo hagan.
La puntuación de aprobación para DEA-C01 es 720 / 1000. El examen contiene 65 preguntas y dura 2 h 10 min.
La tarifa del examen DEA-C01 es de $150 USD. Las tarifas son establecidas por AWS y pueden variar según la región; siempre confirma el precio actual en la página oficial de certificación de AWS antes de reservar.
Las certificaciones de AWS son válidas por 3 años. Recertifícate aprobando la versión actual del mismo examen, o aprobando un examen de nivel superior en la misma ruta antes de la caducidad.
Sí. Puedes realizar el examen en línea (supervisado a través del navegador seguro del proveedor, disponible 24/7 en la mayoría de las regiones) o en un centro de examen presencial de Pearson VUE durante el horario comercial. Ambos formatos utilizan las mismas preguntas, límite de tiempo y puntuación de aprobación.
CertLabPro ofrece 15 modos de estudio en todo el banco de preguntas de práctica para DEA-C01. El modo de simulación de examen reproduce el examen real: 65 preguntas en 2 h 10 min, con el mismo umbral de aprobación de 720 / 1000. El modo de navegación te permite leer todas las preguntas y respuestas de forma estática.