AWS Certified Data Engineer Associate
275 questions de pratique
Dernière révision : April 2026
Notes personnelles et liens de ressources pour votre parcours d'étude
Filtrer par Certification
L'AWS Certified Data Engineer Associate (DEA-C01) a été lancé en mars 2024 en tant que successeur orienté praticiens de la certification Data Analytics Specialty retirée. Il valide la capacité à concevoir, construire, opérer et sécuriser des pipelines de données et des charges de travail d'analyse sur AWS — y compris l'ingestion, la transformation, le stockage, l'orchestration et la gouvernance. L'examen cible les ingénieurs de données, les ingénieurs d'analyse et les développeurs ETL travaillant sur des piles AWS. L'accent est mis sur Glue, Lambda, Kinesis Data Streams / Firehose, Managed Kafka (MSK), les lacs de données S3, Lake Formation, Athena, Redshift et EMR. Attendez-vous à des questions basées sur des scénarios concernant les choix d'ingestion tenant compte des coûts, le format de fichier et la stratégie de partitionnement, ainsi que la fiabilité des pipelines. Le DEA-C01 est conceptuel (pas de laboratoires) mais suppose une expérience pratique des pipelines.
Le domaine le plus vaste, à 34 %. Sélection entre Kinesis Data Streams, Firehose et MSK, jobs ETL Glue et DataBrew, Lambda pour l'ETL léger, et AppFlow pour les sources SaaS. Point d'achoppement courant : choisir le bon service d'ingestion en fonction des contraintes de latence et d'ordonnancement.
Conception de lacs de données S3, formats de fichiers (Parquet, ORC, Avro), partitionnement, gouvernance Lake Formation, architecture Redshift (RA3, Serverless), et DynamoDB pour les charges de travail opérationnelles. Teste les compromis pratiques en matière de stockage.
Orchestration de workflows avec Step Functions, Glue Workflows, MWAA (Managed Airflow) et EventBridge. Surveillance des jobs de données, des tentatives de réexécution et des alertes avec CloudWatch. Souvent oublié : quand MWAA est justifié par rapport à des Step Functions plus simples.
Permissions Lake Formation, accès granulaire via la sécurité au niveau des lignes/colonnes, KMS pour le chiffrement au repos, modèles IAM pour le partage de données entre comptes, et détection de PII (Macie). Poids plus faible (18 %) mais questions à haute densité.
Les services que vous rencontrerez à l'examen et pourquoi chacun compte.
Plateforme ETL serverless avec un runtime Spark/Python managé, des Crawlers pour la découverte de schémas, le Glue Data Catalog et Glue DataBrew pour la transformation low-code.
Pourquoi il est à l'examen : Glue est le service phare de l'Ingestion et de la Transformation des données — attendez-vous à des questions sur les job bookmarks, les dynamic frames, la stratégie de partitionnement et les compromis entre DataBrew et Glue Studio.
Stockage d'objets servant de fondation au lac de données AWS — zone d'atterrissage, couches brutes / organisées / de consommation, et source pour chaque service d'analyse en aval.
Pourquoi il est à l'examen : Chaque scénario de stockage et d'ingestion du DEA-C01 suppose S3 comme substrat ; les classes de stockage, le cycle de vie, l'Intelligent-Tiering et la disposition des partitions sont au cœur des questions de Gestion du stockage des données.
Entrepôt de données cloud managé avec stockage MPP en colonnes, calcul/stockage séparés RA3, Redshift Spectrum sur S3 et ingestion zero-ETL depuis Aurora.
Pourquoi il est à l'examen : Les questions de Gestion du stockage des données opposent fréquemment Redshift (entrepôt) à Athena/Glue/Lake Formation (lakehouse) — les clés de distribution, les clés de tri et la gestion des charges de travail sont abordées ici.
Runtime Hadoop / Spark / Hive / Presto / Flink managé prenant en charge EMR on EC2, EMR Serverless et EMR on EKS pour les jobs batch et de streaming à grande échelle.
Pourquoi il est à l'examen : Les scénarios d'Ingestion et de Transformation des données dépassant l'échelle de Glue ou nécessitant l'intégration Spark/Hudi/Iceberg désignent EMR comme la solution.
Service de streaming en temps réel pour l'ingestion à grande échelle d'événements clickstream, IoT, d'application et de logs, avec une capacité par shard ou à la demande et relecture dans la fenêtre de rétention.
Pourquoi il est à l'examen : L'Ingestion et la Transformation des données testent la conception de l'ingestion en streaming — Kinesis Data Streams est la source native AWS pour les pipelines à faible latence alimentant Firehose, Lambda ou Flink.
Service de livraison de streaming managé qui regroupe, compresse et dépose les enregistrements dans S3, Redshift, OpenSearch, Splunk ou des endpoints HTTP avec transformation Lambda optionnelle.
Pourquoi il est à l'examen : Firehose est la réponse canonique pour l'Ingestion des données lorsqu'une question demande une livraison managée, quasi-temps réel vers une destination sans écrire de code consommateur.
Moteur SQL interactif serverless sur S3 (et sources fédérées) utilisant le Glue Data Catalog, avec des workgroups pour le contrôle des coûts/accès et une tarification par requête.
Pourquoi il est à l'examen : Les scénarios d'Opérations et de support des données utilisent Athena pour l'exploration ad-hoc des données du lac et comme couche de requête derrière la gouvernance de Lake Formation.
Service Apache Airflow managé pour l'authoring, la planification et la surveillance de pipelines de données sous forme de DAGs Python avec un support complet des opérateurs/capteurs.
Pourquoi il est à l'examen : Les questions d'Opérations et de support des données sur l'orchestration de pipelines distinguent MWAA (natif Airflow, code-first) de Step Functions (machine à états) — choisissez MWAA pour les DAGs multi-services complexes.
Couche de contrôle d'accès granulaire sur le Glue Data Catalog offrant des permissions basées sur les lignes, les colonnes et les tags à travers Athena, Redshift Spectrum, EMR et Glue.
Pourquoi il est à l'examen : La Sécurité et gouvernance des données teste Lake Formation comme la réponse native AWS pour la sécurité au niveau des lignes/colonnes sur les données du lac, remplaçant les modèles IAM-sur-S3 directs.
Base de données NoSQL clé-valeur / document serverless avec une latence d'un seul chiffre en ms, capacité à la demande ou provisionnée, Streams pour la CDC et export zero-ETL vers S3.
Pourquoi il est à l'examen : La Gestion du stockage des données compare DynamoDB (NoSQL opérationnel) aux options relationnelles et d'entrepôt ; DynamoDB Streams alimente la CDC vers le lac.
Bases de données relationnelles managées (PostgreSQL, MySQL, Oracle, SQL Server, MariaDB) plus Aurora — incluant la réplication zero-ETL vers Redshift pour l'analyse.
Pourquoi il est à l'examen : La Gestion du stockage des données et l'Ingestion des données font toutes deux référence à RDS/Aurora comme source opérationnelle alimentant l'entrepôt via zero-ETL, DMS ou la réplication logique.
Service managé pour la réplication unique et continue (CDC) entre bases de données hétérogènes — Oracle/SQL Server vers Aurora/Redshift, on-prem vers AWS.
Pourquoi il est à l'examen : L'Ingestion et la Transformation des données testent DMS comme la réponse canonique de migration / CDC lorsque la source est un SGBDR opérationnel plutôt qu'un flux ou un fichier.
Orchestrateur de workflows serverless avec des intégrations natives pour Glue, EMR, Lambda, Athena, SageMaker et DynamoDB, modélisant les pipelines comme des machines à états Standard ou Express.
Pourquoi il est à l'examen : Les questions d'Opérations et de support des données distinguent Step Functions (machine à états, sous-seconde / longue durée) de MWAA (DAGs Airflow) — Step Functions l'emporte pour les flux pilotés par événements et natifs AWS.
Bus d'événements serverless qui achemine les événements de services AWS, les événements partenaires et les événements personnalisés vers des cibles (Lambda, Step Functions, Firehose, SQS) avec filtrage basé sur le contenu et des planifications.
Pourquoi il est à l'examen : Les Opérations et le support des données utilisent EventBridge pour déclencher des pipelines selon un horaire ou des événements d'arrivée de données et pour diffuser des signaux entre les équipes.
Calcul serverless utilisé pour la transformation d'enregistrements en transit (Firehose / Kinesis), la colle ETL légère, le prétraitement piloté par les événements S3 et la logique personnalisée de pipeline.
Pourquoi il est à l'examen : L'Ingestion et la Transformation des données attendent Lambda pour les cas d'utilisation de transformation de données Firehose et pour l'assemblage d'étapes pilotées par événements qui ne justifient pas Glue ou EMR.
Service OpenSearch (et Elasticsearch hérité) managé pour la recherche, l'analyse de logs et l'observabilité — incluant OpenSearch Serverless pour les charges de travail à capacité variable.
Pourquoi il est à l'examen : La Gestion du stockage des données et les Opérations des données citent OpenSearch comme cible pour l'analyse de logs et comme destination Firehose / Kinesis pour la télémétrie consultable.
Service BI serverless avec moteur in-memory SPICE, insights ML, analytique embarquée et Q (langage naturel) pour interroger les sources Redshift, Athena, RDS et S3.
Pourquoi il est à l'examen : Les questions d'Opérations et de support des données sur la présentation des analyses aux utilisateurs métier désignent QuickSight comme la couche de consommation native AWS sur le lac/l'entrepôt.
Contrôle d'accès à l'échelle du compte : utilisateurs, rôles, politiques, fédération et permissions de moindre privilège pour chaque job Glue, objet S3, requête Redshift et étape de pipeline.
Pourquoi il est à l'examen : La Sécurité et gouvernance des données est ancrée sur IAM — les rôles d'exécution pour Glue/EMR, le partage de données inter-comptes et les politiques de bucket basées sur les ressources sont des questions récurrentes.
Création et contrôle managés des clés cryptographiques utilisées pour chiffrer les objets S3, les clusters Redshift, les volumes RDS, les enregistrements Kinesis et les métadonnées du Glue Data Catalog au repos.
Pourquoi il est à l'examen : La Sécurité et gouvernance des données attend des clés gérées par le client (CMKs) KMS pour le chiffrement au repos avec une rotation de clés auditable sur chaque service de stockage et de pipeline.
Journal d'audit à l'échelle du compte de chaque appel d'API — qui a lancé un job Glue, qui a interrogé Redshift, qui a modifié les permissions Lake Formation, qui a exporté des données de S3.
Pourquoi il est à l'examen : Les scénarios de conformité de la Sécurité et gouvernance des données citent CloudTrail comme l'enregistrement immuable nécessaire pour l'audit, l'enquête forensique et les preuves réglementaires.
$105k–$150k–$215k USD annuel
Cette fourchette couvre les postes d'ingénierie des données de niveau intermédiaire à senior basés aux États-Unis, pour lesquels la maîtrise d'AWS est requise. Les entreprises FAANG et les grandes entreprises à forte intensité de données dépassent fréquemment 260 000 $ TC aux niveaux seniors. Les postes de débutant et les marchés non côtiers affichent des tendances plus basses. Le DEA-C01 est un signal crédible mais rarement un facteur d'embauche unique.
Source : rôles d'ingénierie des données levels.fyi 2025–2026, U.S. BLS OEWS mai 2024 (15-1252 software developers, 15-2051 data scientists). Les chiffres sont approximatifs ; la rémunération réelle dépend du rôle, de la région et de l'expérience.
Le recrutement en ingénierie des données est resté soutenu de 2024 à 2026, les entreprises continuant à construire des lacs de données cloud, des architectures lakehouse et des plateformes d'analyse. Le DEA-C01 sert de signal crédible spécifique à AWS, en complément d'une expérience avec Snowflake, Databricks ou dbt. Les recruteurs des entreprises de données centrées sur AWS l'utilisent comme un filtre rapide, conjointement avec la maîtrise de SQL, Python et Spark. Il s'associe naturellement avec le Solutions Architect Associate (SAA-C03), le Machine Learning Engineer Associate (MLA-C01) et des outils neutres vis-à-vis des fournisseurs comme Airflow et dbt. La certification NE qualifie PAS à elle seule les candidats pour des rôles d'ingénieur de données "staff" ou de "principal data-platform engineer" — ces rôles exigent une expérience avérée en matière de gestion de pipelines à grande échelle et une expérience plus large en conception de systèmes.
Il n'y a pas de prérequis formels. AWS recommande au moins 2 à 3 ans d'expérience générale en ingénierie des données et au moins un an d'expérience pratique avec les services de données AWS.
La plupart des candidats abordent le DEA-C01 après le SAA-C03 (fondations architecturales) ou directement avec une solide expérience en Spark/SQL/Python. Le CLF-C02 est une bonne mise en jambe pour les personnes en reconversion sans exposition à AWS. La préparation la plus efficace par projet personnel est un pipeline de bout en bout : Kinesis Firehose → S3 (Parquet, partitionné) → catalogue Glue → Athena et Redshift Serverless, avec Step Functions ou Glue Workflows pour l'orchestration et Lake Formation pour la gouvernance. Les candidats ayant une expérience de données non-AWS (par exemple, Hadoop sur site ou pure Snowflake) devraient prévoir plus de temps pour Glue, Lake Formation et la famille Kinesis.
Le DEA-C01 est classé "Associate" et sa difficulté est comparable à celle du SAA-C03, avec une surface de services plus ciblée. Prévoyez 70 à 110 heures sur 8 à 12 semaines pour les candidats ayant une expérience préalable en ingénierie des données ; 120 à 160 heures pour ceux qui n'en ont pas. L'examen comporte 65 questions notées en 130 minutes — à choix multiples et à réponses multiples, sans laboratoires.
Les points d'achoppement courants incluent la différenciation de Kinesis Data Streams (consommateurs personnalisés, ordonnancement, rétention) de Firehose (livraison gérée, transformations) et MSK (compatible Kafka) ; savoir quel orchestrateur (Step Functions, Glue Workflows, MWAA, EventBridge Scheduler) convient à un pipeline donné ; et les cas limites d'héritage des permissions Lake Formation. Les calculs de format de fichier et de partitionnement (taux de compression, élagage de colonnes Parquet) apparaissent régulièrement.
Disponibilité générale initiale. L'examen bêta a eu lieu fin 2023. Remplace la certification Data Analytics Specialty (DAS-C01) retirée pour les candidats axés sur l'ingénierie. Version actuelle en avril 2026.
DEA-C01 (AWS Certified Data Engineer Associate) est un examen de niveau Associate un examen de difficulté modérée exigeant une expérience pratique concrète ainsi qu'une solide compréhension des meilleures pratiques. La plupart des candidats ont besoin de 80 à 150 heures d'étude réparties sur 6 à 12 semaines pour les examens de niveau associé. La plupart des candidats qui obtiennent des scores constamment supérieurs au seuil de réussite lors des examens pratiques réussissent dès leur première tentative.
La plupart des candidats ont besoin de 80 à 150 heures d'étude réparties sur 6 à 12 semaines pour les examens de niveau associé. Le temps nécessaire pour réussir varie considérablement en fonction de l'expérience antérieure. Les ingénieurs ayant une expérience pratique en production avec la technologie sous-jacente en ont généralement besoin de moins ; les candidats novices sur la plateforme devraient viser la limite supérieure de cette fourchette.
DEA-C01 est une certification reconnue dans l'écosystème AWS et signale des connaissances validées aux employeurs, recruteurs et clients. Sa valeur en termes de temps et de coût dépend de votre rôle et de vos objectifs — elle est la plus avantageuse pour les ingénieurs cloud, architectes et consultants qui travaillent quotidiennement avec AWS ou souhaitent évoluer vers des rôles similaires.
Le score de réussite pour le DEA-C01 est de 720 / 1000. L'examen contient 65 questions et dure 2 h 10 min.
Les frais d'examen DEA-C01 sont de $150 USD. Les frais sont fixés par AWS et peuvent varier selon la région ; confirmez toujours le prix actuel sur la page de certification officielle de AWS avant de réserver.
Les certifications AWS sont valides pendant 3 ans. Recertifiez-vous en réussissant la version actuelle du même examen, ou en réussissant un examen de niveau supérieur dans le même parcours avant l'expiration.
Oui. Vous pouvez passer l'examen en ligne (supervisé via le navigateur sécurisé du fournisseur, disponible 24h/24 et 7j/7 dans la plupart des régions) ou dans un centre de test Pearson VUE en personne pendant les heures ouvrables. Les deux formats utilisent les mêmes questions, la même limite de temps et le même score de réussite.
CertLabPro propose 15 modes d'étude à travers la banque de questions pratiques pour le DEA-C01. Le mode de simulation d'examen reproduit l'examen réel : 65 questions en 2 h 10 min, avec le même seuil de réussite de 720 / 1000. Le mode navigation vous permet de lire chaque Q&A de manière statique.