AWS Certified Data Engineer Associate
275 perguntas de prática
Última revisão: April 2026
Notas pessoais e links de recursos para sua jornada de estudo
Filtrar por Certificação
O AWS Certified Data Engineer Associate (DEA-C01) foi lançado em março de 2024 como o sucessor focado no profissional do aposentado Data Analytics Specialty. Ele valida a capacidade de projetar, construir, operar e proteger pipelines de dados e workloads de análise na AWS — incluindo ingestão, transformação, armazenamento, orquestração e governança. O exame é direcionado a engenheiros de dados, engenheiros de análise e desenvolvedores ETL que trabalham com stacks centradas na AWS. Forte ênfase em Glue, Lambda, Kinesis Data Streams / Firehose, Managed Kafka (MSK), data lakes S3, Lake Formation, Athena, Redshift e EMR. Espere perguntas baseadas em cenários sobre escolhas de ingestão conscientes de custos, formato de arquivo e estratégia de particionamento, e confiabilidade de pipelines. O DEA-C01 é conceitual (sem laboratórios), mas assume experiência prática com pipelines.
O maior domínio, com 34%. Seleção entre Kinesis Data Streams vs. Firehose vs. MSK, jobs Glue ETL e DataBrew, Lambda para ETL leve, e AppFlow para fontes SaaS. Obstáculo comum: escolher o serviço de ingestão certo sob restrições de latência e ordenação.
Design de data lake S3, formatos de arquivo (Parquet, ORC, Avro), particionamento, governança com Lake Formation, arquitetura Redshift (RA3, Serverless) e DynamoDB para workloads operacionais. Testa tradeoffs práticos de armazenamento.
Orquestração de fluxo de trabalho com Step Functions, Glue Workflows, MWAA (Managed Airflow) e EventBridge. Monitoramento de jobs de dados do CloudWatch, retries e alertas. Frequentemente esquecido: quando o MWAA é justificado em comparação com Step Functions mais simples.
Permissões do Lake Formation, acesso granular via segurança em nível de linha/coluna, KMS para criptografia em repouso, padrões IAM para compartilhamento de dados entre contas, e detecção de PII (Macie). Menor peso (18%), mas perguntas de alta densidade.
Serviços que você encontrará no exame e por que cada um importa.
Plataforma ETL serverless com runtime Spark/Python gerenciado, Crawlers para descoberta de schema, o Glue Data Catalog e Glue DataBrew para transformação low-code.
Por que está no exame: O Glue é o serviço principal no Domínio Ingestão e Transformação de Dados — espere questões sobre job bookmarks, dynamic frames, estratégia de particionamento e trade-offs entre DataBrew e Glue Studio.
Armazenamento de objetos que serve como base para o data lake da AWS — landing zone, camadas raw / curated / consumption e fonte para cada serviço analítico downstream.
Por que está no exame: Cada cenário de armazenamento e ingestão do DEA-C01 assume o S3 como substrato; classes de armazenamento, ciclo de vida, Intelligent-Tiering e layout de partição direcionam questões de Gerenciamento de Armazenamento de Dados.
Data warehouse em nuvem gerenciado com armazenamento MPP colunar, RA3 com computação/armazenamento separados, Redshift Spectrum sobre S3 e ingestão zero-ETL do Aurora.
Por que está no exame: Questões de Gerenciamento de Armazenamento de Dados contrastam repetidamente Redshift (data warehouse) com Athena/Glue/Lake Formation (lakehouse) — chaves de distribuição, chaves de ordenação e gerenciamento de workload se encaixam aqui.
Runtime gerenciado de Hadoop / Spark / Hive / Presto / Flink que suporta EMR on EC2, EMR Serverless e EMR on EKS para jobs batch e de streaming em larga escala.
Por que está no exame: Cenários de Ingestão e Transformação de Dados que excedem a escala do Glue ou que exigem integração com Spark/Hudi/Iceberg apontam o EMR como a resposta.
Serviço de streaming em tempo real para ingestão de clickstream, IoT, eventos de aplicação e logs em escala, com capacidade baseada em shard ou sob demanda e replay dentro da janela de retenção.
Por que está no exame: O Domínio Ingestão e Transformação de Dados testa o design de ingestão por streaming — Kinesis Data Streams é a fonte nativa da AWS para pipelines de baixa latência que alimentam Firehose, Lambda ou Flink.
Serviço de entrega de streaming gerenciado que agrupa, comprime e grava registros em S3, Redshift, OpenSearch, Splunk ou endpoints HTTP com transformação opcional via Lambda.
Por que está no exame: O Firehose é a resposta canônica de Ingestão de Dados quando uma questão pede entrega gerenciada, quase em tempo real, a um destino sem escrever código de consumidor.
Motor SQL interativo serverless sobre S3 (e fontes federadas) usando o Glue Data Catalog, com workgroups para controle de custo/acesso e precificação pay-per-query.
Por que está no exame: Cenários de Operações e Suporte de Dados usam o Athena para exploração ad-hoc de dados do data lake e como camada de consulta por trás da governança do Lake Formation.
Serviço Apache Airflow gerenciado para autoria, agendamento e monitoramento de pipelines de dados como DAGs Python com suporte total a operadores/sensores.
Por que está no exame: Questões de Operações e Suporte de Dados sobre orquestração de pipelines distinguem MWAA (nativo do Airflow, code-first) do Step Functions (máquina de estados) — escolha MWAA para DAGs complexos entre serviços.
Camada de controle de acesso granular sobre o Glue Data Catalog que fornece permissões baseadas em linha, coluna e tags em Athena, Redshift Spectrum, EMR e Glue.
Por que está no exame: O Domínio Segurança e Governança de Dados testa o Lake Formation como a resposta nativa da AWS para segurança em nível de linha/coluna em dados do data lake, substituindo padrões diretos de IAM-on-S3.
Banco de dados NoSQL de chave-valor / documento serverless com latência de um dígito em ms, capacidade sob demanda ou provisionada, Streams para CDC e exportação zero-ETL para S3.
Por que está no exame: O Gerenciamento de Armazenamento de Dados compara DynamoDB (NoSQL operacional) com opções relacionais e de data warehouse; o DynamoDB Streams alimenta o CDC para o data lake.
Bancos de dados relacionais gerenciados (PostgreSQL, MySQL, Oracle, SQL Server, MariaDB) e Aurora — incluindo replicação zero-ETL para Redshift para análises.
Por que está no exame: Gerenciamento de Armazenamento de Dados e Ingestão de Dados referenciam RDS/Aurora como a fonte operacional que alimenta o data warehouse via zero-ETL, DMS ou replicação lógica.
Serviço gerenciado para replicação única e contínua (CDC) entre bancos de dados heterogêneos — Oracle/SQL Server para Aurora/Redshift, on-premise para AWS.
Por que está no exame: O Domínio Ingestão e Transformação de Dados testa o DMS como a resposta canônica para migração / CDC quando a fonte é um RDBMS operacional em vez de um stream ou arquivo.
Orquestrador de workflow serverless com integrações nativas para Glue, EMR, Lambda, Athena, SageMaker e DynamoDB, modelando pipelines como máquinas de estado Standard ou Express.
Por que está no exame: Questões de Operações e Suporte de Dados distinguem Step Functions (máquina de estados, sub-segundo / longa duração) de MWAA (DAGs do Airflow) — Step Functions se destaca para fluxos orientados a eventos e nativos da AWS.
Barramento de eventos serverless que roteia eventos de serviços AWS, eventos de parceiros e eventos personalizados para destinos (Lambda, Step Functions, Firehose, SQS) com filtragem baseada em conteúdo e agendamentos.
Por que está no exame: O Domínio Operações e Suporte de Dados usa o EventBridge para acionar pipelines em horários programados ou em eventos de chegada de dados e para disseminar sinais entre equipes.
Computação serverless usada para transformação de registros em trânsito (Firehose / Kinesis), "cola" ETL leve, pré-processamento acionado por eventos do S3 e lógica personalizada de pipeline.
Por que está no exame: O Domínio Ingestão e Transformação de Dados espera o Lambda para casos de uso de transformação de dados do Firehose e para unir etapas orientadas a eventos que não justificam o uso de Glue ou EMR.
Serviço OpenSearch gerenciado (e Elasticsearch legado) para busca, análise de logs e observabilidade — incluindo OpenSearch Serverless para workloads de capacidade variável.
Por que está no exame: Os Domínios Gerenciamento de Armazenamento de Dados e Operações de Dados citam o OpenSearch como o destino para análise de logs e como um destino do Firehose / Kinesis para telemetria pesquisável.
Serviço de BI serverless com motor em memória SPICE, insights de ML, análises embarcadas e Q (linguagem natural) para consultar fontes Redshift, Athena, RDS e S3.
Por que está no exame: Questões de Operações e Suporte de Dados sobre como fornecer análises de volta aos usuários de negócios apontam o QuickSight como a camada de consumo nativa da AWS sobre o data lake/warehouse.
Controle de acesso em toda a conta: usuários, funções, políticas, federação e permissões de menor privilégio para cada job do Glue, objeto do S3, consulta do Redshift e etapa de pipeline.
Por que está no exame: O Domínio Segurança e Governança de Dados está ancorado no IAM — funções de execução para Glue/EMR, compartilhamento de dados entre contas e políticas de bucket baseadas em recursos são questões recorrentes.
Criação e controle gerenciados de chaves criptográficas usadas para criptografar objetos S3, clusters Redshift, volumes RDS, registros Kinesis e metadados do Glue Data Catalog em repouso.
Por que está no exame: O Domínio Segurança e Governança de Dados espera chaves gerenciadas pelo cliente (CMKs) do KMS para criptografia em repouso com rotação de chaves auditável em todos os serviços de armazenamento e pipeline.
Log de auditoria em toda a conta de cada chamada de API — quem lançou um job do Glue, quem consultou o Redshift, quem alterou as permissões do Lake Formation, quem exportou dados do S3.
Por que está no exame: Cenários de compliance de Segurança e Governança de Dados citam o CloudTrail como o registro imutável necessário para auditoria, investigação forense e evidências regulatórias.
$105k–$150k–$215k USD anual
O intervalo cobre funções de engenharia de dados de nível médio a sênior baseadas nos EUA, onde a proficiência em AWS é necessária. Empresas FAANG e grandes empresas intensivas em dados frequentemente excedem US$ 260 mil TC em níveis seniores. Funções de entrada e mercados não-costeiros tendem a ser mais baixos. O DEA-C01 é um sinal credível, mas raramente um fator de contratação exclusivo.
Fonte: Funções de engenharia de dados 2025–2026 da levels.fyi, U.S. BLS OEWS maio de 2024 (15-1252 software developers, 15-2051 data scientists). Os valores são aproximados; a compensação real depende da função, região e experiência.
A contratação em engenharia de dados manteve-se forte em 2024–2026, à medida que as empresas continuaram a construir data lakes na nuvem, arquiteturas lakehouse e plataformas de análise. O DEA-C01 funciona como um sinal credível específico da AWS, juntamente com a experiência em Snowflake, Databricks ou dbt. Recrutadores em empresas de dados centradas na AWS o utilizam como um filtro rápido, juntamente com fluência em SQL, Python e Spark. Ele combina naturalmente com o Solutions Architect Associate (SAA-C03), o Machine Learning Engineer Associate (MLA-C01) e ferramentas neutras de provedor como Airflow e dbt. A certificação NÃO qualifica por si só os candidatos para funções de engenheiro de dados sênior ou arquiteto principal de plataforma de dados — essas exigem propriedade comprovada de pipelines em larga escala e experiência mais ampla em design de sistemas.
Não há pré-requisitos formais. A AWS recomenda pelo menos 2 a 3 anos de experiência geral em engenharia de dados e pelo menos um ano de experiência prática com serviços de dados da AWS.
A maioria dos candidatos aborda o DEA-C01 após o SAA-C03 (fundamentação arquitetônica) ou diretamente de um forte background em Spark/SQL/Python. O CLF-C02 é um bom aquecimento para quem muda de carreira sem exposição à AWS. A preparação de projeto pessoal mais eficiente é um pipeline de ponta a ponta: Kinesis Firehose → S3 (Parquet, particionado) → Glue catalog → Athena e Redshift Serverless, com Step Functions ou Glue Workflows para orquestração e Lake Formation para governança. Candidatos com backgrounds de dados não-AWS (por exemplo, Hadoop on-premise ou Snowflake puro) devem planejar tempo extra em Glue, Lake Formation e na família Kinesis.
O DEA-C01 é classificado como Associado e é comparável em dificuldade ao SAA-C03, com uma superfície de serviço mais focada. Planeje 70 a 110 horas ao longo de 8 a 12 semanas para candidatos com experiência prévia em engenharia de dados; 120 a 160 horas para aqueles sem. O exame possui 65 questões pontuadas em 130 minutos — múltipla escolha e múltipla resposta, sem laboratórios.
Os obstáculos comuns incluem diferenciar Kinesis Data Streams (consumidores personalizados, ordenação, retenção) de Firehose (entrega gerenciada, transformações) e MSK (compatível com Kafka); saber qual orquestrador (Step Functions, Glue Workflows, MWAA, EventBridge Scheduler) se adapta a um determinado pipeline; e casos extremos de herança de permissões do Lake Formation. Cálculos de formato de arquivo e particionamento (taxas de compressão, poda de colunas Parquet) aparecem regularmente.
Disponibilidade geral inicial. O exame beta foi realizado no final de 2023. Substitui o aposentado Data Analytics Specialty (DAS-C01) para candidatos com foco em engenharia. Versão atual a partir de abril de 2026.
DEA-C01 (AWS Certified Data Engineer Associate) é um exame de nível Associate um exame de dificuldade moderada que exige experiência prática e um sólido entendimento das melhores práticas. A maioria dos candidatos precisa de 80 a 150 horas de estudo distribuídas em 6 a 12 semanas para exames de nível associado. A maioria dos candidatos que pontuam consistentemente acima do limite de aprovação em exames práticos é aprovada na primeira tentativa.
A maioria dos candidatos precisa de 80 a 150 horas de estudo distribuídas em 6 a 12 semanas para exames de nível associado. O tempo para aprovação varia amplamente de acordo com a experiência prévia. Engenheiros com experiência prática de produção na tecnologia subjacente geralmente precisam de menos tempo; candidatos novos na plataforma devem planejar-se para o limite superior dessa faixa.
DEA-C01 é uma credencial reconhecida no ecossistema AWS e sinaliza conhecimento validado para empregadores, recrutadores e clientes. Se vale a pena o tempo e a taxa para você, depende do seu papel e objetivos — geralmente compensa mais para engenheiros de nuvem, arquitetos e consultores que trabalham com AWS diariamente ou desejam mudar para funções que o fazem.
A pontuação de aprovação para DEA-C01 é 720 / 1000. O exame contém 65 questões e dura 2 h 10 min.
A taxa do exame DEA-C01 é $150 USD. As taxas são definidas por AWS e podem variar por região; sempre confirme o preço atual na página oficial de certificação AWS antes de agendar.
As certificações AWS são válidas por 3 anos. Recertifique-se passando na versão atual do mesmo exame, ou passando em um exame de nível superior no mesmo caminho antes do vencimento.
Sim. Você pode fazer o exame online (supervisionado através do navegador seguro do provedor, disponível 24 horas por dia, 7 dias por semana na maioria das regiões) ou em um centro de testes Pearson VUE presencial durante o horário comercial. Ambos os formatos usam as mesmas perguntas, limite de tempo e pontuação de aprovação.
A CertLabPro oferece 15 modos de estudo no banco de questões práticas para DEA-C01. O modo de simulação de exame espelha o exame real: 65 questões em 2 h 10 min, com o mesmo limite de aprovação de 720 / 1000. O modo de navegação permite que você leia todas as perguntas e respostas estaticamente.