AWS Certified Data Engineer Associate
275 практических вопросов
Последняя проверка: April 2026
Личные заметки и ссылки на ресурсы для вашего учебного пути
Фильтр по сертификации
Сертификация AWS Certified Data Engineer Associate (DEA-C01) была запущена в марте 2024 года как ориентированный на практику преемник снятой с производства специализации Data Analytics Specialty. Она подтверждает способность проектировать, создавать, эксплуатировать и защищать конвейеры данных и аналитические рабочие нагрузки на AWS — включая прием, преобразование, хранение, оркестрацию и управление. Экзамен предназначен для действующих инженеров данных, инженеров по аналитике и разработчиков ETL, работающих со стеками, ориентированными на AWS. Сильный акцент делается на Glue, Lambda, Kinesis Data Streams / Firehose, Managed Kafka (MSK), озера данных S3, Lake Formation, Athena, Redshift и EMR. Ожидайте вопросов, основанных на сценариях, касающихся выбора экономически эффективных способов приема данных, формата файлов и стратегии секционирования, а также надежности конвейеров. DEA-C01 является концептуальным (без лабораторных работ), но предполагает практический опыт работы с конвейерами.
Самый большой домен (34%). Выбор между Kinesis Data Streams, Firehose и MSK, задания Glue ETL и DataBrew, Lambda для легковесного ETL, и AppFlow для источников SaaS. Частая трудность: выбор подходящего сервиса приема данных с учетом задержек и ограничений на порядок.
Проектирование озера данных S3, форматы файлов (Parquet, ORC, Avro), секционирование, управление с помощью Lake Formation, архитектура Redshift (RA3, Serverless) и DynamoDB для операционных рабочих нагрузок. Проверяет практические компромиссы при хранении данных.
Оркестрация рабочих процессов с помощью Step Functions, Glue Workflows, MWAA (Managed Airflow) и EventBridge. Мониторинг заданий данных с помощью CloudWatch, повторные попытки и оповещения. Часто упускается: когда MWAA оправдан по сравнению с более простыми Step Functions.
Разрешения Lake Formation, детализированный доступ через безопасность на уровне строк/столбцов, KMS для шифрования данных в состоянии покоя, шаблоны IAM для обмена данными между аккаунтами и обнаружение PII (Macie). Меньший вес (18%), но высокая плотность вопросов.
Сервисы, с которыми вы столкнётесь на экзамене, и почему каждый из них важен.
Бессерверная ETL-платформа с управляемой средой выполнения Spark/Python, краулерами для обнаружения схем, Glue Data Catalog и Glue DataBrew для низкокодового преобразования.
Почему он на экзамене: Glue — это основной сервис в Домене 1 (Сбор и преобразование данных); ожидайте вопросов о закладках заданий (job bookmarks), динамических фреймах (dynamic frames), стратегии партиционирования и компромиссах между DataBrew и Glue Studio.
Объектное хранилище, которое служит основой для озера данных AWS — зоной приземления, слоями сырых / очищенных / потребляемых данных и источником для каждого последующего аналитического сервиса.
Почему он на экзамене: Каждый сценарий хранения и сбора данных в DEA-C01 предполагает S3 в качестве основы; классы хранения, жизненный цикл, Intelligent-Tiering и структура партиций являются движущей силой вопросов по Домену 2 (Управление хранилищами данных).
Управляемое облачное хранилище данных с колоночным MPP-хранилищем, RA3 с разделёнными вычислениями/хранением, Redshift Spectrum поверх S3 и zero-ETL-сбором данных из Aurora.
Почему он на экзамене: Вопросы по Домену 2 (Управление хранилищами данных) неоднократно противопоставляют Redshift (хранилище) Athena/Glue/Lake Formation (озеро-хранилище); ключи распределения, ключи сортировки и управление рабочей нагрузкой относятся к этому сервису.
Управляемая среда выполнения Hadoop / Spark / Hive / Presto / Flink, поддерживающая EMR on EC2, EMR Serverless и EMR on EKS для крупномасштабных пакетных и потоковых заданий.
Почему он на экзамене: Сценарии Домена 1 (Сбор и преобразование данных), выходящие за рамки масштабов Glue или требующие интеграции Spark/Hudi/Iceberg, называют EMR в качестве решения.
Сервис потоковой передачи данных в реальном времени для масштабного сбора clickstream-, IoT-, прикладных и лог-событий, с ёмкостью на основе шардов или по требованию и возможностью повторного воспроизведения в пределах окна хранения.
Почему он на экзамене: Домен 1 (Сбор и преобразование данных) проверяет проектирование потокового сбора данных — Kinesis Data Streams — это нативный AWS-источник для конвейеров с низкой задержкой, подающих данные в Firehose, Lambda или Flink.
Управляемый сервис потоковой доставки, который пакетирует, сжимает и доставляет записи в S3, Redshift, OpenSearch, Splunk или HTTP-эндпоинты с опциональным преобразованием данных с помощью Lambda.
Почему он на экзамене: Firehose — это канонический ответ в Домене 1 (Сбор и преобразование данных), когда вопрос касается управляемой, почти в реальном времени, доставки в хранилище без написания кода потребителя.
Бессерверный интерактивный SQL-движок поверх S3 (и федеративных источников), использующий Glue Data Catalog, с рабочими группами для контроля затрат/доступа и оплатой за запрос.
Почему он на экзамене: Сценарии Домена 3 (Операции и поддержка данных) используют Athena для нерегламентированного исследования данных озера и в качестве слоя запросов за управлением Lake Formation.
Управляемый сервис Apache Airflow для создания, планирования и мониторинга конвейеров данных в виде Python DAG-ов с полной поддержкой операторов/сенсоров.
Почему он на экзамене: Вопросы по оркестрации конвейеров в Домене 3 (Операции и поддержка данных) различают MWAA (нативный для Airflow, сначала код) и Step Functions (конечный автомат) — выбирайте MWAA для сложных кросс-сервисных DAG-ов.
Слой детального контроля доступа поверх Glue Data Catalog, предоставляющий разрешения на основе строк, столбцов и тегов для Athena, Redshift Spectrum, EMR и Glue.
Почему он на экзамене: Домен 4 (Безопасность и управление данными) проверяет Lake Formation как нативное AWS-решение для обеспечения безопасности данных озера на уровне строк/столбцов, заменяя прямые паттерны IAM-on-S3.
Бессерверная NoSQL-база данных типа ключ-значение / документ с задержкой в единицы миллисекунд, ёмкостью по требованию или выделенной, потоками (Streams) для CDC и zero-ETL-экспортом в S3.
Почему он на экзамене: Домен 2 (Управление хранилищами данных) сравнивает DynamoDB (операционная NoSQL) с реляционными и warehouse-опциями; DynamoDB Streams обеспечивают CDC в озеро.
Управляемые реляционные базы данных (PostgreSQL, MySQL, Oracle, SQL Server, MariaDB) плюс Aurora, включая zero-ETL-репликацию в Redshift для аналитики.
Почему он на экзамене: Домен 2 (Управление хранилищами данных) и Домен 1 (Сбор и преобразование данных) оба ссылаются на RDS/Aurora как на операционный источник, питающий хранилище через zero-ETL, DMS или логическую репликацию.
Управляемый сервис для одноразовой и непрерывной (CDC) репликации между гетерогенными базами данных — Oracle/SQL Server в Aurora/Redshift, локальной (on-prem) в AWS.
Почему он на экзамене: Домен 1 (Сбор и преобразование данных) проверяет DMS как канонический ответ для миграции / CDC, когда источником является операционная RDBMS, а не поток или файл.
Бессерверный оркестратор рабочих процессов с нативными интеграциями для Glue, EMR, Lambda, Athena, SageMaker и DynamoDB, моделирующий конвейеры как конечные автоматы Standard или Express.
Почему он на экзамене: Вопросы Домена 3 (Операции и поддержка данных) различают Step Functions (конечный автомат, субсекундный / длительный) от MWAA (DAG-и Airflow) — Step Functions выигрывает для событийно-ориентированных, нативных AWS-потоков.
Бессерверная шина событий, которая маршрутизирует события AWS-сервисов, партнёрские события и кастомные события к целям (Lambda, Step Functions, Firehose, SQS) с фильтрацией по содержимому и расписаниями.
Почему он на экзамене: Домен 3 (Операции и поддержка данных) использует EventBridge для запуска конвейеров по расписанию или по событиям прибытия данных и для распространения сигналов между командами.
Бессерверные вычисления, используемые для преобразования записей на лету (Firehose / Kinesis), легковесного ETL-клея, S3-событийно-ориентированной предобработки и кастомной логики конвейеров.
Почему он на экзамене: Домен 1 (Сбор и преобразование данных) ожидает Lambda для случаев преобразования данных Firehose и для объединения событийно-ориентированных шагов, которые не оправдывают использование Glue или EMR.
Управляемый OpenSearch (и устаревший Elasticsearch) для поиска, анализа логов и наблюдаемости, включая OpenSearch Serverless для рабочих нагрузок с переменной ёмкостью.
Почему он на экзамене: Домен 2 (Управление хранилищами данных) и Домен 3 (Операции и поддержка данных) называют OpenSearch целевым сервисом для анализа логов и назначением Firehose / Kinesis для телеметрии с возможностью поиска.
Бессерверный BI-сервис с in-memory-движком SPICE, ML-аналитикой, встроенной аналитикой и Q (естественный язык) для запросов к источникам Redshift, Athena, RDS и S3.
Почему он на экзамене: Вопросы Домена 3 (Операции и поддержка данных) о предоставлении аналитики бизнес-пользователям называют QuickSight нативным AWS-слоем потребления поверх озера/хранилища.
Управление доступом на уровне аккаунта: пользователи, роли, политики, федерация и разрешения по принципу наименьших привилегий для каждого задания Glue, объекта S3, запроса Redshift и шага конвейера.
Почему он на экзамене: Домен 4 (Безопасность и управление данными) основывается на IAM — роли выполнения для Glue/EMR, кросс-аккаунтный обмен данными и политики на основе ресурсов для бакетов являются повторяющимися вопросами.
Управляемое создание и контроль криптографических ключей, используемых для шифрования объектов S3, кластеров Redshift, томов RDS, записей Kinesis и метаданных Glue Data Catalog в покое.
Почему он на экзамене: Домен 4 (Безопасность и управление данными) ожидает использования управляемых клиентом ключей KMS (CMK) для шифрования в покое с аудируемым вращением ключей для каждого сервиса хранения и конвейера.
Аудиторский журнал на уровне аккаунта для каждого вызова API — кто запустил задание Glue, кто выполнил запрос к Redshift, кто изменил разрешения Lake Formation, кто экспортировал данные из S3.
Почему он на экзамене: Сценарии соответствия требованиям в Домене 4 (Безопасность и управление данными) называют CloudTrail неизменяемой записью, необходимой для аудита, судебной экспертизы и регуляторных доказательств.
$105k–$150k–$215k USD годовая
Диапазон охватывает должности инженеров данных среднего и старшего уровня в США, где требуется владение AWS. Компании FAANG и крупные компании, интенсивно работающие с данными, часто превышают $260k TC на старших уровнях. Начальные должности и рынки за пределами побережья имеют более низкие показатели. DEA-C01 является достоверным сигналом, но редко является единственным фактором найма.
Источник: Роли инженеров данных levels.fyi 2025–2026, Бюро статистики труда США OEWS Май 2024 (15-1252 разработчики ПО, 15-2051 специалисты по данным). Цифры приблизительны; фактическая компенсация зависит от роли, региона и опыта.
Наем инженеров данных оставался сильным в течение 2024–2026 годов, поскольку предприятия продолжали создавать облачные озера данных, архитектуры Lakehouse и аналитические платформы. DEA-C01 служит надежным сигналом, специфичным для AWS, наряду с опытом работы со Snowflake, Databricks или dbt. Рекрутеры в центрах обработки данных, ориентированных на AWS, используют его как быстрый фильтр вместе со знанием SQL, Python и Spark. Он естественно сочетается с Solutions Architect Associate (SAA-C03), Machine Learning Engineer Associate (MLA-C01) и независимыми от поставщика инструментами, такими как Airflow и dbt. Сам по себе этот сертификат НЕ квалифицирует кандидатов на должности старшего инженера данных или главного специалиста по платформам данных — для них ожидается подтвержденный опыт владения крупномасштабными конвейерами и более широкий опыт проектирования систем.
Формальных предварительных требований нет. AWS рекомендует иметь как минимум 2–3 года общего опыта в области инженерии данных и как минимум один год практического опыта работы с сервисами данных AWS.
Большинство кандидатов подходят к DEA-C01 после SAA-C03 (архитектурная основа) или непосредственно с сильным опытом работы со Spark/SQL/Python. CLF-C02 является полезной разминкой для тех, кто меняет карьеру без опыта работы с AWS. Наиболее эффективная подготовка к личному проекту — это сквозной конвейер: Kinesis Firehose → S3 (Parquet, секционированный) → каталог Glue → Athena и Redshift Serverless, с Step Functions или Glue Workflows для оркестрации и Lake Formation для управления. Кандидаты с опытом работы с данными вне AWS (например, локальный Hadoop или чистый Snowflake) должны выделить дополнительное время на Glue, Lake Formation и семейство Kinesis.
DEA-C01 имеет уровень Associate и сравним по сложности с SAA-C03, но с более сфокусированной областью сервисов. Планируйте 70–110 часов в течение 8–12 недель для кандидатов с предыдущим опытом в инженерии данных; 120–160 часов для тех, у кого его нет. Экзамен состоит из 65 вопросов, оцениваемых в 130 минут — множественный выбор и множественный ответ, без лабораторных работ.
Частые трудности включают различение Kinesis Data Streams (пользовательские потребители, порядок, хранение) от Firehose (управляемая доставка, преобразования) и MSK (совместимость с Kafka); знание того, какой оркестратор (Step Functions, Glue Workflows, MWAA, EventBridge Scheduler) подходит для данного конвейера; и пограничные случаи наследования разрешений Lake Formation. Расчеты форматов файлов и секционирования (коэффициенты сжатия, обрезка столбцов Parquet) регулярно встречаются.
Первоначальная общая доступность. Бета-экзамен проводился в конце 2023 года. Заменяет снятую с производства специализацию Data Analytics Specialty (DAS-C01) для кандидатов, ориентированных на инженерию. Текущая версия по состоянию на апрель 2026 года.
DEA-C01 (AWS Certified Data Engineer Associate) — это Associate-уровневый экзамен, экзамен средней сложности, требующий практического опыта и глубокого понимания лучших практик. Большинству кандидатов требуется 80–150 часов обучения, распределенных на 6–12 недель, для экзаменов уровня Associate. Большинство кандидатов, которые стабильно набирают баллы выше проходного порога на пробных экзаменах, сдают его с первой попытки.
Большинству кандидатов требуется 80–150 часов обучения, распределенных на 6–12 недель, для экзаменов уровня Associate. Время, необходимое для сдачи, сильно варьируется в зависимости от предыдущего опыта. Инженерам с практическим опытом работы с базовой технологией обычно требуется меньше времени; кандидатам, новым для платформы, следует ориентироваться на верхнюю границу этого диапазона.
DEA-C01 — это признанная квалификация в экосистеме AWS, которая подтверждает знания для работодателей, рекрутеров и клиентов. Стоит ли это затраченного времени и платы, зависит от вашей роли и целей — это чаще всего окупается для облачных инженеров, архитекторов и консультантов, которые ежедневно работают с AWS или хотят перейти на такие должности.
Проходной балл для DEA-C01 составляет 720 / 1000. Экзамен содержит 65 вопросов и длится 2 ч 10 мин.
Стоимость экзамена DEA-C01 составляет $150 USD. Сборы устанавливаются AWS и могут варьироваться в зависимости от региона; всегда уточняйте текущую цену на официальной странице сертификации AWS перед бронированием.
Сертификации AWS действительны в течение 3 лет. Пройдите повторную сертификацию, сдав текущую версию того же экзамена или сдав экзамен более высокого уровня в том же направлении до истечения срока действия.
Да. Вы можете сдать экзамен онлайн (с прокторингом через безопасный браузер провайдера, доступный 24/7 в большинстве регионов) или в очном центре тестирования Pearson VUE в рабочее время. Оба формата используют одни и те же вопросы, ограничение по времени и проходной балл.
CertLabPro предлагает 15 режимов обучения по банку практических вопросов для DEA-C01. Режим симуляции экзамена имитирует реальный экзамен: 65 вопросов за 2 ч 10 мин, с тем же проходным порогом 720 / 1000. Режим просмотра позволяет статически читать каждый вопрос и ответ.