Google Cloud Professional Data Engineer
225 практических вопросов
Последняя проверка: April 2026
Личные заметки и ссылки на ресурсы для вашего учебного пути
Фильтр по сертификации
Сертификация Google Cloud Professional Data Engineer (PDE) подтверждает способность проектировать, создавать, защищать и вводить в эксплуатацию системы обработки данных в Google Cloud. Этот экзамен является одним из самых популярных профессиональных сертификатов GCP и неизменно входит в число наиболее высокооплачиваемых одиночных сертификаций в области данных на рынке. Ожидайте глубокого освещения BigQuery (партиционирование, кластеризация, материализованные представления, BI Engine, BigLake, Omni), Dataflow (пакетная и потоковая обработка Apache Beam, оконные функции, водяные знаки), Pub/Sub, Dataproc, Cloud Composer (управляемый Airflow), Dataform, Dataplex, Datastream и интеграции Vertex AI для конвейеров ML. Стиль вопросов ориентирован на сценарии и поощряет кандидатов, которые одновременно учитывают компромиссы между стоимостью, задержкой, актуальностью и эволюцией схемы.
Анализ исходных систем, проектирование хранилищ данных (data-warehouse), озер данных (data-lake) и озер-хранилищ (lakehouse), моделирование схем для BigQuery (денормализованные, вложенные, ARRAY/STRUCT), выбор подходящего хранилища (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Крупнейшая область — 25%. Шаблоны Pub/Sub, пакетная и потоковая обработка Dataflow с Apache Beam (оконные функции, триггеры, водяные знаки, семантика "ровно один раз"), задания Spark в Dataproc, CDC Datastream, Storage Transfer Service.
Партиционирование и кластеризация BigQuery, материализованные представления, BI Engine, внешние таблицы BigLake, снимки на уровне таблиц и "путешествие во времени", проектирование схем Bigtable, переходы классов Cloud Storage. 20%.
BigQuery SQL (оконные функции, манипуляции с ARRAY/STRUCT, поисковые индексы), BigQuery ML, основы семантической модели Looker, федеративные запросы к Cloud SQL / Spanner / Cloud Storage, интеграция Vertex AI. 15%.
DAG-графы Cloud Composer, рабочие процессы Dataform, запланированные запросы BigQuery, резервирование слотов и ценообразование по требованию, мониторинг с помощью Cloud Monitoring, IAM на уровне набора данных / таблицы / столбца / строки. 18%.
Сервисы, с которыми вы столкнётесь на экзамене, и почему каждый из них важен.
Бессерверное колоночное хранилище данных с разделенными хранилищем и вычислениями, со слотами по запросу и резервированию, BigQuery ML для моделирования внутри хранилища и материализованными представлениями для инкрементальных агрегатов.
Почему он на экзамене: BigQuery — это основная аналитическая платформа по всем пяти доменам PDE; секционирование, кластеризация, резервирование слотов и оптимизация запросов доминируют на экзамене.
Объектное хранилище, являющееся основой озера данных GCP — зоны приземления/отбора/потребления, многорегиональные и двухрегиональные бакеты, политики жизненного цикла и источник для всех последующих аналитических сервисов.
Почему он на экзамене: Каждый сценарий хранения и приема данных в PDE предполагает Cloud Storage в качестве основы; классы хранения, политики удержания и паттерны доступа по подписанным URL лежат в основе вопросов по Хранению данных.
Полностью управляемый исполнитель Apache Beam для унифицированных потоковых и пакетных пайплайнов, с автоматически масштабируемыми воркерами, Streaming Engine и Flex Templates для повторяемых развертываний.
Почему он на экзамене: Dataflow — это канонический ответ в Приеме и обработке данных; вопросы о временных окнах, триггерах, семантике «точно один раз» и компромиссах между потоковой и пакетной обработкой данных возникают именно здесь.
Управляемые кластеры Spark, Hadoop, Hive, Presto и Flink с эфемерным автомасштабированием, Dataproc Serverless для пакетного Spark и Spark-on-GKE для общей инфраструктуры.
Почему он на экзамене: PDE рассматривает Dataproc как целевую платформу миграции для существующих рабочих нагрузок Spark/Hadoop; выбор между эфемерными и долгоживущими кластерами, политики автомасштабирования и сравнение Dataproc с Dataflow появляются в вопросах Проектирования систем обработки данных.
Глобально распределенный сервис обмена сообщениями для асинхронного приема данных, с доставкой «хотя бы один раз», ключами упорядочивания, темами для недоставленных сообщений и Pub/Sub Lite для региональных потоков с оптимизированной стоимостью.
Почему он на экзамене: Pub/Sub является стандартной поверхностью для потокового приема данных в Приеме и обработке данных; семантика доставки, типы подписок и поведение очереди сообщений являются повторяющимися темами экзамена.
Управляемый сервис Apache Airflow для оркестрации кросс-сервисных DAG, охватывающих BigQuery, Dataflow, Dataproc и внешние системы, с Composer 2, работающим на GKE Autopilot.
Почему он на экзамене: Обслуживание и автоматизация рабочих нагрузок проверяет паттерны DAG, повторные попытки и мониторинг SLA; Composer является названным оркестратором в PDE в отличие от Workflows для более простых цепочек.
Глобально распределенная реляционная база данных с сильной согласованностью, горизонтальным масштабированием и SQL, используемая в качестве операционной системы учета, питающей аналитические пайплайны.
Почему он на экзамене: Вопросы PDE о хранении данных различают OLTP (Spanner) от OLAP (BigQuery) и спрашивают, когда федеративные запросы Spanner из BigQuery превосходят CDC-пайплайн.
Ширококолоночный NoSQL-сервис с временем чтения в единицы миллисекунд при петабайтном масштабе, оптимизированный для временных рядов и IoT-нагрузок с совместимостью с API HBase.
Почему он на экзамене: Проектирование систем обработки данных проверяет проектирование ключей строк, «горячие точки» и компромиссы между SSD и HDD; Bigtable — это ответ GCP всякий раз, когда требуются аналитические чтения с низкой задержкой.
Управляемые PostgreSQL, MySQL и SQL Server с автоматическим резервным копированием, репликами для чтения и высокой доступностью — реляционный источник для многих пайплайнов приема данных.
Почему он на экзамене: Cloud SQL фигурирует в Приеме и хранении данных как вышестоящая OLTP-база данных, изменения которой поступают в BigQuery через Datastream или плановые пакетные экспорты.
Бессерверная документоориентированная база данных с слушателями в реальном времени, ACID-транзакциями и глобальной репликацией в режиме Enterprise, поддерживающая сбор событий на уровне приложений.
Почему он на экзамене: Сценарии хранения данных в PDE выбирают Firestore для записей на уровне приложений с низкой задержкой, которые впоследствии поступают в BigQuery через Eventarc или Pub/Sub.
Унифицированный движок хранения, который предоставляет данные Cloud Storage и внешних источников (S3, ADLS) в виде управляемых таблиц BigQuery с детальным контролем доступа и поддержкой Apache Iceberg.
Почему он на экзамене: BigLake — это ответ lakehouse в Хранении данных; он отличает федерацию внешних таблиц от нативного хранилища BigQuery и обеспечивает мультиоблачную аналитику.
Бессерверный сервис Change Data Capture, который реплицирует MySQL, PostgreSQL, Oracle и SQL Server в BigQuery, Cloud Storage или Cloud SQL с низкой задержкой.
Почему он на экзамене: Прием и обработка данных проверяет CDC-паттерны; Datastream — это нативное GCP-решение для репликации на основе логов в хранилище без пользовательских настроек Debezium.
Управляемая визуальная ETL-платформа на основе CDAP со 150+ коннекторами и безынтерфейсным дизайнером пайплайнов, который компилируется в Dataproc под капотом.
Почему он на экзамене: PDE предполагает Data Fusion, когда вопрос отдает предпочтение низкокодовому визуальному ETL с широким охватом коннекторов вместо написанного вручную Beam в Dataflow.
Сервис SQL-рабочих процессов, нативный для BigQuery, с контролем версий, графами зависимостей, утверждениями и инкрементальными материализациями таблиц, аналогичный dbt внутри GCP.
Почему он на экзамене: Обслуживание и автоматизация проверяет паттерны внутрихранилищных преобразований; Dataform — это канонический ответ для оркестрации SQL в ELT-сценариях, ориентированных на BigQuery.
Визуальный сервис для подготовки данных, предназначенный для исследования, очистки и преобразования структурированных/полуструктурированных данных с интеллектуальными подсказками и экспортом рецептов.
Почему он на экзамене: Подготовка и использование данных для анализа называет Dataprep как безынтерфейсный путь для управляемого аналитиками формирования данных перед их потреблением в BigQuery.
Управляемый сервис для обнаружения, классификации и деидентификации PII в BigQuery, Cloud Storage и Datastore с использованием шаблонов инспекции и заданий трансформации.
Почему он на экзамене: Сценарии управления данными PDE ссылаются на Sensitive Data Protection для маскирования, токенизации или редактирования PII до того, как данные попадут в общие аналитические слои.
Разрешения на уровне проектов и ресурсов для каждого сервиса данных, включая детальный доступ на основе политик тегов, на уровне строк и столбцов BigQuery.
Почему он на экзамене: Вопросы PDE по управлению данными о доступе с наименьшими привилегиями к наборам данных BigQuery, бакетам Cloud Storage и темам Pub/Sub все сводятся к привязкам и условиям IAM.
Управляемые криптографические ключи с ключами шифрования, управляемыми клиентом (CMEK), для BigQuery, Cloud Storage, Pub/Sub, Dataflow и Spanner, плюс Cloud HSM и опции внешних ключей.
Почему он на экзамене: Шифрование в состоянии покоя с CMEK — это канонический ответ PDE для защиты регулируемых аналитических данных, ротации ключей и многокомандных хранилищ с изоляцией клиентов.
Унифицированная фабрика данных для каталогизации, классификации, защиты и мониторинга данных в BigQuery, Cloud Storage и внешних источниках, со встроенной линией происхождения и качеством данных.
Почему он на экзамене: Сценарии управления данными и качества данных в PDE называют Dataplex как нативный для GCP слой каталога/линии происхождения данных для озера + хранилища, заменяющий автономный Data Catalog.
Унифицированная наблюдаемость для запусков пайплайнов, метрик заданий BigQuery, автомасштабирования воркеров Dataflow, бэклога Pub/Sub и оповещений на основе SLO через политики Cloud Monitoring.
Почему он на экзамене: Обслуживание и автоматизация рабочих нагрузок предполагает Cloud Logging + Cloud Monitoring для оповещений о сбоях заданий, дашбордов использования слотов и хранения аудитных логов.
$140k–$195k–$290k USD годовая
Диапазон отражает зарплаты старших инженеров данных в США, где GCP является основной платформой. Общая компенсация ML-инженера уровня L5 в FAANG превышает $300 тыс. PDE неизменно упоминается как одна из самых высокооплачиваемых одиночных сертификаций в области данных по данным объявлений о вакансиях; в сочетании с сильным опытом Apache Beam / Dataflow она обеспечивает премию в компаниях, использующих GCP. Чисто аналитические инженерные роли, как правило, оплачиваются ниже.
Источник: levels.fyi 2025–2026 (инженеры данных Google L4–L5, старшие инженеры данных FAANG и единорогов), Бюро трудовой статистики США BLS OEWS Май 2024 (15-2051 специалисты по данным, 15-1252 разработчики программного обеспечения). Цифры приблизительны; фактическая компенсация зависит от роли, региона и опыта.
PDE является самым востребованным сертификатом GCP в области данных и одним из сильнейших сигналов для ролей старших инженеров данных в компаниях, активно использующих GCP. Высокий спрос наблюдается в "цифровых" компаниях, ориентированных на GCP (Spotify, Snap, PayPal, Wayfair, несколько крупных розничных продавцов и рекламных технологий), аналитических организациях, сфокусированных на BigQuery, и партнерах Google Cloud, имеющих практику работы с данными. Этот сертификат также ценится в самой Google для специалистов по данным в клиентской инженерии. PDE естественным образом сочетается с Professional ML Engineer (PMLE) для создания сквозного профиля "данные + ML", а также с Cloud Architect (PCA) для более широкого профиля старшего инженера. Обладатели сертификата постоянно сообщают о высоком отклике со стороны рекрутеров.
Формальных требований нет. Google рекомендует три или более года опыта работы в отрасли, включая один или более год проектирования и управления решениями в Google Cloud. На практике PDE не является надежным первым сертификатом GCP для новичка в данных — успешные кандидаты реализовали нетривиальные конвейеры и имеют рабочий SQL, Python, а также хотя бы концептуальное знакомство с Apache Beam.
Associate Cloud Engineer (ACE) — это распространенная ступень, но Associate Data Practitioner (ADP) является более прямым путем к контенту, специфичному для данных. Фактически требуются уверенное владение SQL (оконные функции, CTE, манипуляции с ARRAY/STRUCT), комфортная работа хотя бы с одним языком программирования для конвейеров Beam (Python или Java) и знакомство с концепциями потоковой обработки (оконные функции, водяные знаки, доставка "ровно один раз"). Официальный путь обучения Data Engineer на Google Cloud Skills Boost (около 50–80 часов лабораторных работ) является хорошей отправной точкой.
PDE считается профессиональным сертификатом и неизменно сложен — многие кандидаты оценивают его как второй по сложности сертификат GCP после PCA / PCNE, в основном из-за контента, связанного с потоковой обработкой и Dataflow / Apache Beam. Планируйте 100–150 часов обучения в течение 10–14 недель, если PDE — ваш первый профессиональный сертификат GCP, или 50–80 часов в течение 5–8 недель, если у вас уже есть ACE / ADP плюс опыт работы в продакшн-инженерии данных. Экзамен состоит из 50–60 вопросов с множественным выбором / множественным ответом, длится 120 минут и проводится через Pearson VUE (Google перешел с Kryterion / Webassessor в начале 2026 года — экзамены не проводились с 23 февраля по 1 марта 2026 года; первая сдача через Pearson — 2 марта 2026 года).
Наиболее распространенным камнем преткновения является потоковая обработка Dataflow — стратегии оконных функций (фиксированные, скользящие, сессионные), водяные знаки, поздние данные и семантика "ровно один раз" составляют непропорционально большую долю неудачных попыток. Вторым камнем преткновения является выбор между BigQuery, Bigtable, Spanner и Cloud SQL для сценариев хранения, где несколько вариантов технически жизнеспособны. Google не публикует числовые оценки — только "сдал/не сдал". Сертификат действителен в течение двух лет, и для повторной сертификации требуется повторная сдача текущего экзамена.
Текущее руководство по экзамену обновлено в начале 2023 года, чтобы добавить покрытие BigLake, BigQuery Omni, Dataform, Dataplex и Datastream. Расширена интеграция конвейеров ML с Vertex AI.
Крупное обновление, которое перебалансировало области хранения и обработки данных, а также добавило покрытие Pub/Sub Lite и Dataflow Prime.
Первоначальная общедоступность — один из первых трех профессиональных сертификатов Google Cloud.
PDE (Google Cloud Professional Data Engineer) — это Professional-уровневый экзамен, сложный, насыщенный сценариями экзамен, требующий глубокого практического опыта и способности принимать решения по архитектурным компромиссам. Большинству кандидатов требуется 150–300 часов обучения, распределенных на 3–6 месяцев, для экзаменов профессионального и экспертного уровня. Эти экзамены обычно предполагают предварительную подготовку на уровне Associate. Большинство кандидатов, которые стабильно набирают баллы выше проходного порога на пробных экзаменах, сдают его с первой попытки.
Большинству кандидатов требуется 150–300 часов обучения, распределенных на 3–6 месяцев, для экзаменов профессионального и экспертного уровня. Эти экзамены обычно предполагают предварительную подготовку на уровне Associate. Время, необходимое для сдачи, сильно варьируется в зависимости от предыдущего опыта. Инженерам с практическим опытом работы с базовой технологией обычно требуется меньше времени; кандидатам, новым для платформы, следует ориентироваться на верхнюю границу этого диапазона.
PDE — это признанная квалификация в экосистеме GCP, которая подтверждает знания для работодателей, рекрутеров и клиентов. Стоит ли это затраченного времени и платы, зависит от вашей роли и целей — это чаще всего окупается для облачных инженеров, архитекторов и консультантов, которые ежедневно работают с GCP или хотят перейти на такие должности.
Проходной балл для PDE составляет Не опубликовано. Экзамен содержит 50 вопросов и длится 2 ч.
Стоимость экзамена PDE составляет $200 USD. Сборы устанавливаются GCP и могут варьироваться в зависимости от региона; всегда уточняйте текущую цену на официальной странице сертификации GCP перед бронированием.
Сертификации Google Cloud Professional действительны в течение 2 лет. Пройдите повторную сертификацию, пересдав текущую версию экзамена.
Да. Вы можете сдать экзамен онлайн (с прокторингом через безопасный браузер провайдера, доступный 24/7 в большинстве регионов) или в очном центре тестирования Pearson VUE в рабочее время. Оба формата используют одни и те же вопросы, ограничение по времени и проходной балл.
CertLabPro предлагает 15 режимов обучения по банку практических вопросов для PDE. Режим симуляции экзамена имитирует реальный экзамен: 50 вопросов за 2 ч, с тем же проходным порогом Не опубликовано. Режим просмотра позволяет статически читать каждый вопрос и ответ.