Google Cloud Professional Data Engineer
225 questions de pratique
Dernière révision : April 2026
Notes personnelles et liens de ressources pour votre parcours d'étude
Filtrer par Certification
Le certificat Google Cloud Professional Data Engineer (PDE) valide la capacité à concevoir, créer, sécuriser et opérationnaliser des systèmes de traitement de données sur Google Cloud. L'examen est l'une des certifications professionnelles GCP les plus populaires et se classe constamment parmi les certifications de données uniques les mieux rémunérées sur le marché. Attendez-vous à une couverture approfondie de BigQuery (partitionnement, regroupement, vues matérialisées, BI Engine, BigLake, Omni), Dataflow (traitement par lots et en continu Apache Beam, fenêtrage, filigranes), Pub/Sub, Dataproc, Cloud Composer (Airflow géré), Dataform, Dataplex, Datastream et l'intégration de Vertex AI pour les pipelines ML. Le style des questions est axé sur les scénarios et récompense les candidats qui pensent simultanément en termes de compromis entre coût, latence, actualisation et évolution des schémas.
Analyse des systèmes sources, conception d'entrepôts de données (data-warehouse) vs. lacs de données (data-lake) vs. lakehouses, modélisation de schémas pour BigQuery (dénormalisé, imbriqué, ARRAY/STRUCT), choix du bon stockage (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Le domaine le plus vaste (25%). Modèles Pub/Sub, traitement par lots et en continu Dataflow avec Apache Beam (fenêtrage, déclencheurs, filigranes, sémantique exactement une fois), tâches Dataproc Spark, CDC Datastream, Storage Transfer Service.
Partitionnement et regroupement BigQuery, vues matérialisées, BI Engine, tables externes BigLake, instantanés de niveau table et voyage dans le temps, conception de schémas Bigtable, transitions de classes Cloud Storage. 20%.
BigQuery SQL (fonctions de fenêtre, manipulation d'ARRAY/STRUCT, index de recherche), BigQuery ML, bases du modèle sémantique Looker, requêtes fédérées vers Cloud SQL / Spanner / Cloud Storage, intégration Vertex AI. 15%.
DAGs Cloud Composer, workflows Dataform, requêtes planifiées BigQuery, réservations de slots et tarification à la demande, surveillance avec Cloud Monitoring, IAM au niveau du jeu de données / de la table / de la colonne / de la ligne. 18%.
Les services que vous rencontrerez à l'examen et pourquoi chacun compte.
Entrepôt de données columnar serverless avec stockage/calcul séparés, slots à la demande et de réservation, BigQuery ML pour la modélisation intra-entrepôt, et vues matérialisées pour les agrégats incrémentiels.
Pourquoi il est à l'examen : BigQuery est la surface d'analyse phare dans les cinq domaines du PDE — le partitionnement, le clustering, les réservations de slots et l'optimisation des requêtes dominent l'examen.
Stockage d'objets qui ancre le data lake GCP — zones d'atterrissage/curées/de consommation, buckets multi-régions et bi-régions, politiques de cycle de vie, et source pour chaque service analytique aval.
Pourquoi il est à l'examen : Chaque scénario de stockage et d'ingestion PDE suppose Cloud Storage comme substrat ; les classes de stockage, les politiques de rétention et les modèles d'accès par URL signées sont au cœur des questions sur le Stockage des données.
Exécuteur Apache Beam entièrement géré pour les pipelines de streaming et de batch unifiés, avec des workers à mise à l'échelle automatique, Streaming Engine et Flex Templates pour des déploiements reproductibles.
Pourquoi il est à l'examen : Dataflow est la réponse canonique dans l'Ingestion et le traitement — les questions sur le fenêtrage, les déclencheurs, la sémantique exactement-une fois, et les compromis streaming vs. batch aboutissent toutes ici.
Clusters Spark, Hadoop, Hive, Presto et Flink gérés avec mise à l'échelle automatique éphémère, Dataproc Serverless pour Spark batch, et Spark-on-GKE pour une infra partagée.
Pourquoi il est à l'examen : Le PDE attend Dataproc comme cible de migration pour les charges de travail Spark/Hadoop existantes — les choix éphémère vs. longue durée, les politiques de mise à l'échelle automatique et les comparaisons Dataproc-vs-Dataflow apparaissent dans la Conception de systèmes de traitement de données.
Service de messagerie distribué globalement pour l'ingestion asynchrone, avec livraison au moins une fois, clés d'ordonnancement, rubriques de lettres mortes, et Pub/Sub Lite pour des flux régionaux optimisés en coût.
Pourquoi il est à l'examen : Pub/Sub est la surface d'ingestion de streaming par défaut dans l'Ingestion et le traitement — la sémantique de livraison, les types d'abonnements et le comportement du backlog sont des sujets d'examen récurrents.
Service Apache Airflow géré pour orchestrer des DAG multi-services couvrant BigQuery, Dataflow, Dataproc et les systèmes externes, avec Composer 2 fonctionnant sur GKE Autopilot.
Pourquoi il est à l'examen : La Maintenance et l'automatisation des charges de travail teste les modèles de DAG, les nouvelles tentatives et la surveillance des SLA — Composer est l'orchestrateur désigné sur le PDE, par opposition à Workflows pour des chaînes plus simples.
Base de données relationnelle distribuée globalement avec une forte cohérence, une mise à l'échelle horizontale et SQL — utilisée comme système d'enregistrement opérationnel alimentant les pipelines d'analyse.
Pourquoi il est à l'examen : Les questions de stockage PDE distinguent l'OLTP (Spanner) de l'OLAP (BigQuery) et demandent quand les requêtes fédérées Spanner depuis BigQuery sont préférables à un pipeline CDC.
Service NoSQL à larges colonnes avec des lectures en quelques millisecondes à l'échelle du pétaoctet, optimisé pour les charges de travail de séries chronologiques et IoT avec compatibilité API HBase.
Pourquoi il est à l'examen : La Conception de systèmes de traitement de données teste la conception de clés de ligne, le hotspotting et les compromis SSD-vs-HDD — Bigtable est la réponse GCP chaque fois que des lectures analytiques à faible latence sont requises.
PostgreSQL, MySQL et SQL Server gérés avec sauvegardes automatiques, réplicas en lecture et haute disponibilité — la source relationnelle pour de nombreux pipelines d'ingestion.
Pourquoi il est à l'examen : Cloud SQL apparaît dans l'Ingestion et le stockage comme la base de données OLTP en amont dont les changements alimentent BigQuery via Datastream ou des exports batch planifiés.
Base de données de documents serverless avec des écouteurs en temps réel, transactions ACID et réplication globale en mode Enterprise — prend en charge la capture d'événements au niveau de l'application.
Pourquoi il est à l'examen : Les scénarios de stockage PDE choisissent Firestore pour les écritures à faible latence au niveau de l'application qui transitent ensuite vers BigQuery via Eventarc ou Pub/Sub.
Moteur de stockage unifié qui expose les données de Cloud Storage et externes (S3, ADLS) comme des tables BigQuery gouvernées avec un contrôle d'accès granulaire et un support Apache Iceberg.
Pourquoi il est à l'examen : BigLake est la réponse lakehouse dans le Stockage des données — il distingue la fédération de tables externes du stockage natif BigQuery et permet l'analyse multi-cloud.
Service serverless de capture de changements de données qui réplique MySQL, PostgreSQL, Oracle et SQL Server vers BigQuery, Cloud Storage ou Cloud SQL avec une faible latence.
Pourquoi il est à l'examen : L'Ingestion et le traitement teste les modèles CDC ; Datastream est la réponse native GCP pour la réplication basée sur les logs vers l'entrepôt sans plomberie Debezium personnalisée.
Plateforme ETL visuelle gérée basée sur CDAP avec plus de 150 connecteurs et un concepteur de pipeline sans code qui compile vers Dataproc en arrière-plan.
Pourquoi il est à l'examen : Le PDE attend Data Fusion lorsqu'une question privilégie l'ETL visuel low-code avec une large couverture de connecteurs plutôt que Beam écrit à la main dans Dataflow.
Service de workflow SQL natif BigQuery avec contrôle de version, graphes de dépendances, assertions et matérialisations de tables incrémentielles — analogue à dbt dans GCP.
Pourquoi il est à l'examen : La Maintenance et l'automatisation teste les modèles de transformation intra-entrepôt ; Dataform est la réponse canonique d'orchestration SQL pour l'ELT centré sur BigQuery.
Service visuel de préparation de données pour explorer, nettoyer et transformer des données structurées/semi-structurées avec des suggestions intelligentes et l'exportation de recettes.
Pourquoi il est à l'examen : La Préparation et l'utilisation des données pour l'analyse désigne Dataprep comme le chemin sans code pour la mise en forme des données par les analystes avant la consommation BigQuery.
Service géré pour découvrir, classifier et désidentifier les PII à travers BigQuery, Cloud Storage et Datastore à l'aide de modèles d'inspection et de jobs de transformation.
Pourquoi il est à l'examen : Les scénarios de gouvernance PDE citent Sensitive Data Protection pour le masquage, la tokenisation ou la rédaction des PII avant que les données n'atteignent les couches d'analyse partagées.
Permissions au niveau du projet et de la ressource pour chaque service de données, incluant l'accès granulaire BigQuery au niveau des lignes, des colonnes et basé sur les étiquettes de politique.
Pourquoi il est à l'examen : Les questions de gouvernance PDE sur l'accès à moindre privilège aux jeux de données BigQuery, aux buckets Cloud Storage et aux rubriques Pub/Sub renvoient toutes aux liaisons et conditions IAM.
Clés cryptographiques gérées avec des clés de chiffrement gérées par le client (CMEK) pour BigQuery, Cloud Storage, Pub/Sub, Dataflow et Spanner, plus Cloud HSM et des options de clés externes.
Pourquoi il est à l'examen : Le chiffrement au repos avec CMEK est la réponse canonique du PDE pour protéger les données analytiques réglementées, la rotation des clés et les entrepôts multi-équipes isolés par locataire.
Fabric de données unifié pour cataloguer, classer, sécuriser et surveiller les données à travers BigQuery, Cloud Storage et les sources externes, avec lignage et qualité des données intégrés.
Pourquoi il est à l'examen : Les scénarios de gouvernance et de qualité des données PDE désignent Dataplex comme la couche de catalogue/lignage native GCP pour le lac + entrepôt, remplaçant Data Catalog autonome.
Observabilité unifiée pour les exécutions de pipeline, les métriques de job BigQuery, la mise à l'échelle automatique des workers Dataflow, le backlog Pub/Sub et l'alerte basée sur les SLO via les politiques Cloud Monitoring.
Pourquoi il est à l'examen : La Maintenance et l'automatisation des charges de travail attend Cloud Logging + Cloud Monitoring pour les alertes d'échec de job, les tableaux de bord d'utilisation des slots et la rétention des logs d'audit.
$140k–$195k–$290k USD annuel
La fourchette reflète les ingénieurs de données seniors basés aux États-Unis où GCP est la plateforme principale. La rémunération totale (TC) d'un ingénieur de données FAANG L5 dépasse les 300 000 $. Le PDE est constamment cité comme l'une des certifications de données uniques les mieux rémunérées selon les fourchettes de salaires des offres d'emploi ; combiné à une solide expérience Apache Beam / Dataflow, il commande une prime dans les entreprises centrées sur GCP. Les rôles d'ingénieur-analyste pur tendent à être moins bien rémunérés.
Source : levels.fyi 2025–2026 (ingénieurs de données Google L4–L5, ingénieurs de données seniors FAANG et licornes), U.S. BLS OEWS May 2024 (15-2051 data scientists, 15-1252 software developers). Les chiffres sont approximatifs ; la rémunération réelle dépend du rôle, de la région et de l'expérience.
Le PDE est la certification de données GCP la plus demandée et l'un des signaux les plus forts pour les rôles d'ingénieurs de données seniors dans les entreprises fortement utilisatrices de GCP. Forte demande chez les entreprises nativement numériques utilisant GCP (Spotify, Snap, PayPal, Wayfair, plusieurs grands détaillants et entreprises d'ad-tech), les organisations d'analyse centrées sur BigQuery et les partenaires Google Cloud ayant des pratiques en matière de données. Le certificat est également valorisé chez Google même pour les spécialistes des données en ingénierie client. Le PDE s'associe naturellement à la certification Professional ML Engineer (PMLE) pour un profil "données + ML" de bout en bout, et à la certification Cloud Architect (PCA) pour un profil d'ingénierie senior plus large. Les titulaires signalent constamment une forte réponse des recruteurs.
Il n'y a pas de prérequis formels. Google recommande trois ans ou plus d'expérience professionnelle, dont au moins un an de conception et de gestion de solutions sur Google Cloud. En pratique, le PDE n'est pas une première certification GCP crédible pour quelqu'un de nouveau dans le domaine des données — les candidats retenus ont déployé des pipelines non triviaux et maîtrisent SQL, Python, et ont au moins une familiarité conceptuelle avec Apache Beam.
La certification Associate Cloud Engineer (ACE) est un jalon courant, mais l'Associate Data Practitioner (ADP) est une voie d'accès plus directe pour le contenu spécifique aux données. Une solide maîtrise de SQL (fonctions de fenêtre, CTEs, manipulation d'ARRAY/STRUCT), une aisance avec au moins un langage de programmation pour les pipelines Beam (Python ou Java) et une familiarité avec les concepts de streaming (fenêtrage, filigranes, livraison exactement une fois) sont effectivement requises. Le parcours d'apprentissage officiel Data Engineer sur Google Cloud Skills Boost (environ 50 à 80 heures de laboratoires) est une bonne base.
Le PDE est classé comme professionnel et est constamment difficile — de nombreux candidats le considèrent comme la deuxième certification GCP la plus difficile après PCA / PCNE, principalement en raison du contenu lié au streaming et à Dataflow / Apache Beam. Prévoyez 100 à 150 heures d'étude sur 10 à 14 semaines si le PDE est votre première certification professionnelle GCP, ou 50 à 80 heures sur 5 à 8 semaines si vous détenez déjà ACE / ADP et avez de l'expérience en ingénierie de données en production. L'examen comprend 50 à 60 questions à choix multiples / à sélection multiple en 120 minutes, administré via Pearson VUE (Google a migré de Kryterion / Webassessor début 2026 — pas d'examens du 23 février au 1er mars 2026 ; première livraison Pearson le 2 mars 2026).
Le principal obstacle est le streaming Dataflow — les stratégies de fenêtrage (fixes, glissantes, de session), les filigranes, les données en retard et la sémantique exactement une fois représentent une part disproportionnée des tentatives échouées. Le deuxième obstacle est le choix entre BigQuery, Bigtable, Spanner et Cloud SQL pour les scénarios de stockage où plusieurs options sont techniquement viables. Google ne publie pas de scores numériques — seulement réussi/échoué. La certification est valide pendant deux ans et la recertification nécessite de repasser l'examen actuel.
Guide d'examen actuel mis à jour début 2023 pour ajouter la couverture de BigLake, BigQuery Omni, Dataform, Dataplex et Datastream. Intégration étendue des pipelines ML avec Vertex AI.
Mise à jour majeure qui a rééquilibré les domaines de stockage et de traitement et ajouté la couverture de Pub/Sub Lite et Dataflow Prime.
Disponibilité générale originale — l'une des trois premières certifications professionnelles Google Cloud.
PDE (Google Cloud Professional Data Engineer) est un examen de niveau Professional un examen exigeant, riche en scénarios, qui requiert une expérience pratique approfondie et la capacité de prendre des décisions d'arbitrage architectural. La plupart des candidats ont besoin de 150 à 300 heures d'étude réparties sur 3 à 6 mois pour les examens de niveau professionnel et expert. Ces examens exigent généralement une compétence préalable de niveau associé. La plupart des candidats qui obtiennent des scores constamment supérieurs au seuil de réussite lors des examens pratiques réussissent dès leur première tentative.
La plupart des candidats ont besoin de 150 à 300 heures d'étude réparties sur 3 à 6 mois pour les examens de niveau professionnel et expert. Ces examens exigent généralement une compétence préalable de niveau associé. Le temps nécessaire pour réussir varie considérablement en fonction de l'expérience antérieure. Les ingénieurs ayant une expérience pratique en production avec la technologie sous-jacente en ont généralement besoin de moins ; les candidats novices sur la plateforme devraient viser la limite supérieure de cette fourchette.
PDE est une certification reconnue dans l'écosystème GCP et signale des connaissances validées aux employeurs, recruteurs et clients. Sa valeur en termes de temps et de coût dépend de votre rôle et de vos objectifs — elle est la plus avantageuse pour les ingénieurs cloud, architectes et consultants qui travaillent quotidiennement avec GCP ou souhaitent évoluer vers des rôles similaires.
Le score de réussite pour le PDE est de Non publié. L'examen contient 50 questions et dure 2 h.
Les frais d'examen PDE sont de $200 USD. Les frais sont fixés par GCP et peuvent varier selon la région ; confirmez toujours le prix actuel sur la page de certification officielle de GCP avant de réserver.
Les certifications Google Cloud Professional sont valides pendant 2 ans. Recertifiez-vous en repassant la version actuelle de l'examen.
Oui. Vous pouvez passer l'examen en ligne (supervisé via le navigateur sécurisé du fournisseur, disponible 24h/24 et 7j/7 dans la plupart des régions) ou dans un centre de test Pearson VUE en personne pendant les heures ouvrables. Les deux formats utilisent les mêmes questions, la même limite de temps et le même score de réussite.
CertLabPro propose 15 modes d'étude à travers la banque de questions pratiques pour le PDE. Le mode de simulation d'examen reproduit l'examen réel : 50 questions en 2 h, avec le même seuil de réussite de Non publié. Le mode navigation vous permet de lire chaque Q&A de manière statique.