Votre entreprise traite 10 To de données de logs quotidiennes qui doivent être analysées dans l'heure suivant leur arrivée. Les données arrivent en continu depuis plusieurs sources. Quelle architecture devriez-vous utiliser ?

Le certificat Google Cloud Professional Data Engineer (PDE) valide la capacité à concevoir, créer, sécuriser et opérationnaliser des systèmes de traitement de données sur Google Cloud. L'examen est l'une des certifications professionnelles GCP les plus populaires et se classe constamment parmi les certifications de données uniques les mieux rémunérées sur le marché. Attendez-vous à une couverture approfondie de BigQuery (partitionnement, regroupement, vues matérialisées, BI Engine, BigLake, Omni), Dataflow (traitement par lots et en continu Apache Beam, fenêtrage, filigranes), Pub/Sub, Dataproc, Cloud Composer (Airflow géré), Dataform, Dataplex, Datastream et l'intégration de Vertex AI pour les pipelines ML. Le style des questions est axé sur les scénarios et récompense les candidats qui pensent simultanément en termes de compromis entre coût, latence, actualisation et évolution des schémas.

Domaines de l'examen

Designing data processing systems22%
Analyse des systèmes sources, conception d'entrepôts de données (data-warehouse) vs. lacs de données (data-lake) vs. lakehouses, modélisation de schémas pour BigQuery (dénormalisé, imbriqué, ARRAY/STRUCT), choix du bon stockage (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Ingesting and processing the data25%
Le domaine le plus vaste (25%). Modèles Pub/Sub, traitement par lots et en continu Dataflow avec Apache Beam (fenêtrage, déclencheurs, filigranes, sémantique exactement une fois), tâches Dataproc Spark, CDC Datastream, Storage Transfer Service.
Storing the data20%
Partitionnement et regroupement BigQuery, vues matérialisées, BI Engine, tables externes BigLake, instantanés de niveau table et voyage dans le temps, conception de schémas Bigtable, transitions de classes Cloud Storage. 20%.
Preparing and using data for analysis15%
BigQuery SQL (fonctions de fenêtre, manipulation d'ARRAY/STRUCT, index de recherche), BigQuery ML, bases du modèle sémantique Looker, requêtes fédérées vers Cloud SQL / Spanner / Cloud Storage, intégration Vertex AI. 15%.
Maintaining and automating data workloads18%
DAGs Cloud Composer, workflows Dataform, requêtes planifiées BigQuery, réservations de slots et tarification à la demande, surveillance avec Cloud Monitoring, IAM au niveau du jeu de données / de la table / de la colonne / de la ligne. 18%.

Services Google Cloud dans cet examen

Les services que vous rencontrerez à l'examen et pourquoi chacun compte.

Services principaux

BigQueryDocumentation AWS ↗
Entrepôt de données columnar serverless avec stockage/calcul séparés, slots à la demande et de réservation, BigQuery ML pour la modélisation intra-entrepôt, et vues matérialisées pour les agrégats incrémentiels.
Pourquoi il est à l'examen : BigQuery est la surface d'analyse phare dans les cinq domaines du PDE — le partitionnement, le clustering, les réservations de slots et l'optimisation des requêtes dominent l'examen.
Cloud StorageDocumentation AWS ↗
Stockage d'objets qui ancre le data lake GCP — zones d'atterrissage/curées/de consommation, buckets multi-régions et bi-régions, politiques de cycle de vie, et source pour chaque service analytique aval.
Pourquoi il est à l'examen : Chaque scénario de stockage et d'ingestion PDE suppose Cloud Storage comme substrat ; les classes de stockage, les politiques de rétention et les modèles d'accès par URL signées sont au cœur des questions sur le Stockage des données.
DataflowDocumentation AWS ↗
Exécuteur Apache Beam entièrement géré pour les pipelines de streaming et de batch unifiés, avec des workers à mise à l'échelle automatique, Streaming Engine et Flex Templates pour des déploiements reproductibles.
Pourquoi il est à l'examen : Dataflow est la réponse canonique dans l'Ingestion et le traitement — les questions sur le fenêtrage, les déclencheurs, la sémantique exactement-une fois, et les compromis streaming vs. batch aboutissent toutes ici.
DataprocDocumentation AWS ↗
Clusters Spark, Hadoop, Hive, Presto et Flink gérés avec mise à l'échelle automatique éphémère, Dataproc Serverless pour Spark batch, et Spark-on-GKE pour une infra partagée.
Pourquoi il est à l'examen : Le PDE attend Dataproc comme cible de migration pour les charges de travail Spark/Hadoop existantes — les choix éphémère vs. longue durée, les politiques de mise à l'échelle automatique et les comparaisons Dataproc-vs-Dataflow apparaissent dans la Conception de systèmes de traitement de données.
Pub/SubDocumentation AWS ↗
Service de messagerie distribué globalement pour l'ingestion asynchrone, avec livraison au moins une fois, clés d'ordonnancement, rubriques de lettres mortes, et Pub/Sub Lite pour des flux régionaux optimisés en coût.
Pourquoi il est à l'examen : Pub/Sub est la surface d'ingestion de streaming par défaut dans l'Ingestion et le traitement — la sémantique de livraison, les types d'abonnements et le comportement du backlog sont des sujets d'examen récurrents.
Cloud ComposerDocumentation AWS ↗
Service Apache Airflow géré pour orchestrer des DAG multi-services couvrant BigQuery, Dataflow, Dataproc et les systèmes externes, avec Composer 2 fonctionnant sur GKE Autopilot.
Pourquoi il est à l'examen : La Maintenance et l'automatisation des charges de travail teste les modèles de DAG, les nouvelles tentatives et la surveillance des SLA — Composer est l'orchestrateur désigné sur le PDE, par opposition à Workflows pour des chaînes plus simples.
Cloud SpannerDocumentation AWS ↗
Base de données relationnelle distribuée globalement avec une forte cohérence, une mise à l'échelle horizontale et SQL — utilisée comme système d'enregistrement opérationnel alimentant les pipelines d'analyse.
Pourquoi il est à l'examen : Les questions de stockage PDE distinguent l'OLTP (Spanner) de l'OLAP (BigQuery) et demandent quand les requêtes fédérées Spanner depuis BigQuery sont préférables à un pipeline CDC.
Cloud BigtableDocumentation AWS ↗
Service NoSQL à larges colonnes avec des lectures en quelques millisecondes à l'échelle du pétaoctet, optimisé pour les charges de travail de séries chronologiques et IoT avec compatibilité API HBase.
Pourquoi il est à l'examen : La Conception de systèmes de traitement de données teste la conception de clés de ligne, le hotspotting et les compromis SSD-vs-HDD — Bigtable est la réponse GCP chaque fois que des lectures analytiques à faible latence sont requises.

Services spécialisés

Cloud SQLDocumentation AWS ↗
PostgreSQL, MySQL et SQL Server gérés avec sauvegardes automatiques, réplicas en lecture et haute disponibilité — la source relationnelle pour de nombreux pipelines d'ingestion.
Pourquoi il est à l'examen : Cloud SQL apparaît dans l'Ingestion et le stockage comme la base de données OLTP en amont dont les changements alimentent BigQuery via Datastream ou des exports batch planifiés.
FirestoreDocumentation AWS ↗
Base de données de documents serverless avec des écouteurs en temps réel, transactions ACID et réplication globale en mode Enterprise — prend en charge la capture d'événements au niveau de l'application.
Pourquoi il est à l'examen : Les scénarios de stockage PDE choisissent Firestore pour les écritures à faible latence au niveau de l'application qui transitent ensuite vers BigQuery via Eventarc ou Pub/Sub.
BigLakeDocumentation AWS ↗
Moteur de stockage unifié qui expose les données de Cloud Storage et externes (S3, ADLS) comme des tables BigQuery gouvernées avec un contrôle d'accès granulaire et un support Apache Iceberg.
Pourquoi il est à l'examen : BigLake est la réponse lakehouse dans le Stockage des données — il distingue la fédération de tables externes du stockage natif BigQuery et permet l'analyse multi-cloud.
DatastreamDocumentation AWS ↗
Service serverless de capture de changements de données qui réplique MySQL, PostgreSQL, Oracle et SQL Server vers BigQuery, Cloud Storage ou Cloud SQL avec une faible latence.
Pourquoi il est à l'examen : L'Ingestion et le traitement teste les modèles CDC ; Datastream est la réponse native GCP pour la réplication basée sur les logs vers l'entrepôt sans plomberie Debezium personnalisée.
Cloud Data FusionDocumentation AWS ↗
Plateforme ETL visuelle gérée basée sur CDAP avec plus de 150 connecteurs et un concepteur de pipeline sans code qui compile vers Dataproc en arrière-plan.
Pourquoi il est à l'examen : Le PDE attend Data Fusion lorsqu'une question privilégie l'ETL visuel low-code avec une large couverture de connecteurs plutôt que Beam écrit à la main dans Dataflow.
DataformDocumentation AWS ↗
Service de workflow SQL natif BigQuery avec contrôle de version, graphes de dépendances, assertions et matérialisations de tables incrémentielles — analogue à dbt dans GCP.
Pourquoi il est à l'examen : La Maintenance et l'automatisation teste les modèles de transformation intra-entrepôt ; Dataform est la réponse canonique d'orchestration SQL pour l'ELT centré sur BigQuery.
Dataprep by TrifactaDocumentation AWS ↗
Service visuel de préparation de données pour explorer, nettoyer et transformer des données structurées/semi-structurées avec des suggestions intelligentes et l'exportation de recettes.
Pourquoi il est à l'examen : La Préparation et l'utilisation des données pour l'analyse désigne Dataprep comme le chemin sans code pour la mise en forme des données par les analystes avant la consommation BigQuery.
Sensitive Data Protection (Cloud DLP)Documentation AWS ↗
Service géré pour découvrir, classifier et désidentifier les PII à travers BigQuery, Cloud Storage et Datastore à l'aide de modèles d'inspection et de jobs de transformation.
Pourquoi il est à l'examen : Les scénarios de gouvernance PDE citent Sensitive Data Protection pour le masquage, la tokenisation ou la rédaction des PII avant que les données n'atteignent les couches d'analyse partagées.

Sécurité et gouvernance

Identity and Access Management (IAM)Documentation AWS ↗
Permissions au niveau du projet et de la ressource pour chaque service de données, incluant l'accès granulaire BigQuery au niveau des lignes, des colonnes et basé sur les étiquettes de politique.
Pourquoi il est à l'examen : Les questions de gouvernance PDE sur l'accès à moindre privilège aux jeux de données BigQuery, aux buckets Cloud Storage et aux rubriques Pub/Sub renvoient toutes aux liaisons et conditions IAM.
Cloud KMSDocumentation AWS ↗
Clés cryptographiques gérées avec des clés de chiffrement gérées par le client (CMEK) pour BigQuery, Cloud Storage, Pub/Sub, Dataflow et Spanner, plus Cloud HSM et des options de clés externes.
Pourquoi il est à l'examen : Le chiffrement au repos avec CMEK est la réponse canonique du PDE pour protéger les données analytiques réglementées, la rotation des clés et les entrepôts multi-équipes isolés par locataire.
DataplexDocumentation AWS ↗
Fabric de données unifié pour cataloguer, classer, sécuriser et surveiller les données à travers BigQuery, Cloud Storage et les sources externes, avec lignage et qualité des données intégrés.
Pourquoi il est à l'examen : Les scénarios de gouvernance et de qualité des données PDE désignent Dataplex comme la couche de catalogue/lignage native GCP pour le lac + entrepôt, remplaçant Data Catalog autonome.
Cloud Logging + Cloud MonitoringDocumentation AWS ↗
Observabilité unifiée pour les exécutions de pipeline, les métriques de job BigQuery, la mise à l'échelle automatique des workers Dataflow, le backlog Pub/Sub et l'alerte basée sur les SLO via les politiques Cloud Monitoring.
Pourquoi il est à l'examen : La Maintenance et l'automatisation des charges de travail attend Cloud Logging + Cloud Monitoring pour les alertes d'échec de job, les tableaux de bord d'utilisation des slots et la rétention des logs d'audit.

Impact sur la carrière

Rôles typiques

Ingénieur de données senior (GCP)
Ingénieur BigQuery / Analytique
Ingénieur de données en streaming
Ingénieur de plateforme de données
Ingénieur de données ML
Responsable technique, plateforme de données
Ingénieur de données principal

Fourchette de salaires (É.-U., approximatif)

$140k–$195k–$290k USD annuel

La fourchette reflète les ingénieurs de données seniors basés aux États-Unis où GCP est la plateforme principale. La rémunération totale (TC) d'un ingénieur de données FAANG L5 dépasse les 300 000 $. Le PDE est constamment cité comme l'une des certifications de données uniques les mieux rémunérées selon les fourchettes de salaires des offres d'emploi ; combiné à une solide expérience Apache Beam / Dataflow, il commande une prime dans les entreprises centrées sur GCP. Les rôles d'ingénieur-analyste pur tendent à être moins bien rémunérés.

Source : levels.fyi 2025–2026 (ingénieurs de données Google L4–L5, ingénieurs de données seniors FAANG et licornes), U.S. BLS OEWS May 2024 (15-2051 data scientists, 15-1252 software developers). Les chiffres sont approximatifs ; la rémunération réelle dépend du rôle, de la région et de l'expérience.

Demande du marché

Le PDE est la certification de données GCP la plus demandée et l'un des signaux les plus forts pour les rôles d'ingénieurs de données seniors dans les entreprises fortement utilisatrices de GCP. Forte demande chez les entreprises nativement numériques utilisant GCP (Spotify, Snap, PayPal, Wayfair, plusieurs grands détaillants et entreprises d'ad-tech), les organisations d'analyse centrées sur BigQuery et les partenaires Google Cloud ayant des pratiques en matière de données. Le certificat est également valorisé chez Google même pour les spécialistes des données en ingénierie client. Le PDE s'associe naturellement à la certification Professional ML Engineer (PMLE) pour un profil "données + ML" de bout en bout, et à la certification Cloud Architect (PCA) pour un profil d'ingénierie senior plus large. Les titulaires signalent constamment une forte réponse des recruteurs.

Prérequis et parcours recommandé

Il n'y a pas de prérequis formels. Google recommande trois ans ou plus d'expérience professionnelle, dont au moins un an de conception et de gestion de solutions sur Google Cloud. En pratique, le PDE n'est pas une première certification GCP crédible pour quelqu'un de nouveau dans le domaine des données — les candidats retenus ont déployé des pipelines non triviaux et maîtrisent SQL, Python, et ont au moins une familiarité conceptuelle avec Apache Beam.

La certification Associate Cloud Engineer (ACE) est un jalon courant, mais l'Associate Data Practitioner (ADP) est une voie d'accès plus directe pour le contenu spécifique aux données. Une solide maîtrise de SQL (fonctions de fenêtre, CTEs, manipulation d'ARRAY/STRUCT), une aisance avec au moins un langage de programmation pour les pipelines Beam (Python ou Java) et une familiarité avec les concepts de streaming (fenêtrage, filigranes, livraison exactement une fois) sont effectivement requises. Le parcours d'apprentissage officiel Data Engineer sur Google Cloud Skills Boost (environ 50 à 80 heures de laboratoires) est une bonne base.

Difficulté et temps d'étude

Le PDE est classé comme professionnel et est constamment difficile — de nombreux candidats le considèrent comme la deuxième certification GCP la plus difficile après PCA / PCNE, principalement en raison du contenu lié au streaming et à Dataflow / Apache Beam. Prévoyez 100 à 150 heures d'étude sur 10 à 14 semaines si le PDE est votre première certification professionnelle GCP, ou 50 à 80 heures sur 5 à 8 semaines si vous détenez déjà ACE / ADP et avez de l'expérience en ingénierie de données en production. L'examen comprend 50 à 60 questions à choix multiples / à sélection multiple en 120 minutes, administré via Pearson VUE (Google a migré de Kryterion / Webassessor début 2026 — pas d'examens du 23 février au 1er mars 2026 ; première livraison Pearson le 2 mars 2026).

Le principal obstacle est le streaming Dataflow — les stratégies de fenêtrage (fixes, glissantes, de session), les filigranes, les données en retard et la sémantique exactement une fois représentent une part disproportionnée des tentatives échouées. Le deuxième obstacle est le choix entre BigQuery, Bigtable, Spanner et Cloud SQL pour les scénarios de stockage où plusieurs options sont techniquement viables. Google ne publie pas de scores numériques — seulement réussi/échoué. La certification est valide pendant deux ans et la recertification nécessite de repasser l'examen actuel.

Historique des versions de l'examen

Professional Data Engineer2023-03
Guide d'examen actuel mis à jour début 2023 pour ajouter la couverture de BigLake, BigQuery Omni, Dataform, Dataplex et Datastream. Intégration étendue des pipelines ML avec Vertex AI.
Professional Data Engineer2020-04
Mise à jour majeure qui a rééquilibré les domaines de stockage et de traitement et ajouté la couverture de Pub/Sub Lite et Dataflow Prime.
Professional Data Engineer2017-03
Disponibilité générale originale — l'une des trois premières certifications professionnelles Google Cloud.

Questions fréquemment posées

Quelle est la difficulté de l'examen PDE ?

PDE (Google Cloud Professional Data Engineer) est un examen de niveau Professional un examen exigeant, riche en scénarios, qui requiert une expérience pratique approfondie et la capacité de prendre des décisions d'arbitrage architectural. La plupart des candidats ont besoin de 150 à 300 heures d'étude réparties sur 3 à 6 mois pour les examens de niveau professionnel et expert. Ces examens exigent généralement une compétence préalable de niveau associé. La plupart des candidats qui obtiennent des scores constamment supérieurs au seuil de réussite lors des examens pratiques réussissent dès leur première tentative.

Combien de temps faut-il étudier pour le PDE ?

La plupart des candidats ont besoin de 150 à 300 heures d'étude réparties sur 3 à 6 mois pour les examens de niveau professionnel et expert. Ces examens exigent généralement une compétence préalable de niveau associé. Le temps nécessaire pour réussir varie considérablement en fonction de l'expérience antérieure. Les ingénieurs ayant une expérience pratique en production avec la technologie sous-jacente en ont généralement besoin de moins ; les candidats novices sur la plateforme devraient viser la limite supérieure de cette fourchette.

La certification PDE en vaut-elle la peine ?

PDE est une certification reconnue dans l'écosystème GCP et signale des connaissances validées aux employeurs, recruteurs et clients. Sa valeur en termes de temps et de coût dépend de votre rôle et de vos objectifs — elle est la plus avantageuse pour les ingénieurs cloud, architectes et consultants qui travaillent quotidiennement avec GCP ou souhaitent évoluer vers des rôles similaires.

Quel est le score de réussite pour l'examen PDE ?

Le score de réussite pour le PDE est de Non publié. L'examen contient 50 questions et dure 2 h.

Combien coûte l'examen PDE ?

Les frais d'examen PDE sont de $200 USD. Les frais sont fixés par GCP et peuvent varier selon la région ; confirmez toujours le prix actuel sur la page de certification officielle de GCP avant de réserver.

Combien de temps la certification PDE est-elle valide ?

Les certifications Google Cloud Professional sont valides pendant 2 ans. Recertifiez-vous en repassant la version actuelle de l'examen.

Puis-je passer le PDE en ligne ?

Oui. Vous pouvez passer l'examen en ligne (supervisé via le navigateur sécurisé du fournisseur, disponible 24h/24 et 7j/7 dans la plupart des régions) ou dans un centre de test Pearson VUE en personne pendant les heures ouvrables. Les deux formats utilisent les mêmes questions, la même limite de temps et le même score de réussite.

Combien de questions contient l'examen pratique PDE sur CertLabPro ?

CertLabPro propose 15 modes d'étude à travers la banque de questions pratiques pour le PDE. Le mode de simulation d'examen reproduit l'examen réel : 50 questions en 2 h, avec le même seuil de réussite de Non publié. Le mode navigation vous permet de lire chaque Q&A de manière statique.

Guides d'étude associés

Certifications connexes

DEA-C01

AWS Certified Data Engineer Associate

Associate

DP-700

Microsoft Fabric Data Engineer Associate

Associate

PCA

Google Cloud Professional Cloud Architect

Professional

PCD

Google Cloud Professional Cloud Developer

Professional

GCP

PDE

Google Cloud Professional Data Engineer

225 questions de pratique

Dernière révision : April 2026

Domaines de l'Examen

Designing data processing systems22%

Ingesting and processing the data25%

Storing the data20%

Preparing and using data for analysis15%

Maintaining and automating data workloads18%

ℹ️

Infos examen

Inscription, frais, déroulement et règles

→

📝

Mode Examen

50 questions aléatoires
Compte à rebours de 120 minutes
Score à la fin (réussite: 750/1000)
Simule l'examen réel

📘

Guide

Modèles scénario → solution
Groupé par domaine d'examen
Complet et gratuit sur le web et le mobile
Pure référence — sans questions, sans score

📚

Mode Pratique

Toutes les 225 questions
Pas de limite de temps
Feedback instantané après chaque réponse
Apprenez à votre rythme

📑

Mode Navigation

Toutes les 225 questions sur une page
Réponses et explications visibles
Révision rapide avant l'examen
Faites défiler tout

🌿

Mode Zen

Une question à la fois
Glissez ou utilisez les flèches
Option de mélange disponible
Étude détendue style flashcard

⚡

Time Attack

Commencez avec 60 secondes
+10s pour bonne réponse
-5s pour mauvaise réponse
Battez votre record

❤️

Survie

Temps illimité
Fin de partie à la première erreur
Construisez votre série
Testez votre cohérence

⚩

Mode Blitz

15 secondes par question
Bonus pour réponses rapides
Multiplicateur de série (2x, 3x...)
Test de vitesse style arcade

🏃

Mode Sprint

Chronomètre ascendant
Obtenez 10/25/50 bonnes réponses d'affilée
Mauvaise réponse réinitialise votre série
Battez votre meilleur temps personnel

🎓

Mode Flashcard

Question seule, sans options
Touchez pour révéler la réponse
Évaluez : Je savais / Partiellement / Je ne savais pas
Les questions faibles réapparaissent plus tôt

📚

Mode Bachotage

Priorise les questions non vues en premier
Puis les questions que vous avez ratées
Feedback instantané après chaque réponse
Suivez votre couverture totale

🔥

Défi de Série

Pas de pression de temps
Suivez votre plus longue série
Mauvaise réponse remet à zéro
Battez votre record personnel

💪

Maillon Faible

Uniquement les questions que vous avez ratées
Répondez correctement 3 fois pour maîtriser
Suivez le progrès de maîtrise
Éliminez vos points faibles

📅

Révision SRS

Révision quotidienne par répétition espacée
Questions planifiées à intervalles optimaux
Évaluez : Encore / Difficile / Bien / Facile
Construisez votre série de révision quotidienne

🛠️

Atelier pratique

Terraform simple / OpenTofu
Chaque bloc expliqué
Copier-coller dans votre terminal
Lié aux domaines de l'examen

📝

Notes d'Étude

Notes personnelles et liens de ressources pour votre parcours d'étude

📅

Calendrier d'Activité

Filtrer par Certification

Aperçu