Google Cloud Professional Data Engineer
225 Übungsfragen
Zuletzt überprüft: April 2026
Persönliche Notizen und Ressourcenlinks für Ihre Lernreise
Nach Zertifizierung Filtern
Der Google Cloud Professional Data Engineer (PDE) bestätigt die Fähigkeit, Datenverarbeitungssysteme in Google Cloud zu entwerfen, zu erstellen, zu sichern und zu betreiben. Die Prüfung ist eine der beliebteren GCP Professional-Zertifizierungen und zählt durchweg zu den bestbezahlten einzelnen Datenzertifizierungen auf dem Markt. Erwarten Sie eine umfassende Abdeckung von BigQuery (Partitionierung, Clustering, materialisierte Ansichten, BI Engine, BigLake, Omni), Dataflow (Apache Beam Batch- und Streaming-Verarbeitung, Windowing, Watermarks), Pub/Sub, Dataproc, Cloud Composer (verwaltetes Airflow), Dataform, Dataplex, Datastream und Vertex AI-Integration für ML-Pipelines. Die Fragen sind stark szenariobasiert und belohnen Kandidaten, die gleichzeitig Kosten, Latenz, Aktualität und Kompromisse bei der Schema-Evolution berücksichtigen.
Quellsystemanalyse, Data-Warehouse vs. Data-Lake vs. Lakehouse-Design, Schema-Modellierung für BigQuery (denormalisiert, verschachtelt, ARRAY/STRUCT), Auswahl des richtigen Speichers (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Größter Bereich mit 25%. Pub/Sub-Muster, Dataflow Batch- und Streaming-Verarbeitung mit Apache Beam (Windowing, Trigger, Watermarks, Exactly-once-Semantik), Dataproc Spark-Jobs, Datastream CDC, Storage Transfer Service.
BigQuery Partitionierung und Clustering, materialisierte Ansichten, BI Engine, BigLake externe Tabellen, Schnappschüsse auf Tabellenebene und Zeitreise, Bigtable Schema-Design, Cloud Storage Klassenübergänge. 20%.
BigQuery SQL (Fensterfunktionen, ARRAY/STRUCT-Manipulation, Suchindizes), BigQuery ML, Looker Grundlagen des semantischen Modells, föderierte Abfragen an Cloud SQL / Spanner / Cloud Storage, Vertex AI-Integration. 15%.
Cloud Composer DAGs, Dataform-Workflows, BigQuery geplante Abfragen, Slot-Reservierungen und On-Demand-Preise, Überwachung mit Cloud Monitoring, IAM auf Dataset- / Tabellen- / Spalten- / Zeilenebene. 18%.
Services, die Sie in der Prüfung antreffen, und warum jeder davon wichtig ist.
Serverloses spaltenbasiertes Data Warehouse mit getrennter Speicherung/Berechnung, On-Demand- und Reservierungs-Slots, BigQuery ML für In-Warehouse-Modellierung und materialisierten Views für inkrementelle Aggregationen.
Warum er in der Prüfung steht: BigQuery ist die wichtigste Analyseoberfläche in allen fünf PDE-Domänen – Partitionierung, Clustering, Slot-Reservierungen und Abfrageoptimierung dominieren die Prüfung.
Objektspeicher, der den GCP-Data Lake verankert – Landing/Curated/Consumption Zones, Multi-Region- und Dual-Region-Buckets, Lifecycle-Richtlinien und Quelle für jeden nachgelagerten Analysedienst.
Warum er in der Prüfung steht: Jedes PDE-Speicher- und Ingestionsszenario setzt Cloud Storage als Substrat voraus; Speicherkassen, Aufbewahrungsrichtlinien und Signed-URL-Zugriffsmuster bestimmen Fragen zum Speichern von Daten.
Vollständig verwalteter Apache Beam Runner für vereinheitlichte Streaming- und Batch-Pipelines, mit Autoscaling-Workern, Streaming Engine und Flex Templates für wiederholbare Bereitstellungen.
Warum er in der Prüfung steht: Dataflow ist die kanonische Antwort im Bereich Erfassen und Verarbeiten – Fragen zu Windowing, Triggern, Exactly-Once-Semantik und Abwägungen zwischen Streaming und Batch landen alle hier.
Verwaltete Spark-, Hadoop-, Hive-, Presto- und Flink-Cluster mit ephemeralem Autoscaling, Dataproc Serverless für Batch Spark und Spark-on-GKE für gemeinsame Infrastruktur.
Warum er in der Prüfung steht: Die PDE erwartet Dataproc als Migrationsziel für bestehende Spark-/Hadoop-Workloads – kurzlebige vs. langlebige Instanzen, Autoscaling-Richtlinien und Dataproc-vs-Dataflow-Entscheidungen erscheinen im Bereich Entwerfen von Datenverarbeitungssystemen.
Global verteilter Messaging-Dienst für asynchrone Aufnahme, mit At-Least-Once-Zustellung, Ordering Keys, Dead-Letter-Topics und Pub/Sub Lite für kostenoptimierte regionale Streams.
Warum er in der Prüfung steht: Pub/Sub ist die Standard-Streaming-Aufnahmeoberfläche im Bereich Erfassen und Verarbeiten – Zustellsemantik, Abonnementtypen und Backlog-Verhalten sind wiederkehrende Prüfungsthemen.
Verwalteter Apache Airflow-Dienst zur Orchestrierung von dienstübergreifenden DAGs, die BigQuery, Dataflow, Dataproc und externe Systeme umfassen, mit Composer 2, der auf GKE Autopilot läuft.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads testet DAG-Muster, Wiederholungsversuche und SLA-Überwachung – Composer ist der namentlich genannte Orchestrator in der PDE im Gegensatz zu Workflows für einfachere Ketten.
Global verteilte relationale Datenbank mit starker Konsistenz, horizontaler Skalierung und SQL – wird als operatives System of Record verwendet, das Analyse-Pipelines speist.
Warum er in der Prüfung steht: PDE-Speicherfragen unterscheiden OLTP (Spanner) von OLAP (BigQuery) und fragen, wann föderierte Spanner-Abfragen aus BigQuery eine CDC-Pipeline übertreffen.
Wide-Column-NoSQL-Dienst mit Lesezugriffen im einstelligen Millisekundenbereich bei Petabyte-Skalierung, optimiert für Zeitreihen- und IoT-Workloads mit HBase API-Kompatibilität.
Warum er in der Prüfung steht: Der Bereich Entwerfen von Datenverarbeitungssystemen testet das Row-Key-Design, Hotspotting und SSD-vs-HDD-Abwägungen – Bigtable ist die GCP-Antwort, wenn analytische Lesevorgänge mit geringer Latenz erforderlich sind.
Verwaltetes PostgreSQL, MySQL und SQL Server mit automatischen Backups, Lesereplikaten und Hochverfügbarkeit – die relationale Quelle für viele Ingestions-Pipelines.
Warum er in der Prüfung steht: Cloud SQL erscheint in den Bereichen Erfassen und Speichern als vorgelagerte OLTP-Datenbank, deren Änderungen BigQuery über Datastream oder geplante Batch-Exporte speisen.
Serverlose Dokumentdatenbank mit Echtzeit-Listenern, ACID-Transaktionen und globaler Replikation im Enterprise-Modus – unterstützt die Erfassung von Ereignissen auf Anwendungsebene.
Warum er in der Prüfung steht: PDE-Speicherszenarien wählen Firestore für App-Tier-Schreibvorgänge mit geringer Latenz, die anschließend über Eventarc oder Pub/Sub in BigQuery fließen.
Einheitliche Speichermaschine, die Cloud Storage und externe (S3, ADLS) Daten als regulierte BigQuery-Tabellen mit feingranularer Zugriffssteuerung und Apache Iceberg-Unterstützung verfügbar macht.
Warum er in der Prüfung steht: BigLake ist die Lakehouse-Antwort im Bereich Speichern von Daten – es unterscheidet die Föderation externer Tabellen von der nativen BigQuery-Speicherung und ermöglicht Multi-Cloud-Analysen.
Serverloser Change-Data-Capture-Dienst, der MySQL, PostgreSQL, Oracle und SQL Server mit geringer Latenz in BigQuery, Cloud Storage oder Cloud SQL repliziert.
Warum er in der Prüfung steht: Der Bereich Erfassen und Verarbeiten testet CDC-Muster; Datastream ist die GCP-native Antwort für die logbasierte Replikation in das Warehouse ohne benutzerdefinierte Debezium-Implementierung.
Verwaltete CDAP-basierte visuelle ETL-Plattform mit über 150 Konnektoren und einem codefreien Pipeline-Designer, der im Hintergrund zu Dataproc kompiliert wird.
Warum er in der Prüfung steht: Die PDE erwartet Data Fusion, wenn eine Frage ein Low-Code-visuelles ETL mit breiter Konnektorabdeckung gegenüber handgeschriebenem Beam in Dataflow bevorzugt.
BigQuery-nativer SQL-Workflow-Dienst mit Versionskontrolle, Abhängigkeitsgraphen, Assertions und inkrementellen Tabellenmaterialisierungen – analog zu dbt innerhalb von GCP.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren testet In-Warehouse-Transformationsmuster; Dataform ist die kanonische SQL-Orchestrierungsantwort für BigQuery-zentriertes ELT.
Visueller Datenaufbereitungsdienst zum Erkunden, Bereinigen und Transformieren strukturierter/semistrukturierter Daten mit intelligenten Vorschlägen und Rezeptexport.
Warum er in der Prüfung steht: Der Bereich Vorbereiten und Nutzen von Daten für die Analyse nennt Dataprep als No-Code-Pfad für die Analysten-gesteuerte Datenformung vor der BigQuery-Nutzung.
Verwalteter Dienst zum Erkennen, Klassifizieren und De-Identifizieren von PII über BigQuery, Cloud Storage und Datastore hinweg, unter Verwendung von Inspektionsvorlagen und Transformationsjobs.
Warum er in der Prüfung steht: PDE-Governance-Szenarien zitieren Sensitive Data Protection für das Maskieren, Tokenisieren oder Redigieren von PII, bevor Daten in gemeinsamen Analyseebenen landen.
Projekt- und ressourcenbezogene Berechtigungen für jeden Datendienst, einschließlich BigQuery zeilen-, spalten- und richtlinien-tag-basierter feingranularer Zugriffskontrolle.
Warum er in der Prüfung steht: PDE-Governance-Fragen zum Least-Privilege-Zugriff auf BigQuery-Datasets, Cloud Storage-Buckets und Pub/Sub-Topics beziehen sich alle auf IAM-Bindungen und -Bedingungen.
Verwaltete kryptografische Schlüssel mit kundenseitig verwalteten Verschlüsselungsschlüsseln (CMEK) für BigQuery, Cloud Storage, Pub/Sub, Dataflow und Spanner, zuzüglich Cloud HSM und externen Schlüsseloptionen.
Warum er in der Prüfung steht: Verschlüsselung im Ruhezustand mit CMEK ist die kanonische PDE-Antwort für den Schutz regulierter Analysedaten, Schlüsselrotation und mandantenisolierte Multi-Team-Warehouses.
Einheitliche Datenplattform für die Katalogisierung, Klassifizierung, Sicherung und Überwachung von Daten über BigQuery, Cloud Storage und externe Quellen hinweg, mit integrierter Datenherkunft und -qualität.
Warum er in der Prüfung steht: PDE-Governance- und Datenqualitäts-Szenarien nennen Dataplex als die GCP-native Katalog-/Lineage-Schicht für Lake + Warehouse, die den eigenständigen Data Catalog ersetzt.
Einheitliche Observability für Pipeline-Läufe, BigQuery-Job-Metriken, Dataflow-Worker-Autoscaling, Pub/Sub-Backlog und SLO-basiertes Alerting über Cloud Monitoring-Richtlinien.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads erwartet Cloud Logging + Cloud Monitoring für Job-Fehleralarme, Slot-Auslastungs-Dashboards und die Aufbewahrung von Audit-Logs.
$140k–$195k–$290k USD jährlich
Die Spanne spiegelt US-basierte Senior Data Engineers wider, bei denen GCP die primäre Plattform ist. FAANG L5 Data Engineers erreichen eine Gesamtvergütung von über 300.000 $. PDE wird in Stellenanzeigen durchweg als eine der bestbezahlten einzelnen Datenzertifizierungen genannt; in Kombination mit ausgeprägter Apache Beam / Dataflow-Erfahrung ist sie in GCP-Umgebungen sehr gefragt. Reine Analyst-Engineer-Rollen tendieren zu niedrigeren Gehältern.
Quelle: levels.fyi 2025–2026 (Google L4–L5 data engineers, FAANG und Unicorn Senior Data Engineers), U.S. BLS OEWS Mai 2024 (15-2051 data scientists, 15-1252 software developers). Die Zahlen sind ungefähr; die tatsächliche Vergütung hängt von der Rolle, der Region und der Erfahrung ab.
Der PDE ist die meistgefragte GCP-Datenzertifizierung und eines der stärksten Signale für Senior Data Engineer-Rollen in GCP-lastigen Unternehmen. Hohe Nachfrage besteht bei Digital-Native GCP-Shops (Spotify, Snap, PayPal, Wayfair, mehreren großen Einzelhändlern und Ad-Tech-Unternehmen), BigQuery-zentrierten Analyseorganisationen und Google Cloud-Partnern mit Datenpraxis. Die Zertifizierung wird auch bei Google selbst für Customer Engineering Data Specialists geschätzt. PDE passt hervorragend zum Professional ML Engineer (PMLE) für ein End-to-End "Daten + ML"-Profil und zum Cloud Architect (PCA) für ein breiteres Senior-Engineering-Profil. Zertifikatsinhaber berichten durchweg von einer starken Resonanz von Personalvermittlern.
Es gibt keine formalen Voraussetzungen. Google empfiehlt drei oder mehr Jahre Branchenerfahrung, davon mindestens ein Jahr im Entwurf und Management von Lösungen in Google Cloud. In der Praxis ist der PDE keine glaubwürdige erste GCP-Zertifizierung für jemanden, der neu im Bereich Daten ist – erfolgreiche Kandidaten haben bereits nicht-triviale Pipelines implementiert und verfügen über fundierte Kenntnisse in SQL, Python sowie zumindest konzeptionelle Vertrautheit mit Apache Beam.
Der Associate Cloud Engineer (ACE) ist ein üblicher erster Schritt, aber der Associate Data Practitioner (ADP) ist ein direkterer Einstieg für die datenspezifischen Inhalte. Fundierte SQL-Kenntnisse (Fensterfunktionen, CTEs, ARRAY/STRUCT-Manipulation), Vertrautheit mit mindestens einer Programmiersprache für Beam-Pipelines (Python oder Java) und Kenntnisse von Streaming-Konzepten (Windowing, Watermarks, Exactly-once-Delivery) sind de facto erforderlich. Der offizielle Data Engineer Lernpfad auf Google Cloud Skills Boost (ca. 50–80 Stunden Labs) ist eine gute Grundlage.
Der PDE wird als "Professional" eingestuft und ist durchweg anspruchsvoll — viele Kandidaten bewerten ihn nach PCA / PCNE als die zweitschwierigste GCP-Zertifizierung, hauptsächlich wegen der Streaming- und Dataflow / Apache Beam-Inhalte. Planen Sie 100–150 Stunden Lernzeit über 10–14 Wochen ein, wenn der PDE Ihre erste GCP Professional-Zertifizierung ist, oder 50–80 Stunden über 5–8 Wochen, wenn Sie bereits ACE / ADP besitzen und über Produktionserfahrung im Data Engineering verfügen. Die Prüfung besteht aus 50–60 Multiple-Choice- / Multiple-Select-Fragen in 120 Minuten und wird über Pearson VUE abgelegt (Google migrierte Anfang 2026 von Kryterion / Webassessor — keine Prüfungen vom 23. Februar bis 1. März 2026; erste Pearson-Abnahme am 2. März 2026).
Die häufigste Hürde ist Dataflow Streaming — Windowing-Strategien (fixed, sliding, session), Watermarks, verspätete Daten und Exactly-once-Semantik machen einen überproportionalen Anteil der Fehlversuche aus. Die zweite Hürde ist die Wahl zwischen BigQuery, Bigtable, Spanner und Cloud SQL für Speicherszenarien, bei denen mehrere Optionen technisch machbar sind. Google veröffentlicht keine numerischen Ergebnisse — nur Bestanden/Nicht bestanden. Die Zertifizierung ist zwei Jahre gültig und eine Rezertifizierung erfordert das erneute Bestehen der aktuellen Prüfung.
Der aktuelle Prüfungsleitfaden wurde Anfang 2023 aktualisiert, um BigLake, BigQuery Omni, Dataform, Dataplex und Datastream aufzunehmen. Erweiterte ML-Pipeline-Integration mit Vertex AI.
Große Aktualisierung, die die Speicher- und Verarbeitungsdomänen neu ausbalancierte und Pub/Sub Lite sowie Dataflow Prime hinzufügte.
Ursprüngliche allgemeine Verfügbarkeit — eine der ersten drei Google Cloud Professional-Zertifizierungen.
PDE (Google Cloud Professional Data Engineer) ist eine eine anspruchsvolle, szenariobasierte Prüfung, die tiefe praktische Erfahrung und die Fähigkeit erfordert, architektonische Kompromissentscheidungen zu treffen Professional-Level-Prüfung. Die meisten Kandidaten benötigen 150–300 Stunden Lernzeit, verteilt über 3–6 Monate, für Prüfungen auf Professional- und Expertenniveau. Diese Prüfungen setzen in der Regel eine vorherige Associate-Level-Kompetenz voraus. Die meisten Kandidaten, die bei Übungsprüfungen konstant über der Bestehensschwelle liegen, bestehen beim ersten Versuch.
Die meisten Kandidaten benötigen 150–300 Stunden Lernzeit, verteilt über 3–6 Monate, für Prüfungen auf Professional- und Expertenniveau. Diese Prüfungen setzen in der Regel eine vorherige Associate-Level-Kompetenz voraus. Die benötigte Zeit bis zum Bestehen variiert stark je nach Vorerfahrung. Ingenieure mit praktischer Produktionserfahrung in der zugrunde liegenden Technologie benötigen in der Regel weniger; Kandidaten, die neu auf der Plattform sind, sollten sich am oberen Ende dieses Bereichs orientieren.
PDE ist ein anerkanntes Zeugnis im GCP-Ökosystem und signalisiert Arbeitgebern, Personalvermittlern und Kunden validiertes Wissen. Ob es sich für Sie lohnt, hängt von Ihrer Rolle und Ihren Zielen ab – es zahlt sich am meisten für Cloud-Ingenieure, Architekten und Berater aus, die täglich mit GCP arbeiten oder in solche Rollen wechseln möchten.
Die Bestehensgrenze für PDE beträgt Nicht veröffentlicht. Die Prüfung enthält 50 Fragen und dauert 2 Std.
Die Prüfungsgebühr für PDE beträgt $200 USD. Die Gebühren werden von GCP festgelegt und können je nach Region variieren; bestätigen Sie immer den aktuellen Preis auf der offiziellen GCP Zertifizierungsseite, bevor Sie buchen.
Google Cloud Professional-Zertifizierungen sind 2 Jahre gültig. Rezertifizieren Sie sich, indem Sie die aktuelle Version der Prüfung erneut bestehen.
Ja. Sie können die Prüfung online (über den sicheren Browser des Anbieters, in den meisten Regionen rund um die Uhr verfügbar) oder in einem persönlichen Pearson VUE Testzentrum während der Geschäftszeiten ablegen. Beide Formate verwenden die gleichen Fragen, Zeitlimits und Bestehensgrenzen.
CertLabPro bietet 15 Lernmodi für die Übungsfragenbank für PDE. Der Prüfungssimulationsmodus bildet die echte Prüfung ab: 50 Fragen in 2 Std, mit der gleichen Bestehensschwelle von Nicht veröffentlicht. Im Browsing-Modus können Sie jede Frage und Antwort statisch lesen.