Ihr Unternehmen verarbeitet täglich 10 TB an Protokolldaten, die innerhalb von 1 Stunde nach Eingang analysiert werden müssen. Die Daten treffen kontinuierlich aus verschiedenen Quellen ein. Welche Architektur sollten Sie verwenden?

Der Google Cloud Professional Data Engineer (PDE) bestätigt die Fähigkeit, Datenverarbeitungssysteme in Google Cloud zu entwerfen, zu erstellen, zu sichern und zu betreiben. Die Prüfung ist eine der beliebteren GCP Professional-Zertifizierungen und zählt durchweg zu den bestbezahlten einzelnen Datenzertifizierungen auf dem Markt. Erwarten Sie eine umfassende Abdeckung von BigQuery (Partitionierung, Clustering, materialisierte Ansichten, BI Engine, BigLake, Omni), Dataflow (Apache Beam Batch- und Streaming-Verarbeitung, Windowing, Watermarks), Pub/Sub, Dataproc, Cloud Composer (verwaltetes Airflow), Dataform, Dataplex, Datastream und Vertex AI-Integration für ML-Pipelines. Die Fragen sind stark szenariobasiert und belohnen Kandidaten, die gleichzeitig Kosten, Latenz, Aktualität und Kompromisse bei der Schema-Evolution berücksichtigen.

Prüfungsbereiche

Designing data processing systems22%
Quellsystemanalyse, Data-Warehouse vs. Data-Lake vs. Lakehouse-Design, Schema-Modellierung für BigQuery (denormalisiert, verschachtelt, ARRAY/STRUCT), Auswahl des richtigen Speichers (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Ingesting and processing the data25%
Größter Bereich mit 25%. Pub/Sub-Muster, Dataflow Batch- und Streaming-Verarbeitung mit Apache Beam (Windowing, Trigger, Watermarks, Exactly-once-Semantik), Dataproc Spark-Jobs, Datastream CDC, Storage Transfer Service.
Storing the data20%
BigQuery Partitionierung und Clustering, materialisierte Ansichten, BI Engine, BigLake externe Tabellen, Schnappschüsse auf Tabellenebene und Zeitreise, Bigtable Schema-Design, Cloud Storage Klassenübergänge. 20%.
Preparing and using data for analysis15%
BigQuery SQL (Fensterfunktionen, ARRAY/STRUCT-Manipulation, Suchindizes), BigQuery ML, Looker Grundlagen des semantischen Modells, föderierte Abfragen an Cloud SQL / Spanner / Cloud Storage, Vertex AI-Integration. 15%.
Maintaining and automating data workloads18%
Cloud Composer DAGs, Dataform-Workflows, BigQuery geplante Abfragen, Slot-Reservierungen und On-Demand-Preise, Überwachung mit Cloud Monitoring, IAM auf Dataset- / Tabellen- / Spalten- / Zeilenebene. 18%.

Google Cloud-Services in dieser Prüfung

Services, die Sie in der Prüfung antreffen, und warum jeder davon wichtig ist.

Kerndienste

BigQueryAWS-Dokumentation ↗
Serverloses spaltenbasiertes Data Warehouse mit getrennter Speicherung/Berechnung, On-Demand- und Reservierungs-Slots, BigQuery ML für In-Warehouse-Modellierung und materialisierten Views für inkrementelle Aggregationen.
Warum er in der Prüfung steht: BigQuery ist die wichtigste Analyseoberfläche in allen fünf PDE-Domänen – Partitionierung, Clustering, Slot-Reservierungen und Abfrageoptimierung dominieren die Prüfung.
Cloud StorageAWS-Dokumentation ↗
Objektspeicher, der den GCP-Data Lake verankert – Landing/Curated/Consumption Zones, Multi-Region- und Dual-Region-Buckets, Lifecycle-Richtlinien und Quelle für jeden nachgelagerten Analysedienst.
Warum er in der Prüfung steht: Jedes PDE-Speicher- und Ingestionsszenario setzt Cloud Storage als Substrat voraus; Speicherkassen, Aufbewahrungsrichtlinien und Signed-URL-Zugriffsmuster bestimmen Fragen zum Speichern von Daten.
DataflowAWS-Dokumentation ↗
Vollständig verwalteter Apache Beam Runner für vereinheitlichte Streaming- und Batch-Pipelines, mit Autoscaling-Workern, Streaming Engine und Flex Templates für wiederholbare Bereitstellungen.
Warum er in der Prüfung steht: Dataflow ist die kanonische Antwort im Bereich Erfassen und Verarbeiten – Fragen zu Windowing, Triggern, Exactly-Once-Semantik und Abwägungen zwischen Streaming und Batch landen alle hier.
DataprocAWS-Dokumentation ↗
Verwaltete Spark-, Hadoop-, Hive-, Presto- und Flink-Cluster mit ephemeralem Autoscaling, Dataproc Serverless für Batch Spark und Spark-on-GKE für gemeinsame Infrastruktur.
Warum er in der Prüfung steht: Die PDE erwartet Dataproc als Migrationsziel für bestehende Spark-/Hadoop-Workloads – kurzlebige vs. langlebige Instanzen, Autoscaling-Richtlinien und Dataproc-vs-Dataflow-Entscheidungen erscheinen im Bereich Entwerfen von Datenverarbeitungssystemen.
Pub/SubAWS-Dokumentation ↗
Global verteilter Messaging-Dienst für asynchrone Aufnahme, mit At-Least-Once-Zustellung, Ordering Keys, Dead-Letter-Topics und Pub/Sub Lite für kostenoptimierte regionale Streams.
Warum er in der Prüfung steht: Pub/Sub ist die Standard-Streaming-Aufnahmeoberfläche im Bereich Erfassen und Verarbeiten – Zustellsemantik, Abonnementtypen und Backlog-Verhalten sind wiederkehrende Prüfungsthemen.
Cloud ComposerAWS-Dokumentation ↗
Verwalteter Apache Airflow-Dienst zur Orchestrierung von dienstübergreifenden DAGs, die BigQuery, Dataflow, Dataproc und externe Systeme umfassen, mit Composer 2, der auf GKE Autopilot läuft.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads testet DAG-Muster, Wiederholungsversuche und SLA-Überwachung – Composer ist der namentlich genannte Orchestrator in der PDE im Gegensatz zu Workflows für einfachere Ketten.
Cloud SpannerAWS-Dokumentation ↗
Global verteilte relationale Datenbank mit starker Konsistenz, horizontaler Skalierung und SQL – wird als operatives System of Record verwendet, das Analyse-Pipelines speist.
Warum er in der Prüfung steht: PDE-Speicherfragen unterscheiden OLTP (Spanner) von OLAP (BigQuery) und fragen, wann föderierte Spanner-Abfragen aus BigQuery eine CDC-Pipeline übertreffen.
Cloud BigtableAWS-Dokumentation ↗
Wide-Column-NoSQL-Dienst mit Lesezugriffen im einstelligen Millisekundenbereich bei Petabyte-Skalierung, optimiert für Zeitreihen- und IoT-Workloads mit HBase API-Kompatibilität.
Warum er in der Prüfung steht: Der Bereich Entwerfen von Datenverarbeitungssystemen testet das Row-Key-Design, Hotspotting und SSD-vs-HDD-Abwägungen – Bigtable ist die GCP-Antwort, wenn analytische Lesevorgänge mit geringer Latenz erforderlich sind.

Spezialisierte Services

Cloud SQLAWS-Dokumentation ↗
Verwaltetes PostgreSQL, MySQL und SQL Server mit automatischen Backups, Lesereplikaten und Hochverfügbarkeit – die relationale Quelle für viele Ingestions-Pipelines.
Warum er in der Prüfung steht: Cloud SQL erscheint in den Bereichen Erfassen und Speichern als vorgelagerte OLTP-Datenbank, deren Änderungen BigQuery über Datastream oder geplante Batch-Exporte speisen.
FirestoreAWS-Dokumentation ↗
Serverlose Dokumentdatenbank mit Echtzeit-Listenern, ACID-Transaktionen und globaler Replikation im Enterprise-Modus – unterstützt die Erfassung von Ereignissen auf Anwendungsebene.
Warum er in der Prüfung steht: PDE-Speicherszenarien wählen Firestore für App-Tier-Schreibvorgänge mit geringer Latenz, die anschließend über Eventarc oder Pub/Sub in BigQuery fließen.
BigLakeAWS-Dokumentation ↗
Einheitliche Speichermaschine, die Cloud Storage und externe (S3, ADLS) Daten als regulierte BigQuery-Tabellen mit feingranularer Zugriffssteuerung und Apache Iceberg-Unterstützung verfügbar macht.
Warum er in der Prüfung steht: BigLake ist die Lakehouse-Antwort im Bereich Speichern von Daten – es unterscheidet die Föderation externer Tabellen von der nativen BigQuery-Speicherung und ermöglicht Multi-Cloud-Analysen.
DatastreamAWS-Dokumentation ↗
Serverloser Change-Data-Capture-Dienst, der MySQL, PostgreSQL, Oracle und SQL Server mit geringer Latenz in BigQuery, Cloud Storage oder Cloud SQL repliziert.
Warum er in der Prüfung steht: Der Bereich Erfassen und Verarbeiten testet CDC-Muster; Datastream ist die GCP-native Antwort für die logbasierte Replikation in das Warehouse ohne benutzerdefinierte Debezium-Implementierung.
Cloud Data FusionAWS-Dokumentation ↗
Verwaltete CDAP-basierte visuelle ETL-Plattform mit über 150 Konnektoren und einem codefreien Pipeline-Designer, der im Hintergrund zu Dataproc kompiliert wird.
Warum er in der Prüfung steht: Die PDE erwartet Data Fusion, wenn eine Frage ein Low-Code-visuelles ETL mit breiter Konnektorabdeckung gegenüber handgeschriebenem Beam in Dataflow bevorzugt.
DataformAWS-Dokumentation ↗
BigQuery-nativer SQL-Workflow-Dienst mit Versionskontrolle, Abhängigkeitsgraphen, Assertions und inkrementellen Tabellenmaterialisierungen – analog zu dbt innerhalb von GCP.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren testet In-Warehouse-Transformationsmuster; Dataform ist die kanonische SQL-Orchestrierungsantwort für BigQuery-zentriertes ELT.
Dataprep by TrifactaAWS-Dokumentation ↗
Visueller Datenaufbereitungsdienst zum Erkunden, Bereinigen und Transformieren strukturierter/semistrukturierter Daten mit intelligenten Vorschlägen und Rezeptexport.
Warum er in der Prüfung steht: Der Bereich Vorbereiten und Nutzen von Daten für die Analyse nennt Dataprep als No-Code-Pfad für die Analysten-gesteuerte Datenformung vor der BigQuery-Nutzung.
Sensitive Data Protection (Cloud DLP)AWS-Dokumentation ↗
Verwalteter Dienst zum Erkennen, Klassifizieren und De-Identifizieren von PII über BigQuery, Cloud Storage und Datastore hinweg, unter Verwendung von Inspektionsvorlagen und Transformationsjobs.
Warum er in der Prüfung steht: PDE-Governance-Szenarien zitieren Sensitive Data Protection für das Maskieren, Tokenisieren oder Redigieren von PII, bevor Daten in gemeinsamen Analyseebenen landen.

Sicherheit und Governance

Identity and Access Management (IAM)AWS-Dokumentation ↗
Projekt- und ressourcenbezogene Berechtigungen für jeden Datendienst, einschließlich BigQuery zeilen-, spalten- und richtlinien-tag-basierter feingranularer Zugriffskontrolle.
Warum er in der Prüfung steht: PDE-Governance-Fragen zum Least-Privilege-Zugriff auf BigQuery-Datasets, Cloud Storage-Buckets und Pub/Sub-Topics beziehen sich alle auf IAM-Bindungen und -Bedingungen.
Cloud KMSAWS-Dokumentation ↗
Verwaltete kryptografische Schlüssel mit kundenseitig verwalteten Verschlüsselungsschlüsseln (CMEK) für BigQuery, Cloud Storage, Pub/Sub, Dataflow und Spanner, zuzüglich Cloud HSM und externen Schlüsseloptionen.
Warum er in der Prüfung steht: Verschlüsselung im Ruhezustand mit CMEK ist die kanonische PDE-Antwort für den Schutz regulierter Analysedaten, Schlüsselrotation und mandantenisolierte Multi-Team-Warehouses.
DataplexAWS-Dokumentation ↗
Einheitliche Datenplattform für die Katalogisierung, Klassifizierung, Sicherung und Überwachung von Daten über BigQuery, Cloud Storage und externe Quellen hinweg, mit integrierter Datenherkunft und -qualität.
Warum er in der Prüfung steht: PDE-Governance- und Datenqualitäts-Szenarien nennen Dataplex als die GCP-native Katalog-/Lineage-Schicht für Lake + Warehouse, die den eigenständigen Data Catalog ersetzt.
Cloud Logging + Cloud MonitoringAWS-Dokumentation ↗
Einheitliche Observability für Pipeline-Läufe, BigQuery-Job-Metriken, Dataflow-Worker-Autoscaling, Pub/Sub-Backlog und SLO-basiertes Alerting über Cloud Monitoring-Richtlinien.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads erwartet Cloud Logging + Cloud Monitoring für Job-Fehleralarme, Slot-Auslastungs-Dashboards und die Aufbewahrung von Audit-Logs.

Karriereauswirkungen

Typische Rollen

Senior Data Engineer (GCP)
BigQuery / Analytics Engineer
Streaming Data Engineer
Data Platform Engineer
ML Data Engineer
Tech Lead, Data Platform
Principal Data Engineer

Gehaltsspanne (USA, ca.)

$140k–$195k–$290k USD jährlich

Die Spanne spiegelt US-basierte Senior Data Engineers wider, bei denen GCP die primäre Plattform ist. FAANG L5 Data Engineers erreichen eine Gesamtvergütung von über 300.000 $. PDE wird in Stellenanzeigen durchweg als eine der bestbezahlten einzelnen Datenzertifizierungen genannt; in Kombination mit ausgeprägter Apache Beam / Dataflow-Erfahrung ist sie in GCP-Umgebungen sehr gefragt. Reine Analyst-Engineer-Rollen tendieren zu niedrigeren Gehältern.

Quelle: levels.fyi 2025–2026 (Google L4–L5 data engineers, FAANG und Unicorn Senior Data Engineers), U.S. BLS OEWS Mai 2024 (15-2051 data scientists, 15-1252 software developers). Die Zahlen sind ungefähr; die tatsächliche Vergütung hängt von der Rolle, der Region und der Erfahrung ab.

Marktnachfrage

Der PDE ist die meistgefragte GCP-Datenzertifizierung und eines der stärksten Signale für Senior Data Engineer-Rollen in GCP-lastigen Unternehmen. Hohe Nachfrage besteht bei Digital-Native GCP-Shops (Spotify, Snap, PayPal, Wayfair, mehreren großen Einzelhändlern und Ad-Tech-Unternehmen), BigQuery-zentrierten Analyseorganisationen und Google Cloud-Partnern mit Datenpraxis. Die Zertifizierung wird auch bei Google selbst für Customer Engineering Data Specialists geschätzt. PDE passt hervorragend zum Professional ML Engineer (PMLE) für ein End-to-End "Daten + ML"-Profil und zum Cloud Architect (PCA) für ein breiteres Senior-Engineering-Profil. Zertifikatsinhaber berichten durchweg von einer starken Resonanz von Personalvermittlern.

Voraussetzungen & empfohlener Weg

Es gibt keine formalen Voraussetzungen. Google empfiehlt drei oder mehr Jahre Branchenerfahrung, davon mindestens ein Jahr im Entwurf und Management von Lösungen in Google Cloud. In der Praxis ist der PDE keine glaubwürdige erste GCP-Zertifizierung für jemanden, der neu im Bereich Daten ist – erfolgreiche Kandidaten haben bereits nicht-triviale Pipelines implementiert und verfügen über fundierte Kenntnisse in SQL, Python sowie zumindest konzeptionelle Vertrautheit mit Apache Beam.

Der Associate Cloud Engineer (ACE) ist ein üblicher erster Schritt, aber der Associate Data Practitioner (ADP) ist ein direkterer Einstieg für die datenspezifischen Inhalte. Fundierte SQL-Kenntnisse (Fensterfunktionen, CTEs, ARRAY/STRUCT-Manipulation), Vertrautheit mit mindestens einer Programmiersprache für Beam-Pipelines (Python oder Java) und Kenntnisse von Streaming-Konzepten (Windowing, Watermarks, Exactly-once-Delivery) sind de facto erforderlich. Der offizielle Data Engineer Lernpfad auf Google Cloud Skills Boost (ca. 50–80 Stunden Labs) ist eine gute Grundlage.

Schwierigkeitsgrad & Lernzeit

Der PDE wird als "Professional" eingestuft und ist durchweg anspruchsvoll — viele Kandidaten bewerten ihn nach PCA / PCNE als die zweitschwierigste GCP-Zertifizierung, hauptsächlich wegen der Streaming- und Dataflow / Apache Beam-Inhalte. Planen Sie 100–150 Stunden Lernzeit über 10–14 Wochen ein, wenn der PDE Ihre erste GCP Professional-Zertifizierung ist, oder 50–80 Stunden über 5–8 Wochen, wenn Sie bereits ACE / ADP besitzen und über Produktionserfahrung im Data Engineering verfügen. Die Prüfung besteht aus 50–60 Multiple-Choice- / Multiple-Select-Fragen in 120 Minuten und wird über Pearson VUE abgelegt (Google migrierte Anfang 2026 von Kryterion / Webassessor — keine Prüfungen vom 23. Februar bis 1. März 2026; erste Pearson-Abnahme am 2. März 2026).

Die häufigste Hürde ist Dataflow Streaming — Windowing-Strategien (fixed, sliding, session), Watermarks, verspätete Daten und Exactly-once-Semantik machen einen überproportionalen Anteil der Fehlversuche aus. Die zweite Hürde ist die Wahl zwischen BigQuery, Bigtable, Spanner und Cloud SQL für Speicherszenarien, bei denen mehrere Optionen technisch machbar sind. Google veröffentlicht keine numerischen Ergebnisse — nur Bestanden/Nicht bestanden. Die Zertifizierung ist zwei Jahre gültig und eine Rezertifizierung erfordert das erneute Bestehen der aktuellen Prüfung.

Prüfungsversionsverlauf

Professional Data Engineer2023-03
Der aktuelle Prüfungsleitfaden wurde Anfang 2023 aktualisiert, um BigLake, BigQuery Omni, Dataform, Dataplex und Datastream aufzunehmen. Erweiterte ML-Pipeline-Integration mit Vertex AI.
Professional Data Engineer2020-04
Große Aktualisierung, die die Speicher- und Verarbeitungsdomänen neu ausbalancierte und Pub/Sub Lite sowie Dataflow Prime hinzufügte.
Professional Data Engineer2017-03
Ursprüngliche allgemeine Verfügbarkeit — eine der ersten drei Google Cloud Professional-Zertifizierungen.

Häufig gestellte Fragen

Wie schwer ist die Prüfung PDE?

PDE (Google Cloud Professional Data Engineer) ist eine eine anspruchsvolle, szenariobasierte Prüfung, die tiefe praktische Erfahrung und die Fähigkeit erfordert, architektonische Kompromissentscheidungen zu treffen Professional-Level-Prüfung. Die meisten Kandidaten benötigen 150–300 Stunden Lernzeit, verteilt über 3–6 Monate, für Prüfungen auf Professional- und Expertenniveau. Diese Prüfungen setzen in der Regel eine vorherige Associate-Level-Kompetenz voraus. Die meisten Kandidaten, die bei Übungsprüfungen konstant über der Bestehensschwelle liegen, bestehen beim ersten Versuch.

Wie lange sollte ich für PDE lernen?

Die meisten Kandidaten benötigen 150–300 Stunden Lernzeit, verteilt über 3–6 Monate, für Prüfungen auf Professional- und Expertenniveau. Diese Prüfungen setzen in der Regel eine vorherige Associate-Level-Kompetenz voraus. Die benötigte Zeit bis zum Bestehen variiert stark je nach Vorerfahrung. Ingenieure mit praktischer Produktionserfahrung in der zugrunde liegenden Technologie benötigen in der Regel weniger; Kandidaten, die neu auf der Plattform sind, sollten sich am oberen Ende dieses Bereichs orientieren.

Lohnt sich die Zertifizierung PDE?

PDE ist ein anerkanntes Zeugnis im GCP-Ökosystem und signalisiert Arbeitgebern, Personalvermittlern und Kunden validiertes Wissen. Ob es sich für Sie lohnt, hängt von Ihrer Rolle und Ihren Zielen ab – es zahlt sich am meisten für Cloud-Ingenieure, Architekten und Berater aus, die täglich mit GCP arbeiten oder in solche Rollen wechseln möchten.

Wie hoch ist die Bestehensgrenze für PDE?

Die Bestehensgrenze für PDE beträgt Nicht veröffentlicht. Die Prüfung enthält 50 Fragen und dauert 2 Std.

Wie viel kostet die Prüfung PDE?

Die Prüfungsgebühr für PDE beträgt $200 USD. Die Gebühren werden von GCP festgelegt und können je nach Region variieren; bestätigen Sie immer den aktuellen Preis auf der offiziellen GCP Zertifizierungsseite, bevor Sie buchen.

Wie lange ist die Zertifizierung PDE gültig?

Google Cloud Professional-Zertifizierungen sind 2 Jahre gültig. Rezertifizieren Sie sich, indem Sie die aktuelle Version der Prüfung erneut bestehen.

Kann ich PDE online ablegen?

Ja. Sie können die Prüfung online (über den sicheren Browser des Anbieters, in den meisten Regionen rund um die Uhr verfügbar) oder in einem persönlichen Pearson VUE Testzentrum während der Geschäftszeiten ablegen. Beide Formate verwenden die gleichen Fragen, Zeitlimits und Bestehensgrenzen.

Wie viele Fragen gibt es in der PDE Übungsprüfung auf CertLabPro?

CertLabPro bietet 15 Lernmodi für die Übungsfragenbank für PDE. Der Prüfungssimulationsmodus bildet die echte Prüfung ab: 50 Fragen in 2 Std, mit der gleichen Bestehensschwelle von Nicht veröffentlicht. Im Browsing-Modus können Sie jede Frage und Antwort statisch lesen.

PDE

Google Cloud Professional Data Engineer

225 Übungsfragen

Zuletzt überprüft: April 2026

Prüfungsdomänen

Designing data processing systems22%

Ingesting and processing the data25%

Storing the data20%

Preparing and using data for analysis15%

Maintaining and automating data workloads18%

ℹ️

Prüfungsinfo

Anmeldung, Gebühren, Ablauf & Richtlinien

→

📝

Prüfungsmodus

50 zufällige Fragen
120-Minuten-Countdown
Punktzahl am Ende (bestanden: 750/1000)
Simuliert die echte Prüfung

📘

Handbuch

Muster Szenario → Lösung
Gruppiert nach Prüfungsdomäne
Vollständig und kostenlos im Web und auf dem Handy
Reine Referenz — keine Fragen, keine Wertung

📚

Übungsmodus

Alle 225 Fragen
Kein Zeitlimit
Sofortiges Feedback nach jeder Antwort
Lernen Sie in Ihrem eigenen Tempo

📑

Durchsuchen-Modus

Alle 225 Fragen auf einer Seite
Antworten und Erklärungen sichtbar
Schnelle Überprüfung vor der Prüfung
Durch alles scrollen

🌿

Zen-Modus

Eine Frage nach der anderen
Wischen oder Pfeiltasten verwenden
Zufallsoption verfügbar
Entspanntes Flashcard-Lernen

⚡

Time Attack

Starte mit 60 Sekunden
+10s für richtige Antworten
-5s für falsche Antworten
Schlage deinen Highscore

❤️

Survival

Unbegrenzte Zeit
Spielende bei erstem Fehler
Baue deine Serie auf
Teste deine Konsistenz

⚩

Blitz-Modus

15 Sekunden pro Frage
Bonus für schnelle Antworten
Serien-Multiplikator (2x, 3x...)
Arcade-Geschwindigkeitstest

🏃

Sprint-Modus

Stoppuhr (aufwärts zählend)
10/25/50 richtige hintereinander
Falsche Antwort setzt Serie zurück
Schlage deine persönliche Bestzeit

🎓

Karteikarten-Modus

Nur die Frage, keine Optionen
Tippen zum Aufdecken der Antwort
Bewerten: Wusste ich / Teilweise / Wusste ich nicht
Schwache Fragen erscheinen früher wieder

📚

Pauk-Modus

Priorisiert ungesehene Fragen zuerst
Dann Fragen, die Sie falsch beantwortet haben
Sofortiges Feedback nach jeder Antwort
Verfolgen Sie Ihre Gesamtabdeckung

🔥

Serien-Herausforderung

Kein Zeitdruck
Verfolge deine längste Serie
Falsche Antwort setzt auf Null zurück
Schlage deinen persönlichen Rekord

💪

Schwächstes Glied

Nur Fragen, die Sie falsch beantwortet haben
3 Mal richtig beantworten zum Meistern
Meisterschaftsfortschritt verfolgen
Beseitigen Sie Ihre Schwachstellen

📅

SRS-Wiederholung

Tägliche verteilte Wiederholung
Fragen in optimalen Abständen geplant
Bewerten: Nochmal / Schwer / Gut / Leicht
Baue deine tägliche Wiederholungsserie auf

🛠️

Praxislabor

Reines Terraform / OpenTofu
Jeder Block erklärt
Kopieren und in Ihr Terminal einfügen
Mit Prüfungsdomänen verknüpft

📝

Lernnotizen

Persönliche Notizen und Ressourcenlinks für Ihre Lernreise

📅

Aktivitätskalender

Nach Zertifizierung Filtern

Übersicht

Prüfungsbereiche

Designing data processing systems22%
Quellsystemanalyse, Data-Warehouse vs. Data-Lake vs. Lakehouse-Design, Schema-Modellierung für BigQuery (denormalisiert, verschachtelt, ARRAY/STRUCT), Auswahl des richtigen Speichers (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Ingesting and processing the data25%
Größter Bereich mit 25%. Pub/Sub-Muster, Dataflow Batch- und Streaming-Verarbeitung mit Apache Beam (Windowing, Trigger, Watermarks, Exactly-once-Semantik), Dataproc Spark-Jobs, Datastream CDC, Storage Transfer Service.
Storing the data20%
BigQuery Partitionierung und Clustering, materialisierte Ansichten, BI Engine, BigLake externe Tabellen, Schnappschüsse auf Tabellenebene und Zeitreise, Bigtable Schema-Design, Cloud Storage Klassenübergänge. 20%.
Preparing and using data for analysis15%
BigQuery SQL (Fensterfunktionen, ARRAY/STRUCT-Manipulation, Suchindizes), BigQuery ML, Looker Grundlagen des semantischen Modells, föderierte Abfragen an Cloud SQL / Spanner / Cloud Storage, Vertex AI-Integration. 15%.
Maintaining and automating data workloads18%
Cloud Composer DAGs, Dataform-Workflows, BigQuery geplante Abfragen, Slot-Reservierungen und On-Demand-Preise, Überwachung mit Cloud Monitoring, IAM auf Dataset- / Tabellen- / Spalten- / Zeilenebene. 18%.

Google Cloud-Services in dieser Prüfung

Services, die Sie in der Prüfung antreffen, und warum jeder davon wichtig ist.

Kerndienste

BigQueryAWS-Dokumentation ↗
Serverloses spaltenbasiertes Data Warehouse mit getrennter Speicherung/Berechnung, On-Demand- und Reservierungs-Slots, BigQuery ML für In-Warehouse-Modellierung und materialisierten Views für inkrementelle Aggregationen.
Warum er in der Prüfung steht: BigQuery ist die wichtigste Analyseoberfläche in allen fünf PDE-Domänen – Partitionierung, Clustering, Slot-Reservierungen und Abfrageoptimierung dominieren die Prüfung.
Cloud StorageAWS-Dokumentation ↗
Objektspeicher, der den GCP-Data Lake verankert – Landing/Curated/Consumption Zones, Multi-Region- und Dual-Region-Buckets, Lifecycle-Richtlinien und Quelle für jeden nachgelagerten Analysedienst.
Warum er in der Prüfung steht: Jedes PDE-Speicher- und Ingestionsszenario setzt Cloud Storage als Substrat voraus; Speicherkassen, Aufbewahrungsrichtlinien und Signed-URL-Zugriffsmuster bestimmen Fragen zum Speichern von Daten.
DataflowAWS-Dokumentation ↗
Vollständig verwalteter Apache Beam Runner für vereinheitlichte Streaming- und Batch-Pipelines, mit Autoscaling-Workern, Streaming Engine und Flex Templates für wiederholbare Bereitstellungen.
Warum er in der Prüfung steht: Dataflow ist die kanonische Antwort im Bereich Erfassen und Verarbeiten – Fragen zu Windowing, Triggern, Exactly-Once-Semantik und Abwägungen zwischen Streaming und Batch landen alle hier.
DataprocAWS-Dokumentation ↗
Verwaltete Spark-, Hadoop-, Hive-, Presto- und Flink-Cluster mit ephemeralem Autoscaling, Dataproc Serverless für Batch Spark und Spark-on-GKE für gemeinsame Infrastruktur.
Warum er in der Prüfung steht: Die PDE erwartet Dataproc als Migrationsziel für bestehende Spark-/Hadoop-Workloads – kurzlebige vs. langlebige Instanzen, Autoscaling-Richtlinien und Dataproc-vs-Dataflow-Entscheidungen erscheinen im Bereich Entwerfen von Datenverarbeitungssystemen.
Pub/SubAWS-Dokumentation ↗
Global verteilter Messaging-Dienst für asynchrone Aufnahme, mit At-Least-Once-Zustellung, Ordering Keys, Dead-Letter-Topics und Pub/Sub Lite für kostenoptimierte regionale Streams.
Warum er in der Prüfung steht: Pub/Sub ist die Standard-Streaming-Aufnahmeoberfläche im Bereich Erfassen und Verarbeiten – Zustellsemantik, Abonnementtypen und Backlog-Verhalten sind wiederkehrende Prüfungsthemen.
Cloud ComposerAWS-Dokumentation ↗
Verwalteter Apache Airflow-Dienst zur Orchestrierung von dienstübergreifenden DAGs, die BigQuery, Dataflow, Dataproc und externe Systeme umfassen, mit Composer 2, der auf GKE Autopilot läuft.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads testet DAG-Muster, Wiederholungsversuche und SLA-Überwachung – Composer ist der namentlich genannte Orchestrator in der PDE im Gegensatz zu Workflows für einfachere Ketten.
Cloud SpannerAWS-Dokumentation ↗
Global verteilte relationale Datenbank mit starker Konsistenz, horizontaler Skalierung und SQL – wird als operatives System of Record verwendet, das Analyse-Pipelines speist.
Warum er in der Prüfung steht: PDE-Speicherfragen unterscheiden OLTP (Spanner) von OLAP (BigQuery) und fragen, wann föderierte Spanner-Abfragen aus BigQuery eine CDC-Pipeline übertreffen.
Cloud BigtableAWS-Dokumentation ↗
Wide-Column-NoSQL-Dienst mit Lesezugriffen im einstelligen Millisekundenbereich bei Petabyte-Skalierung, optimiert für Zeitreihen- und IoT-Workloads mit HBase API-Kompatibilität.
Warum er in der Prüfung steht: Der Bereich Entwerfen von Datenverarbeitungssystemen testet das Row-Key-Design, Hotspotting und SSD-vs-HDD-Abwägungen – Bigtable ist die GCP-Antwort, wenn analytische Lesevorgänge mit geringer Latenz erforderlich sind.

Spezialisierte Services

Cloud SQLAWS-Dokumentation ↗
Verwaltetes PostgreSQL, MySQL und SQL Server mit automatischen Backups, Lesereplikaten und Hochverfügbarkeit – die relationale Quelle für viele Ingestions-Pipelines.
Warum er in der Prüfung steht: Cloud SQL erscheint in den Bereichen Erfassen und Speichern als vorgelagerte OLTP-Datenbank, deren Änderungen BigQuery über Datastream oder geplante Batch-Exporte speisen.
FirestoreAWS-Dokumentation ↗
Serverlose Dokumentdatenbank mit Echtzeit-Listenern, ACID-Transaktionen und globaler Replikation im Enterprise-Modus – unterstützt die Erfassung von Ereignissen auf Anwendungsebene.
Warum er in der Prüfung steht: PDE-Speicherszenarien wählen Firestore für App-Tier-Schreibvorgänge mit geringer Latenz, die anschließend über Eventarc oder Pub/Sub in BigQuery fließen.
BigLakeAWS-Dokumentation ↗
Einheitliche Speichermaschine, die Cloud Storage und externe (S3, ADLS) Daten als regulierte BigQuery-Tabellen mit feingranularer Zugriffssteuerung und Apache Iceberg-Unterstützung verfügbar macht.
Warum er in der Prüfung steht: BigLake ist die Lakehouse-Antwort im Bereich Speichern von Daten – es unterscheidet die Föderation externer Tabellen von der nativen BigQuery-Speicherung und ermöglicht Multi-Cloud-Analysen.
DatastreamAWS-Dokumentation ↗
Serverloser Change-Data-Capture-Dienst, der MySQL, PostgreSQL, Oracle und SQL Server mit geringer Latenz in BigQuery, Cloud Storage oder Cloud SQL repliziert.
Warum er in der Prüfung steht: Der Bereich Erfassen und Verarbeiten testet CDC-Muster; Datastream ist die GCP-native Antwort für die logbasierte Replikation in das Warehouse ohne benutzerdefinierte Debezium-Implementierung.
Cloud Data FusionAWS-Dokumentation ↗
Verwaltete CDAP-basierte visuelle ETL-Plattform mit über 150 Konnektoren und einem codefreien Pipeline-Designer, der im Hintergrund zu Dataproc kompiliert wird.
Warum er in der Prüfung steht: Die PDE erwartet Data Fusion, wenn eine Frage ein Low-Code-visuelles ETL mit breiter Konnektorabdeckung gegenüber handgeschriebenem Beam in Dataflow bevorzugt.
DataformAWS-Dokumentation ↗
BigQuery-nativer SQL-Workflow-Dienst mit Versionskontrolle, Abhängigkeitsgraphen, Assertions und inkrementellen Tabellenmaterialisierungen – analog zu dbt innerhalb von GCP.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren testet In-Warehouse-Transformationsmuster; Dataform ist die kanonische SQL-Orchestrierungsantwort für BigQuery-zentriertes ELT.
Dataprep by TrifactaAWS-Dokumentation ↗
Visueller Datenaufbereitungsdienst zum Erkunden, Bereinigen und Transformieren strukturierter/semistrukturierter Daten mit intelligenten Vorschlägen und Rezeptexport.
Warum er in der Prüfung steht: Der Bereich Vorbereiten und Nutzen von Daten für die Analyse nennt Dataprep als No-Code-Pfad für die Analysten-gesteuerte Datenformung vor der BigQuery-Nutzung.
Sensitive Data Protection (Cloud DLP)AWS-Dokumentation ↗
Verwalteter Dienst zum Erkennen, Klassifizieren und De-Identifizieren von PII über BigQuery, Cloud Storage und Datastore hinweg, unter Verwendung von Inspektionsvorlagen und Transformationsjobs.
Warum er in der Prüfung steht: PDE-Governance-Szenarien zitieren Sensitive Data Protection für das Maskieren, Tokenisieren oder Redigieren von PII, bevor Daten in gemeinsamen Analyseebenen landen.

Sicherheit und Governance

Identity and Access Management (IAM)AWS-Dokumentation ↗
Projekt- und ressourcenbezogene Berechtigungen für jeden Datendienst, einschließlich BigQuery zeilen-, spalten- und richtlinien-tag-basierter feingranularer Zugriffskontrolle.
Warum er in der Prüfung steht: PDE-Governance-Fragen zum Least-Privilege-Zugriff auf BigQuery-Datasets, Cloud Storage-Buckets und Pub/Sub-Topics beziehen sich alle auf IAM-Bindungen und -Bedingungen.
Cloud KMSAWS-Dokumentation ↗
Verwaltete kryptografische Schlüssel mit kundenseitig verwalteten Verschlüsselungsschlüsseln (CMEK) für BigQuery, Cloud Storage, Pub/Sub, Dataflow und Spanner, zuzüglich Cloud HSM und externen Schlüsseloptionen.
Warum er in der Prüfung steht: Verschlüsselung im Ruhezustand mit CMEK ist die kanonische PDE-Antwort für den Schutz regulierter Analysedaten, Schlüsselrotation und mandantenisolierte Multi-Team-Warehouses.
DataplexAWS-Dokumentation ↗
Einheitliche Datenplattform für die Katalogisierung, Klassifizierung, Sicherung und Überwachung von Daten über BigQuery, Cloud Storage und externe Quellen hinweg, mit integrierter Datenherkunft und -qualität.
Warum er in der Prüfung steht: PDE-Governance- und Datenqualitäts-Szenarien nennen Dataplex als die GCP-native Katalog-/Lineage-Schicht für Lake + Warehouse, die den eigenständigen Data Catalog ersetzt.
Cloud Logging + Cloud MonitoringAWS-Dokumentation ↗
Einheitliche Observability für Pipeline-Läufe, BigQuery-Job-Metriken, Dataflow-Worker-Autoscaling, Pub/Sub-Backlog und SLO-basiertes Alerting über Cloud Monitoring-Richtlinien.
Warum er in der Prüfung steht: Der Bereich Verwalten und Automatisieren von Daten-Workloads erwartet Cloud Logging + Cloud Monitoring für Job-Fehleralarme, Slot-Auslastungs-Dashboards und die Aufbewahrung von Audit-Logs.

Karriereauswirkungen

Typische Rollen

Senior Data Engineer (GCP)
BigQuery / Analytics Engineer
Streaming Data Engineer
Data Platform Engineer
ML Data Engineer
Tech Lead, Data Platform
Principal Data Engineer

Gehaltsspanne (USA, ca.)

$140k–$195k–$290k USD jährlich

Marktnachfrage

Voraussetzungen & empfohlener Weg

Schwierigkeitsgrad & Lernzeit

Prüfungsversionsverlauf

Professional Data Engineer2023-03
Der aktuelle Prüfungsleitfaden wurde Anfang 2023 aktualisiert, um BigLake, BigQuery Omni, Dataform, Dataplex und Datastream aufzunehmen. Erweiterte ML-Pipeline-Integration mit Vertex AI.
Professional Data Engineer2020-04
Große Aktualisierung, die die Speicher- und Verarbeitungsdomänen neu ausbalancierte und Pub/Sub Lite sowie Dataflow Prime hinzufügte.
Professional Data Engineer2017-03
Ursprüngliche allgemeine Verfügbarkeit — eine der ersten drei Google Cloud Professional-Zertifizierungen.

Häufig gestellte Fragen

Wie schwer ist die Prüfung PDE?

Wie lange sollte ich für PDE lernen?

Lohnt sich die Zertifizierung PDE?

Wie hoch ist die Bestehensgrenze für PDE?

Die Bestehensgrenze für PDE beträgt Nicht veröffentlicht. Die Prüfung enthält 50 Fragen und dauert 2 Std.

Wie viel kostet die Prüfung PDE?

Wie lange ist die Zertifizierung PDE gültig?

Google Cloud Professional-Zertifizierungen sind 2 Jahre gültig. Rezertifizieren Sie sich, indem Sie die aktuelle Version der Prüfung erneut bestehen.

Kann ich PDE online ablegen?

Wie viele Fragen gibt es in der PDE Übungsprüfung auf CertLabPro?

PDE

Prüfungsdomänen

Prüfungsinfo

Prüfungsmodus

Handbuch

Übungsmodus

Durchsuchen-Modus

Zen-Modus

Time Attack

Survival

Blitz-Modus

Sprint-Modus

Karteikarten-Modus

Pauk-Modus

Serien-Herausforderung

Schwächstes Glied

SRS-Wiederholung

Praxislabor

Lernnotizen

Aktivitätskalender

Übersicht

Prüfungsbereiche

Google Cloud-Services in dieser Prüfung

Kerndienste

Spezialisierte Services

Sicherheit und Governance

Karriereauswirkungen

Typische Rollen

Gehaltsspanne (USA, ca.)

Marktnachfrage

Voraussetzungen & empfohlener Weg

Schwierigkeitsgrad & Lernzeit

Prüfungsversionsverlauf

Häufig gestellte Fragen

Verwandte Lernleitfäden

Verwandte Zertifizierungen

PDE

Prüfungsdomänen

Prüfungsinfo

Prüfungsmodus

Handbuch

Übungsmodus

Durchsuchen-Modus

Zen-Modus

Time Attack

Survival

Blitz-Modus

Sprint-Modus

Karteikarten-Modus

Pauk-Modus

Serien-Herausforderung

Schwächstes Glied

SRS-Wiederholung

Praxislabor

Lernnotizen

Aktivitätskalender

Übersicht

Prüfungsbereiche

Google Cloud-Services in dieser Prüfung

Kerndienste

Spezialisierte Services

Sicherheit und Governance

Karriereauswirkungen

Typische Rollen

Gehaltsspanne (USA, ca.)

Marktnachfrage

Voraussetzungen & empfohlener Weg

Schwierigkeitsgrad & Lernzeit

Prüfungsversionsverlauf

Häufig gestellte Fragen

Verwandte Lernleitfäden

Verwandte Zertifizierungen