Google Cloud Professional Data Engineer
225 preguntas de práctica
Última revisión: April 2026
Notas personales y enlaces de recursos para tu camino de estudio
Filtrar por Certificación
El Google Cloud Professional Data Engineer (PDE) valida la capacidad de diseñar, construir, proteger y operacionalizar sistemas de procesamiento de datos en Google Cloud. El examen es una de las credenciales Profesionales de GCP más populares y se clasifica constantemente entre las certificaciones de datos individuales mejor pagadas del mercado. Se espera una cobertura profunda de BigQuery (particionamiento, agrupamiento, vistas materializadas, BI Engine, BigLake, Omni), Dataflow (Apache Beam por lotes y streaming, ventanas, marcas de agua), Pub/Sub, Dataproc, Cloud Composer (Airflow administrado), Dataform, Dataplex, Datastream y la integración de Vertex AI para pipelines de ML. El estilo de las preguntas se basa en escenarios y recompensa a los candidatos que piensan simultáneamente en los costos, la latencia, la actualidad de los datos y las compensaciones en la evolución del esquema.
Análisis de sistemas de origen, diseño de data-warehouse vs. data-lake vs. lakehouse, modelado de esquemas para BigQuery (desnormalizado, anidado, ARRAY/STRUCT), elección del almacenamiento adecuado (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
El dominio más grande con un 25%. Patrones de Pub/Sub, procesamiento por lotes y streaming con Dataflow y Apache Beam (ventanas, disparadores, marcas de agua, semántica de exactamente una vez), trabajos de Spark en Dataproc, CDC de Datastream, Storage Transfer Service.
Particionamiento y agrupamiento de BigQuery, vistas materializadas, BI Engine, tablas externas de BigLake, instantáneas a nivel de tabla y viaje en el tiempo, diseño de esquemas de Bigtable, transiciones de clase de Cloud Storage. 20%.
SQL de BigQuery (funciones de ventana, manipulación de ARRAY/STRUCT, índices de búsqueda), BigQuery ML, conceptos básicos del modelo semántico de Looker, consultas federadas a Cloud SQL / Spanner / Cloud Storage, integración de Vertex AI. 15%.
DAGs de Cloud Composer, flujos de trabajo de Dataform, consultas programadas de BigQuery, reservas de slots y precios bajo demanda, monitoreo con Cloud Monitoring, IAM a nivel de conjunto de datos / tabla / columna / fila. 18%.
Servicios que encontrarás en el examen y por qué cada uno importa.
Almacén de datos columnar sin servidor con almacenamiento/cómputo separados, slots bajo demanda y de reserva, BigQuery ML para modelado en el almacén y vistas materializadas para agregados incrementales.
Por qué está en el examen: BigQuery es la superficie de análisis principal a través de los cinco dominios de PDE — el particionamiento, el clustering, las reservas de slots y la optimización de consultas dominan el examen.
Almacenamiento de objetos que ancla el data lake de GCP — zonas de aterrizaje/curación/consumo, buckets multirregionales y birregionales, políticas de ciclo de vida y fuente para cada servicio de análisis downstream.
Por qué está en el examen: Cada escenario de almacenamiento e ingesta de PDE asume Cloud Storage como sustrato; las clases de almacenamiento, las políticas de retención y los patrones de acceso con URL firmadas impulsan las preguntas del dominio Almacenamiento de datos.
Ejecutor de Apache Beam totalmente gestionado para pipelines unificados de streaming y batch, con workers de autoescalado, Streaming Engine y Flex Templates para despliegues repetibles.
Por qué está en el examen: Dataflow es la respuesta canónica en Ingesta y procesamiento de datos — las preguntas sobre ventanas, triggers, semántica de exactamente una vez y compensaciones entre streaming y batch todas recaen aquí.
Clusters gestionados de Spark, Hadoop, Hive, Presto y Flink con autoescalado efímero, Dataproc Serverless para Spark batch y Spark-on-GKE para infraestructura compartida.
Por qué está en el examen: PDE espera Dataproc como el objetivo de migración para cargas de trabajo existentes de Spark/Hadoop — las opciones efímeras vs. de larga duración, las políticas de autoescalado y las decisiones Dataproc-vs-Dataflow aparecen en Diseño de sistemas de procesamiento de datos.
Servicio de mensajería distribuido globalmente para ingesta asíncrona, con entrega de al menos una vez, claves de ordenación, temas de dead-letter y Pub/Sub Lite para streams regionales optimizados para el costo.
Por qué está en el examen: Pub/Sub es la superficie de ingesta de streaming por defecto en Ingesta y procesamiento de datos — la semántica de entrega, los tipos de suscripción y el comportamiento del backlog son temas recurrentes del examen.
Servicio Apache Airflow gestionado para orquestar DAGs entre servicios abarcando BigQuery, Dataflow, Dataproc y sistemas externos, con Composer 2 ejecutándose en GKE Autopilot.
Por qué está en el examen: Mantenimiento y automatización de cargas de trabajo prueba los patrones de DAG, los reintentos y la monitorización de SLA — Composer es el orquestador nombrado en PDE frente a Workflows para cadenas más simples.
Base de datos relacional distribuida globalmente con fuerte consistencia, escala horizontal y SQL — utilizada como sistema operacional de registro para alimentar pipelines de análisis.
Por qué está en el examen: Las preguntas de almacenamiento de PDE distinguen OLTP (Spanner) de OLAP (BigQuery) y preguntan cuándo las consultas federadas de Spanner desde BigQuery superan a un pipeline de CDC.
Servicio NoSQL de columna ancha con lecturas de un solo dígito de milisegundo a escala de petabytes, optimizado para cargas de trabajo de series temporales y IoT con compatibilidad con la API de HBase.
Por qué está en el examen: Diseño de sistemas de procesamiento de datos prueba el diseño de claves de fila, el hotspotting y las compensaciones entre SSD y HDD — Bigtable es la respuesta de GCP siempre que se requieren lecturas analíticas de baja latencia.
PostgreSQL, MySQL y SQL Server gestionados con copias de seguridad automatizadas, réplicas de lectura y alta disponibilidad — la fuente relacional para muchos pipelines de ingesta.
Por qué está en el examen: Cloud SQL aparece en Ingesta y almacenamiento como la base de datos OLTP upstream cuyos cambios alimentan BigQuery a través de Datastream o exportaciones batch programadas.
Base de datos de documentos sin servidor con oyentes en tiempo real, transacciones ACID y replicación global en modo Enterprise — respalda la captura de eventos a nivel de aplicación.
Por qué está en el examen: Los escenarios de almacenamiento de PDE eligen Firestore para escrituras de baja latencia a nivel de aplicación que posteriormente fluyen hacia BigQuery a través de Eventarc o Pub/Sub.
Motor de almacenamiento unificado que expone datos de Cloud Storage y externos (S3, ADLS) como tablas gobernadas de BigQuery con control de acceso granular y soporte para Apache Iceberg.
Por qué está en el examen: BigLake es la respuesta de lakehouse en Almacenamiento de datos — distingue la federación de tablas externas del almacenamiento nativo de BigQuery y habilita el análisis multi-cloud.
Servicio serverless de captura de datos de cambio (CDC) que replica MySQL, PostgreSQL, Oracle y SQL Server en BigQuery, Cloud Storage o Cloud SQL con baja latencia.
Por qué está en el examen: Ingesta y procesamiento de datos prueba patrones de CDC; Datastream es la respuesta nativa de GCP para la replicación basada en logs en el almacén sin la fontanería personalizada de Debezium.
Plataforma ETL visual gestionada basada en CDAP con más de 150 conectores y un diseñador de pipelines sin código que compila a Dataproc internamente.
Por qué está en el examen: PDE espera Data Fusion cuando una pregunta favorece un ETL visual de low-code con amplia cobertura de conectores sobre Beam escrito a mano en Dataflow.
Servicio de flujo de trabajo SQL nativo de BigQuery con control de versiones, grafos de dependencia, aserciones y materializaciones de tablas incrementales — análogo a dbt dentro de GCP.
Por qué está en el examen: Mantenimiento y automatización de cargas de trabajo prueba patrones de transformación en el almacén; Dataform es la respuesta canónica de orquestación SQL para ELT centrado en BigQuery.
Servicio visual de preparación de datos para explorar, limpiar y transformar datos estructurados/semiestructurados con sugerencias inteligentes y exportación de recetas.
Por qué está en el examen: Preparación y uso de datos para análisis nombra a Dataprep como la ruta no-code para la conformación de datos impulsada por analistas antes del consumo en BigQuery.
Servicio gestionado para descubrir, clasificar y desidentificar PII en BigQuery, Cloud Storage y Datastore utilizando plantillas de inspección y trabajos de transformación.
Por qué está en el examen: Los escenarios de gobernanza de PDE citan Sensitive Data Protection para enmascarar, tokenizar o redactar PII antes de que los datos lleguen a capas de análisis compartidas.
Permisos con ámbito de proyecto y recurso para cada servicio de datos, incluyendo acceso granular a nivel de fila, columna y basado en etiquetas de política de BigQuery.
Por qué está en el examen: Las preguntas de gobernanza de PDE sobre acceso de mínimo privilegio a datasets de BigQuery, buckets de Cloud Storage y temas de Pub/Sub todas regresan a los enlaces y condiciones de IAM.
Claves criptográficas gestionadas con CMEK (customer-managed encryption keys) para BigQuery, Cloud Storage, Pub/Sub, Dataflow y Spanner, además de Cloud HSM y opciones de claves externas.
Por qué está en el examen: El cifrado en reposo con CMEK es la respuesta canónica de PDE para proteger datos analíticos regulados, la rotación de claves y almacenes multi-equipo aislados por tenant.
Tejido de datos unificado para catalogar, clasificar, asegurar y monitorizar datos en BigQuery, Cloud Storage y fuentes externas, con linaje y calidad de datos incorporados.
Por qué está en el examen: Los escenarios de gobernanza y calidad de datos de PDE nombran a Dataplex como la capa de catálogo/linaje nativa de GCP para lake + warehouse, reemplazando a Data Catalog standalone.
Observabilidad unificada para ejecuciones de pipelines, métricas de trabajos de BigQuery, autoescalado de workers de Dataflow, backlog de Pub/Sub y alertas basadas en SLO a través de políticas de Cloud Monitoring.
Por qué está en el examen: Mantenimiento y automatización de cargas de trabajo espera Cloud Logging + Cloud Monitoring para alertas de fallos de trabajo, dashboards de utilización de slots y retención de logs de auditoría.
$140k–$195k–$290k USD anual
El rango refleja ingenieros de datos senior con sede en EE. UU. donde GCP es la plataforma principal. El ingeniero de datos L5 de FAANG con TC supera los $300k. La certificación PDE es consistentemente citada como una de las certificaciones de datos individuales mejor pagadas según las bandas salariales de ofertas de empleo; combinada con una sólida experiencia en Apache Beam / Dataflow, obtiene una prima en las empresas que utilizan GCP. Los roles de analista-ingeniero puros tienden a ser más bajos.
Fuente: levels.fyi 2025–2026 (ingenieros de datos de Google L4–L5, ingenieros de datos senior de FAANG y unicornios), U.S. BLS OEWS May 2024 (científicos de datos 15-2051, desarrolladores de software 15-1252). Las cifras son aproximadas; la compensación real depende del rol, la región y la experiencia.
La certificación PDE es la credencial de datos de GCP más solicitada y una de las señales más fuertes para los roles de ingeniero de datos senior en empresas con fuerte dependencia de GCP. Existe una alta demanda en empresas nativas digitales de GCP (Spotify, Snap, PayPal, Wayfair, varios minoristas importantes y empresas de ad-tech), organizaciones de analítica centradas en BigQuery y socios de Google Cloud con prácticas de datos. La certificación también es valorada en Google para los especialistas en datos de ingeniería de clientes. La PDE se combina naturalmente con la certificación Professional ML Engineer (PMLE) para un perfil "datos + ML" de extremo a extremo, y con Cloud Architect (PCA) para un perfil de ingeniería senior más amplio. Los titulares informan consistentemente una fuerte respuesta por parte de los reclutadores.
No existen requisitos formales. Google recomienda tres o más años de experiencia en la industria, incluyendo uno o más años diseñando y gestionando soluciones en Google Cloud. En la práctica, la PDE no es una primera certificación GCP creíble para alguien nuevo en datos — los candidatos exitosos han implementado pipelines no triviales y tienen conocimientos prácticos de SQL, Python y al menos una familiaridad conceptual con Apache Beam.
La certificación Associate Cloud Engineer (ACE) es un paso intermedio común, pero la Associate Data Practitioner (ADP) es un punto de partida más directo para el contenido específico de datos. La fluidez sólida en SQL (funciones de ventana, CTEs, manipulación de ARRAY/STRUCT), la comodidad con al menos un lenguaje de programación para pipelines de Beam (Python o Java) y la familiaridad con los conceptos de streaming (ventanas, marcas de agua, entrega exactamente una vez) son efectivamente requisitos. La Ruta de Aprendizaje oficial de Ingeniero de Datos en Google Cloud Skills Boost (alrededor de 50 a 80 horas de laboratorios) es una buena base.
La certificación PDE se califica como profesional y es consistentemente difícil — muchos candidatos la consideran la segunda certificación de GCP más difícil después de PCA / PCNE, principalmente debido al contenido de streaming y Dataflow / Apache Beam. Planifica entre 100 y 150 horas de estudio durante 10 a 14 semanas si la PDE es tu primera certificación profesional de GCP, o entre 50 y 80 horas durante 5 a 8 semanas si ya posees ACE / ADP más experiencia en ingeniería de datos en producción. El examen consta de 50 a 60 preguntas de opción múltiple / selección múltiple en 120 minutos, administrado a través de Pearson VUE (Google migró de Kryterion / Webassessor a principios de 2026 — no habrá exámenes del 23 de febrero al 1 de marzo de 2026; la primera entrega de Pearson será el 2 de marzo de 2026).
El obstáculo más común es el streaming de Dataflow — las estrategias de ventanas (fijas, deslizantes, de sesión), las marcas de agua, los datos tardíos y la semántica de "exactamente una vez" representan una parte desproporcionada de los intentos fallidos. El segundo obstáculo es elegir entre BigQuery, Bigtable, Spanner y Cloud SQL para escenarios de almacenamiento donde múltiples opciones son técnicamente viables. Google no publica puntuaciones numéricas — solo aprobado/reprobado. La credencial es válida por dos años y la recertificación requiere volver a aprobar el examen actual.
Guía del examen actual actualizada a principios de 2023 para añadir cobertura de BigLake, BigQuery Omni, Dataform, Dataplex y Datastream. Integración expandida de pipelines de ML con Vertex AI.
Actualización importante que reequilibró los dominios de almacenamiento y procesamiento y añadió cobertura de Pub/Sub Lite y Dataflow Prime.
Disponibilidad general original — una de las tres primeras credenciales Profesionales de Google Cloud.
PDE (Google Cloud Professional Data Engineer) es un examen de nivel Professional un examen desafiante, con muchos escenarios, que requiere una profunda experiencia práctica y la capacidad de tomar decisiones de compensación arquitectónica. La mayoría de los candidatos necesitan entre 150 y 300 horas de estudio distribuidas en 3 a 6 meses para los exámenes de nivel profesional y experto. Estos exámenes suelen esperar una competencia previa a nivel asociado. La mayoría de los candidatos que obtienen consistentemente una puntuación por encima del umbral de aprobación en los exámenes de práctica, aprueban en su primer intento.
La mayoría de los candidatos necesitan entre 150 y 300 horas de estudio distribuidas en 3 a 6 meses para los exámenes de nivel profesional y experto. Estos exámenes suelen esperar una competencia previa a nivel asociado. El tiempo para aprobar varía ampliamente según la experiencia previa. Los ingenieros con experiencia práctica en producción en la tecnología subyacente suelen necesitar menos; los candidatos nuevos en la plataforma deben planificar hacia el extremo superior de ese rango.
PDE es una credencial reconocida en el ecosistema de GCP y señala conocimientos validados a empleadores, reclutadores y clientes. Si vale la pena el tiempo y la tarifa para ti, depende de tu rol y objetivos — tiende a ser más rentable para ingenieros de la nube, arquitectos y consultores que trabajan con GCP a diario o quieren pasar a roles que lo hagan.
La puntuación de aprobación para PDE es No publicado. El examen contiene 50 preguntas y dura 2 h.
La tarifa del examen PDE es de $200 USD. Las tarifas son establecidas por GCP y pueden variar según la región; siempre confirma el precio actual en la página oficial de certificación de GCP antes de reservar.
Las certificaciones Google Cloud Professional son válidas por 2 años. Recertifícate volviendo a aprobar la versión actual del examen.
Sí. Puedes realizar el examen en línea (supervisado a través del navegador seguro del proveedor, disponible 24/7 en la mayoría de las regiones) o en un centro de examen presencial de Pearson VUE durante el horario comercial. Ambos formatos utilizan las mismas preguntas, límite de tiempo y puntuación de aprobación.
CertLabPro ofrece 15 modos de estudio en todo el banco de preguntas de práctica para PDE. El modo de simulación de examen reproduce el examen real: 50 preguntas en 2 h, con el mismo umbral de aprobación de No publicado. El modo de navegación te permite leer todas las preguntas y respuestas de forma estática.