Google Cloud Professional Data Engineer
225 perguntas de prática
Última revisão: April 2026
Notas pessoais e links de recursos para sua jornada de estudo
Filtrar por Certificação
O Google Cloud Professional Data Engineer (PDE) valida a capacidade de projetar, construir, proteger e operacionalizar sistemas de processamento de dados no Google Cloud. O exame é uma das credenciais GCP Professional mais populares e consistentemente classifica entre as certificações de dados individuais mais bem pagas do mercado. Espere uma cobertura aprofundada de BigQuery (particionamento, clustering, visualizações materializadas, BI Engine, BigLake, Omni), Dataflow (Apache Beam em lote e streaming, janelamento, watermarks), Pub/Sub, Dataproc, Cloud Composer (Airflow gerenciado), Dataform, Dataplex, Datastream e integração Vertex AI para pipelines de ML. O estilo das questões é focado em cenários e recompensa candidatos que pensam simultaneamente em termos de custo, latência, frescor e compensações de evolução de esquema.
Análise de sistemas de origem, design de data-warehouse vs. data-lake vs. lakehouse, modelagem de esquema para BigQuery (desnormalizado, aninhado, ARRAY/STRUCT), escolha do armazenamento correto (BigQuery vs. Bigtable vs. Spanner vs. Firestore vs. Cloud SQL). 22%.
Maior domínio com 25%. Padrões Pub/Sub, Dataflow em lote e streaming com Apache Beam (janelamento, triggers, watermarks, semântica exactly-once), jobs Spark do Dataproc, CDC do Datastream, Storage Transfer Service.
Particionamento e clustering do BigQuery, visualizações materializadas, BI Engine, tabelas externas BigLake, snapshots no nível da tabela e time travel, design de esquema Bigtable, transições de classe do Cloud Storage. 20%.
BigQuery SQL (funções de janela, manipulação de ARRAY/STRUCT, índices de pesquisa), BigQuery ML, noções básicas do modelo semântico Looker, consultas federadas para Cloud SQL / Spanner / Cloud Storage, integração Vertex AI. 15%.
DAGs do Cloud Composer, workflows Dataform, consultas agendadas BigQuery, reservas de slots e preços sob demanda, monitoramento com Cloud Monitoring, IAM no nível de dataset / tabela / coluna / linha. 18%.
Serviços que você encontrará no exame e por que cada um importa.
Data warehouse colunar serverless com armazenamento/computação separados, slots sob demanda e de reserva, BigQuery ML para modelagem no warehouse e visualizações materializadas para agregações incrementais.
Por que está no exame: O BigQuery é a superfície de análise principal em todos os cinco Domínios do PDE — particionamento, agrupamento, reservas de slot e otimização de consulta dominam o exame.
Armazenamento de objetos que ancora o data lake do GCP — zonas de aterrissagem/curadoria/consumo, buckets multirregionais e de região dupla, políticas de ciclo de vida e fonte para todos os serviços de análise downstream.
Por que está no exame: Todo cenário de armazenamento e ingestão do PDE assume o Cloud Storage como substrato; classes de armazenamento, políticas de retenção e padrões de acesso com URLs assinadas impulsionam as questões de Armazenando os Dados.
Executor Apache Beam totalmente gerenciado para pipelines unificados de streaming e batch, com workers de autoscaling, Streaming Engine e Flex Templates para implantações repetíveis.
Por que está no exame: O Dataflow é a resposta canônica em Ingerindo e Processando — questões sobre windowing, triggers, semântica exactly-once e tradeoffs entre streaming vs. batch se encaixam aqui.
Clusters gerenciados de Spark, Hadoop, Hive, Presto e Flink com autoscaling efêmero, Dataproc Serverless para Spark em batch e Spark-on-GKE para infraestrutura compartilhada.
Por que está no exame: O PDE espera o Dataproc como alvo de migração para cargas de trabalho Spark/Hadoop existentes — efêmero vs. longa duração, políticas de autoscaling e escolhas Dataproc-vs-Dataflow aparecem em Projetando sistemas de processamento de dados.
Serviço de mensagens distribuído globalmente para ingestão assíncrona, com entrega at-least-once, chaves de ordenação, tópicos dead-letter e Pub/Sub Lite para streams regionais otimizados para custo.
Por que está no exame: O Pub/Sub é a superfície de ingestão de streaming padrão em Ingerindo e Processando — semântica de entrega, tipos de assinatura e comportamento de backlog são tópicos recorrentes do exame.
Serviço Apache Airflow gerenciado para orquestrar DAGs entre serviços abrangendo BigQuery, Dataflow, Dataproc e sistemas externos, com o Composer 2 rodando no GKE Autopilot.
Por que está no exame: Manter e Automatizar cargas de trabalho testa padrões de DAG, retries e monitoramento de SLA — o Composer é o orquestrador nomeado no PDE em comparação com Workflows para cadeias mais simples.
Banco de dados relacional distribuído globalmente com forte consistência, escala horizontal e SQL — usado como sistema de registro operacional alimentando pipelines de análise.
Por que está no exame: Questões de armazenamento do PDE distinguem OLTP (Spanner) de OLAP (BigQuery) e perguntam quando as consultas federadas do Spanner a partir do BigQuery superam um pipeline CDC.
Serviço NoSQL de coluna larga com leituras de milissegundos de um único dígito em escala de petabytes, otimizado para cargas de trabalho de séries temporais e IoT com compatibilidade com a API HBase.
Por que está no exame: Projetando sistemas de processamento de dados testa o design de chaves de linha, hotspotting e tradeoffs SSD-vs-HDD — o Bigtable é a resposta do GCP sempre que leituras analíticas de baixa latência são necessárias.
PostgreSQL, MySQL e SQL Server gerenciados com backups automatizados, réplicas de leitura e alta disponibilidade — a fonte relacional para muitos pipelines de ingestão.
Por que está no exame: O Cloud SQL aparece em Ingerindo e Armazenando como o banco de dados OLTP upstream cujas alterações alimentam o BigQuery via Datastream ou exportações em batch programadas.
Banco de dados de documentos serverless com listeners em tempo real, transações ACID e replicação global no modo Enterprise — suporta a captura de eventos na camada de aplicação.
Por que está no exame: Cenários de armazenamento do PDE escolhem o Firestore para escritas de baixa latência na camada de aplicação que subsequentemente fluem para o BigQuery através do Eventarc ou Pub/Sub.
Mecanismo de armazenamento unificado que expõe dados do Cloud Storage e externos (S3, ADLS) como tabelas BigQuery governadas com controle de acesso granular e suporte a Apache Iceberg.
Por que está no exame: O BigLake é a resposta de lakehouse em Armazenando os Dados — distingue a federação de tabelas externas do armazenamento nativo do BigQuery e permite análises multi-nuvem.
Serviço serverless de change-data-capture que replica MySQL, PostgreSQL, Oracle e SQL Server para BigQuery, Cloud Storage ou Cloud SQL com baixa latência.
Por que está no exame: Ingerindo e Processando testa padrões CDC; o Datastream é a resposta nativa do GCP para replicação baseada em log para o warehouse sem plumbing Debezium customizado.
Plataforma visual de ETL baseada em CDAP gerenciada com mais de 150 conectores e um designer de pipeline sem código que compila para Dataproc nos bastidores.
Por que está no exame: O PDE espera o Data Fusion quando uma questão favorece ETL visual low-code com ampla cobertura de conectores em detrimento de Beam escrito à mão no Dataflow.
Serviço de fluxo de trabalho SQL nativo do BigQuery com controle de versão, grafos de dependência, asserções e materializações de tabela incrementais — análogo ao dbt dentro do GCP.
Por que está no exame: Manter e Automatizar testa padrões de transformação no warehouse; o Dataform é a resposta canônica de orquestração SQL para ELT centrado no BigQuery.
Serviço visual de data wrangling para explorar, limpar e transformar dados estruturados/semiestruturados com sugestões inteligentes e exportação de receitas.
Por que está no exame: Preparando e Usando Dados para Análise nomeia o Dataprep como o caminho no-code para modelagem de dados orientada por analistas antes do consumo pelo BigQuery.
Serviço gerenciado para descobrir, classificar e desidentificar PII em BigQuery, Cloud Storage e Datastore usando modelos de inspeção e jobs de transformação.
Por que está no exame: Cenários de governança do PDE citam a Proteção de Dados Sensíveis para mascarar, tokenizar ou redigir PII antes que os dados cheguem às camadas de análise compartilhadas.
Permissões com escopo de projeto e recurso para cada serviço de dados, incluindo acesso granular por nível de linha, nível de coluna e baseado em policy-tag do BigQuery.
Por que está no exame: Questões de governança do PDE sobre acesso de menor privilégio a datasets do BigQuery, buckets do Cloud Storage e tópicos do Pub/Sub sempre retornam a vinculações e condições IAM.
Chaves criptográficas gerenciadas com chaves de criptografia gerenciadas pelo cliente (CMEK) para BigQuery, Cloud Storage, Pub/Sub, Dataflow e Spanner, além de opções de Cloud HSM e chaves externas.
Por que está no exame: A criptografia em repouso com CMEK é a resposta canônica do PDE para proteger dados de análise regulamentados, rotação de chaves e warehouses multi-equipe isolados por tenant.
Malha de dados unificada para catalogar, classificar, proteger e monitorar dados em BigQuery, Cloud Storage e fontes externas, com linhagem e qualidade de dados integradas.
Por que está no exame: Cenários de governança e qualidade de dados do PDE nomeiam o Dataplex como a camada de catálogo/linhagem nativa do GCP para lake + warehouse, substituindo o Data Catalog autônomo.
Observabilidade unificada para execuções de pipeline, métricas de job do BigQuery, autoscaling de workers do Dataflow, backlog do Pub/Sub e alertas baseados em SLO via políticas do Cloud Monitoring.
Por que está no exame: Manter e Automatizar cargas de trabalho espera o Cloud Logging + Cloud Monitoring para alertas de falha de job, dashboards de utilização de slot e retenção de logs de auditoria.
$140k–$195k–$290k USD anual
O intervalo reflete engenheiros de dados sênior baseados nos EUA onde o GCP é a plataforma primária. O TC de um engenheiro de dados FAANG L5 ultrapassa os $300k. O PDE é consistentemente citado como uma das certificações de dados individuais mais bem pagas, de acordo com as faixas salariais de anúncios de emprego; combinado com forte experiência em Apache Beam / Dataflow, ele gera um prêmio em empresas que utilizam GCP. Funções puras de analista-engenheiro tendem a ter salários mais baixos.
Fonte: levels.fyi 2025–2026 (engenheiros de dados Google L4–L5, engenheiros de dados sênior FAANG e unicorn), U.S. BLS OEWS May 2024 (15-2051 cientistas de dados, 15-1252 desenvolvedores de software). Os valores são aproximados; a compensação real depende da função, região e experiência.
O PDE é a credencial de dados GCP mais solicitada e um dos sinais mais fortes para funções de engenheiro de dados sênior em empresas com forte uso de GCP. Grande demanda em empresas digitais nativas de GCP (Spotify, Snap, PayPal, Wayfair, vários grandes varejistas e empresas de ad-tech), organizações de analytics centradas em BigQuery e parceiros do Google Cloud com práticas de dados. A certificação também é valorizada no próprio Google para especialistas em dados de engenharia de clientes. O PDE combina naturalmente com o Professional ML Engineer (PMLE) para um perfil "dados + ML" de ponta a ponta, e com o Cloud Architect (PCA) para um perfil de engenharia sênior mais amplo. Os detentores relatam consistentemente uma forte resposta de recrutadores.
Não há pré-requisitos formais. O Google recomenda três ou mais anos de experiência na indústria, incluindo um ou mais anos projetando e gerenciando soluções no Google Cloud. Na prática, o PDE não é uma primeira certificação GCP credível para alguém novo em dados — candidatos bem-sucedidos já implementaram pipelines não triviais e possuem conhecimento prático de SQL, Python e, pelo menos, familiaridade conceitual com Apache Beam.
O Associate Cloud Engineer (ACE) é um degrau comum, mas o Associate Data Practitioner (ADP) é uma entrada mais direta para o conteúdo específico de dados. Fluência sólida em SQL (funções de janela, CTEs, manipulação de ARRAY/STRUCT), familiaridade com pelo menos uma linguagem de programação para pipelines Beam (Python ou Java) e familiaridade com conceitos de streaming (janelamento, watermarks, entrega exactly-once) são efetivamente exigidos. O Caminho de Aprendizagem oficial do Engenheiro de Dados no Google Cloud Skills Boost (cerca de 50–80 horas de laboratórios) é uma boa base.
O PDE é classificado como profissional e é consistentemente difícil — muitos candidatos o consideram a segunda certificação GCP mais difícil depois do PCA / PCNE, principalmente devido ao conteúdo de streaming e Dataflow / Apache Beam. Planeje 100–150 horas de estudo ao longo de 10–14 semanas se o PDE for sua primeira certificação profissional GCP, ou 50–80 horas ao longo de 5–8 semanas se você já possui ACE / ADP, além de experiência em engenharia de dados em produção. O exame consiste em 50–60 questões de múltipla escolha / múltipla seleção em 120 minutos, administrado pela Pearson VUE (o Google migrou de Kryterion / Webassessor no início de 2026 — sem exames de 23 de fevereiro a 1º de março de 2026; primeira entrega pela Pearson em 2 de março de 2026).
O obstáculo mais comum é o streaming Dataflow — estratégias de janelamento (fixo, deslizante, de sessão), watermarks, dados atrasados e semântica exactly-once respondem por uma parcela desproporcional de tentativas falhas. O segundo obstáculo é a escolha entre BigQuery, Bigtable, Spanner e Cloud SQL para cenários de armazenamento onde múltiplas opções são tecnicamente viáveis. O Google não publica pontuações numéricas — apenas aprovação/reprovação. A credencial é válida por dois anos e a recertificação exige a aprovação novamente no exame atual.
O guia de exame atual foi atualizado no início de 2023 para adicionar cobertura de BigLake, BigQuery Omni, Dataform, Dataplex e Datastream. Integração expandida de pipelines de ML com Vertex AI.
Atualização importante que reequilibrou os domínios de armazenamento e processamento e adicionou cobertura de Pub/Sub Lite e Dataflow Prime.
Disponibilidade geral original — uma das três primeiras credenciais Google Cloud Professional.
PDE (Google Cloud Professional Data Engineer) é um exame de nível Professional um exame desafiador, com muitos cenários, que exige profunda experiência prática e a capacidade de tomar decisões de trade-off arquitetônicas. A maioria dos candidatos precisa de 150 a 300 horas de estudo distribuídas em 3 a 6 meses para exames de nível profissional e especialista. Esses exames geralmente esperam proficiência anterior em nível associado. A maioria dos candidatos que pontuam consistentemente acima do limite de aprovação em exames práticos é aprovada na primeira tentativa.
A maioria dos candidatos precisa de 150 a 300 horas de estudo distribuídas em 3 a 6 meses para exames de nível profissional e especialista. Esses exames geralmente esperam proficiência anterior em nível associado. O tempo para aprovação varia amplamente de acordo com a experiência prévia. Engenheiros com experiência prática de produção na tecnologia subjacente geralmente precisam de menos tempo; candidatos novos na plataforma devem planejar-se para o limite superior dessa faixa.
PDE é uma credencial reconhecida no ecossistema GCP e sinaliza conhecimento validado para empregadores, recrutadores e clientes. Se vale a pena o tempo e a taxa para você, depende do seu papel e objetivos — geralmente compensa mais para engenheiros de nuvem, arquitetos e consultores que trabalham com GCP diariamente ou desejam mudar para funções que o fazem.
A pontuação de aprovação para PDE é Não publicado. O exame contém 50 questões e dura 2 h.
A taxa do exame PDE é $200 USD. As taxas são definidas por GCP e podem variar por região; sempre confirme o preço atual na página oficial de certificação GCP antes de agendar.
As certificações Google Cloud Professional são válidas por 2 anos. Recertifique-se passando novamente na versão atual do exame.
Sim. Você pode fazer o exame online (supervisionado através do navegador seguro do provedor, disponível 24 horas por dia, 7 dias por semana na maioria das regiões) ou em um centro de testes Pearson VUE presencial durante o horário comercial. Ambos os formatos usam as mesmas perguntas, limite de tempo e pontuação de aprovação.
A CertLabPro oferece 15 modos de estudo no banco de questões práticas para PDE. O modo de simulação de exame espelha o exame real: 50 questões em 2 h, com o mesmo limite de aprovação de Não publicado. O modo de navegação permite que você leia todas as perguntas e respostas estaticamente.