Guia

Google Cloud Professional Machine Learning Engineer

Última revisão: maio de 2026

Uma referência rápida dos padrões arquiteturais que o exame PMLE avalia. Leia de cima a baixo ou pule para uma seção.

Arquitetando Soluções de ML

Construir modelos de classificação, regressão ou recomendação em grandes conjuntos de dados tabulares no BigQuery para equipes com fortes habilidades em SQL.

Use BigQuery ML com sintaxe SQL (por exemplo, `CREATE MODEL ... OPTIONS(model_type='BOOSTED_TREE_CLASSIFIER')`). Habilite a explicabilidade com `EXPLAIN_PREDICT`.

Por quê: Evita a movimentação de dados e aproveita as habilidades SQL existentes para desenvolvimento rápido. Mantém a governança de dados dentro do BigQuery e fornece explicabilidade integrada.

Referência

Extrair dados estruturados (por exemplo, nomes, datas, códigos) de documentos não estruturados como formulários ou faturas com experiência mínima em ML.

Use Document AI com um processador pré-treinado ou personalizado. Treine um processador personalizado com documentos de amostra rotulados para layouts especializados.

Por quê: Um serviço especializado e gerenciado para análise de documentos que supera a construção de OCR personalizado e lógica de análise do zero.

Referência

Analisar dados não estruturados como áudio ou texto para sentimento, entidades ou tópicos sem treinar um modelo personalizado.

Encadeie APIs pré-treinadas. Exemplo: API Speech-to-Text para transcrição, seguida pela API Natural Language para análise de entidade e sentimento.

Por quê: Tempo de lançamento mais rápido para casos de uso comuns. Aproveita modelos treinados pelo Google sem a necessidade de rotulagem de dados ou treinamento de modelo.

Construir um modelo personalizado de imagem, vídeo ou tabular de alta qualidade com dados rotulados, mas com experiência limitada em codificação de ML.

Use Vertex AI AutoML (por exemplo, AutoML Vision Object Detection). Forneça dados rotulados e deixe o serviço lidar com a busca de arquitetura e treinamento.

Por quê: Equilibra as necessidades do modelo personalizado com a facilidade de uso. Supera as APIs pré-treinadas genéricas para tarefas personalizadas (por exemplo, identificação de produtos específicos).

Referência

Construir uma IA conversacional ou assistente de conhecimento que responda a perguntas com base em um grande corpus de documentos proprietários.

Implemente um padrão de Geração Aumentada por Recuperação (RAG). Use o Vertex AI Vector Search para encontrar blocos de documentos relevantes e passá-los como contexto para um modelo Gemini para geração de resposta fundamentada.

Por quê: Fundamenta as respostas de LLM em dados factuais, reduzindo alucinações e fornecendo citações. Mais escalável e atualizado do que o fine-tuning para conhecimento.

Criar um chatbot ou motor de busca de nível empresarial com código mínimo, conectado a fontes de dados internas como Cloud Storage ou BigQuery.

Use o Vertex AI Agent Builder. Configure conectores de armazenamento de dados para sua base de conhecimento e use ferramentas (chamada de função) para pesquisas de dados em tempo real.

Por quê: Solução de baixo código que automatiza a criação de pipelines RAG, incluindo análise de documentos, chunking, embedding e recuperação, para implantação rápida.

Realizar detecção de defeitos em tempo real em fluxos de vídeo de alto volume de câmeras de fabricação com latência inferior a um segundo.

Implante modelos otimizados em dispositivos de borda usando o Vertex AI Edge Manager. Realize a inferência localmente e envie apenas metadados de defeitos para a nuvem para monitoramento.

Por quê: Lida com requisitos de alta largura de banda e baixa latência que são inviáveis ou proibitivos em termos de custo com uma abordagem apenas na nuvem.

Colaborando e Gerenciando Dados/Modelos

Gerenciar recursos de ML para garantir a consistência entre o treinamento em lote e o serviço em tempo real, prevenindo o desvio de treinamento-serviço (training-serving skew).

Use o Vertex AI Feature Store. Defina grupos de recursos com diferentes programações de sincronização (em lote, streaming). Use consultas de viagem no tempo para dados de treinamento corretos em um ponto específico no tempo.

Por quê: Fornece um repositório centralizado de recursos, garante definições de recursos consistentes e resolve a correção de ponto no tempo para dados de treinamento.

Referência

Implementar governança de modelos com versionamento, fluxos de trabalho de aprovação e histórico de implantação auditável.

Use o Vertex AI Model Registry para versionar e armazenar modelos. Vincule a experimentos e conjuntos de dados. Use IAM e aliases de versão (por exemplo, "produção") para gerenciar aprovações de implantação.

Por quê: Centraliza o gerenciamento de modelos, permitindo governança, reprodutibilidade e recursos de rollback seguros. Integra-se com pipelines de CI/CD.

Acompanhar e comparar sistematicamente experimentos de ML, incluindo hiperparâmetros, métricas e artefatos, para garantir a reprodutibilidade.

Use o Vertex AI Experiments. Registre automaticamente parâmetros e métricas de trabalhos de treinamento. Vincule artefatos e conjuntos de dados para rastreamento completo de linhagem.

Por quê: Fornece um sistema estruturado e consultável para gerenciamento de experimentos, indo além de planilhas ou logs manuais para melhor colaboração.

Treinar e servir modelos em dados sensíveis (por exemplo, PHI, PII) enquanto atende a rigorosos requisitos de residência e segurança de dados.

Configure o Vertex AI dentro de um perímetro de Controles de Serviço de VPC. Use Private Endpoints para isolamento de rede e Chaves de Criptografia Gerenciadas pelo Cliente (CMEK) para dados em repouso.

Por quê: Cria um perímetro de rede seguro que impede a exfiltração de dados e garante que todo o processamento e trânsito de dados ocorram dentro de limites controlados.

Controlar o versionamento de dados de treinamento para garantir que os experimentos sejam reproduzíveis e que os modelos possam ser rastreados até o snapshot de dados exato usado para o treinamento.

Use Conjuntos de Dados Gerenciados do Vertex AI com versionamento. Crie novas versões de conjunto de dados para alterações significativas de dados e vincule versões específicas a execuções de treinamento.

Por quê: Fornece snapshots de dados imutáveis e versionados com rastreamento automático de linhagem no ML Metadata, crucial para conformidade e depuração.

Rotular um grande conjunto de dados não rotulados para treinamento de modelo com um orçamento limitado para anotação humana.

Implemente um loop de aprendizado ativo. Treine um modelo inicial em um pequeno subconjunto rotulado e, em seguida, use suas pontuações de incerteza para priorizar as amostras mais informativas para rotulagem humana.

Por quê: Maximiza o valor de cada amostra rotulada por humanos, reduzindo os custos e o tempo de rotulagem em comparação com a amostragem aleatória ou rotulagem exaustiva.

Escalando Protótipos para Modelos de ML

Reduzir o tempo de treinamento para um modelo grande em um conjunto de dados massivo, escalando em múltiplas GPUs ou nós.

Use uma estratégia de paralelismo de dados síncrona, como `MultiWorkerMirroredStrategy` do TensorFlow. Empacote o código de treinamento e o envie para o Vertex AI Training com uma configuração multi-worker.

Por quê: Método padrão e eficaz para escalar a maioria dos trabalhos de treinamento. O Vertex AI gerencia a configuração e sincronização do cluster, exigindo mínimas alterações de código.

Treinar um modelo de fundação (LLM) que é muito grande para caber na memória de um único acelerador (por exemplo, >50B parâmetros).

Use paralelismo 3D: Paralelismo de Tensor (divide camadas dentro dos nós), Paralelismo de Pipeline (estágios de camadas entre nós) e Paralelismo de Dados (replica através do pod). Treine em pods de TPU.

Por quê: A única forma viável de treinar modelos que excedem a memória de um único dispositivo. Cada dimensão de paralelismo aborda um gargalo de escala diferente (memória, computação, rede).

Minimizar custos para trabalhos de treinamento de longa duração e tolerantes a falhas (por exemplo, >12 horas).

Use VMs Spot (preemptíveis) para treinamento, que oferecem até 80% de economia de custo. Implemente checkpointing frequente para o Cloud Storage e configure o trabalho para reinício automático.

Por quê: Reduz drasticamente os custos de treinamento. O checkpointing garante que o progresso mínimo seja perdido em caso de preempção, tornando-a uma estratégia confiável para trabalhos não urgentes.

Encontrar eficientemente hiperparâmetros ótimos para um modelo com um espaço de busca grande e complexo.

Use o Vertex AI Hyperparameter Tuning (Vizier) com otimização Bayesiana. Defina o espaço de busca e a métrica objetivo. Habilite a parada antecipada para podar tentativas pouco promissoras.

Por quê: A otimização Bayesiana é mais eficiente em termos de amostras do que a busca em grade ou aleatória, encontrando melhores configurações com menos tentativas, economizando tempo e dinheiro.

Um trabalho de treinamento requer versões específicas de bibliotecas, kernels CUDA personalizados ou pacotes privados não disponíveis em contêineres pré-construídos.

Crie um contêiner Docker personalizado com todas as dependências fixadas. Envie o contêiner para o Artifact Registry e o referencie no trabalho de treinamento do Vertex AI.

Por quê: Fornece controle total sobre o ambiente de execução, garantindo reprodutibilidade e lidando com dependências complexas que contêineres pré-construídos não conseguem.

Treinar um modelo em um conjunto de dados BigQuery muito grande sem o atraso ou o custo de exportá-lo para o Cloud Storage.

Use a BigQuery Storage Read API diretamente do contêiner de treinamento. Isso permite streaming de dados em alta taxa de transferência e paralelo para carregadores de dados do TensorFlow ou PyTorch.

Por quê: A maneira mais rápida e eficiente de ler grandes conjuntos de dados do BQ para treinamento. Evita armazenamento intermediário e gargalos de E/S.

Referência

Servindo e Escalando Modelos

Servir um modelo com tráfego alto ou variável (por exemplo, picos de 10.000 RPS) mantendo baixa latência e otimizando custos.

Implante o modelo em um Endpoint do Vertex AI com um tipo de máquina GPU. Configure o autoscaling com contagens mínima e máxima de réplicas com base no tráfego ou utilização.

Por quê: Dimensiona automaticamente os recursos para corresponder à demanda, garantindo desempenho durante picos e economia de custos durante períodos de baixa. As GPUs proporcionam baixa latência para modelos complexos.

Servir previsões de modelo para uma base de usuários global com latência mínima em cada região.

Implante o modelo em Endpoints regionais do Vertex AI em cada geografia alvo (por exemplo, EUA, UE, APAC). Use um balanceador de carga global para rotear os usuários para o endpoint mais próximo.

Por quê: Minimiza a latência da rede, atendendo a solicitações de infraestrutura próxima ao usuário. Essencial para aplicações globais sensíveis à latência.

Implantar uma nova versão de modelo com segurança, deslocando gradualmente o tráfego enquanto monitora o desempenho.

Implante a nova versão no mesmo Vertex AI Endpoint que o modelo atual. Use a divisão de tráfego para enviar uma pequena porcentagem do tráfego (por exemplo, 5%) para a nova versão, aumentando-a gradualmente.

Por quê: Permite implantações canary e testes A/B. Permite a validação segura de novos modelos sob tráfego de produção real com capacidade de rollback imediato.

Servir recomendações em tempo real de um catálogo de milhões de itens com latência abaixo de 50ms.

Implemente uma arquitetura de duas etapas: 1) Uma etapa de recuperação rápida usando o Vertex AI Vector Search (ANN) para encontrar os principais candidatos K. 2) Uma etapa de classificação precisa que aplica um modelo mais complexo ao pequeno conjunto de candidatos.

Por quê: Equilibra precisão e latência. A recuperação ANN rápida poda o vasto espaço de itens, permitindo que o classificador computacionalmente caro opere em um subconjunto gerenciável.

Reduzir a latência de inferência do modelo para atender a requisitos estritos em tempo real (<20ms).

Aplique técnicas de otimização de modelo. Compile o modelo com TensorRT para GPU ou OpenVINO para CPU. Use quantização (por exemplo, INT8) para reduzir a precisão e aumentar o throughput.

Por quê: Estas técnicas otimizam o grafo do modelo e aproveitam a aceleração específica do hardware, frequentemente proporcionando uma redução de latência de 2-5x sem perda significativa de precisão.

Servir dezenas de modelos de baixo tráfego de forma econômica, sem provisionar recursos dedicados para cada um.

Use um endpoint multi-modelo para co-hospedar múltiplos modelos em um conjunto compartilhado de recursos de serviço. O Vertex AI carrega modelos dinamicamente com base nas solicitações recebidas.

Por quê: Reduz drasticamente os custos para servir muitos modelos com tráfego infrequente, melhorando a utilização de recursos em comparação com endpoints dedicados de modelo único.

Reduzir a latência da geração de modelos de linguagem grandes (LLM) para aplicações interativas.

Implemente a decodificação especulativa. Use um modelo "rascunho" menor e mais rápido para gerar tokens candidatos, que são então verificados em uma única passagem pelo modelo maior e mais preciso.

Por quê: Acelera significativamente a geração de tokens, substituindo a decodificação sequencial por verificação paralela, reduzindo um grande gargalo de serviço de LLM.

Automatizando e Orquestrando Pipelines de ML

Automatizar um fluxo de trabalho de ML de várias etapas, incluindo validação de dados, pré-processamento, treinamento, avaliação e implantação condicional.

Defina o fluxo de trabalho como um DAG usando Vertex AI Pipelines com o SDK do Kubeflow Pipelines (KFP). Use componentes pré-construídos ou personalizados para cada etapa.

Por quê: Fornece um serviço de orquestração gerenciado e sem servidor para ML com rastreamento de artefatos integrado, linhagem, cache e execução condicional.

Referência

Impedir que dados ruins entrem em um pipeline de treinamento e causem degradação da qualidade do modelo.

Adicione um componente TensorFlow Data Validation (TFDV) no início do pipeline. Compare as estatísticas dos dados de entrada com um esquema de base e interrompa o pipeline se desvio ou anomalias forem detectados.

Por quê: Atua como um portão de qualidade automatizado, detectando proativamente problemas de dados antes que eles desperdicem recursos de computação e resultem em um modelo falho.

Acionar automaticamente o retreinamento do modelo quando novos dados chegam ou quando o desvio do modelo é detectado.

Use uma arquitetura orientada a eventos. Uma mensagem do Pub/Sub (por exemplo, de uma atualização do Cloud Storage ou de um alerta de desvio) aciona uma Cloud Function ou um gatilho Eventarc que inicia uma execução de Pipeline do Vertex AI.

Por quê: Cria um sistema responsivo e eficiente que retreina modelos apenas quando necessário, garantindo a atualização do modelo sem execuções agendadas desnecessárias.

Automatizar a promoção do modelo para produção somente se o novo modelo superar o modelo de produção atual em métricas de negócios chave.

Em um Pipeline do Vertex AI, adicione um componente de avaliação que compare o novo modelo com uma linha de base de produção. Use um `dsl.Condition` para executar o componente de implantação somente se o novo modelo atender ou exceder o limite de desempenho.

Por quê: Automatiza o portão de qualidade final em um pipeline MLOps, prevenindo regressões de desempenho e garantindo que apenas modelos superiores sejam implantados.

Padronizar tarefas comuns (por exemplo, engenharia de recursos, avaliação) em múltiplos pipelines e equipes de ML.

Empacote a lógica compartilhada em componentes personalizados versionados e conteinerizados. Armazene-os no Artifact Registry e compartilhe-os entre projetos.

Por quê: Promove a reutilização de código, garante consistência e simplifica a manutenção. As equipes podem compor pipelines complexos a partir de uma biblioteca de componentes confiáveis e padronizados.

Acelerar o desenvolvimento de pipelines e reduzir custos, evitando computações redundantes durante execuções repetidas.

Habilite o cache de execução nos Vertex AI Pipelines. O serviço reutilizará automaticamente as saídas de um componente se suas entradas e implementação não tiverem sido alteradas.

Por quê: Acelera drasticamente o desenvolvimento iterativo, permitindo que você re-execute um pipeline e execute apenas os componentes que você alterou.

Implementar um fluxo de trabalho de CI/CD para testar e implantar automaticamente alterações no código do pipeline de ML.

Use o Cloud Build acionado por um push para um repositório Git. O processo de construção executa testes unitários de componentes, compila o pipeline e o implanta em um ambiente de staging ou produção.

Por quê: Aplica as melhores práticas de engenharia de software ao MLOps, permitindo atualizações rápidas, confiáveis e automatizadas para sistemas de ML em produção.

Monitorando e Mantendo Soluções de ML

Detectar quando o desempenho de um modelo em produção está se degradando devido a mudanças nos dados de entrada ou nos resultados previstos.

Configure o Monitoramento de Modelos do Vertex AI. Configure um trabalho para detectar desvio de treinamento-serviço (alterações na distribuição de entrada em relação ao treinamento) e desvio de previsão (alterações na distribuição de saída ao longo do tempo).

Por quê: Fornece um sistema automatizado de alerta precoce para degradação do modelo, permitindo retreinamento ou intervenção proativa antes que as métricas de negócios sejam significativamente impactadas.

Referência

O desempenho do modelo está se degradando, mas as distribuições de recursos de entrada parecem estáveis (nenhum desvio de dados detectado).

Implementar o monitoramento dos resultados da previsão em relação aos rótulos de verdade fundamental atrasados. Uma queda na precisão ou em outras métricas de avaliação indica desvio de conceito, onde a relação entre os recursos e o alvo mudou.

Por quê: O monitoramento de desvio de recursos por si só é insuficiente. O desvio de conceito requer a avaliação das previsões do modelo em relação aos dados reais para detectar mudanças nos padrões subjacentes.

Fornecer explicações para previsões individuais do modelo para atender à conformidade regulatória ou para a confiança das partes interessadas.

Habilite o Vertex AI Explainable AI no endpoint implantado. Use métodos como Sampled Shapley ou Integrated Gradients para obter atribuições de recursos para cada previsão.

Por quê: Fornece explicações locais, por previsão, que identificam quais recursos contribuíram para uma decisão, o que é essencial para auditoria e depuração de modelos "caixa-preta".

Garantir que um modelo tenha um desempenho equitativo em diferentes segmentos de usuários (por exemplo, demográficos) e detectar vieses ocultos.

Configure o monitoramento do modelo para calcular e rastrear métricas de desempenho (por exemplo, precisão, taxas de erro) em fatias dos dados definidas por atributos sensíveis.

Por quê: Métricas agregadas podem ocultar baixo desempenho para subgrupos minoritários. A análise fatiada é crucial para identificar e mitigar problemas de justiça.

Impedir que um modelo faça previsões não confiáveis e excessivamente confiantes em entradas que são fundamentalmente diferentes dos seus dados de treinamento.

Implemente um modelo de detecção de saída de distribuição (OOD) (por exemplo, um autoencoder) junto com o modelo principal. Erros de reconstrução altos sinalizam uma entrada como OOD, acionando uma lógica de fallback.

Por quê: Fornece um mecanismo de segurança contra mudança de domínio, melhorando a robustez do modelo ao identificar quando o modelo está operando fora de sua área de especialização.

Documentar o uso pretendido, limitações, dados de treinamento e avaliação de justiça de um modelo para stakeholders técnicos e não técnicos.

Crie um Model Card usando o framework do Google. Inclua seções sobre detalhes do modelo, uso pretendido, considerações éticas, análises quantitativas (incluindo métricas fatiadas) e limitações.

Por quê: Um padrão para documentação de IA responsável que promove transparência, responsabilidade e uso adequado do modelo em toda uma organização.

Manter um log pesquisável e auditável de todas as solicitações e respostas de previsão para conformidade e depuração.

Habilite o registro de acesso no Endpoint do Vertex AI. Configure os logs para serem exportados para o BigQuery para armazenamento e análise estruturados de longo prazo.

Por quê: O BigQuery fornece uma plataforma escalável e consultável para criar trilhas de auditoria, analisar tendências de previsão e unir previsões com dados de verdade fundamental.