Guía

Google Cloud Professional Machine Learning Engineer

Última revisión: mayo de 2026

Una referencia escaneable de patrones arquitectónicos que evalúa el examen PMLE. Lee de arriba a abajo o salta a una sección.

Arquitectando Soluciones de ML

Construir modelos de clasificación, regresión o recomendación sobre grandes conjuntos de datos tabulares en BigQuery para equipos con sólidas habilidades SQL.

Usar BigQuery ML con sintaxis SQL (ej., `CREATE MODEL ... OPTIONS(model_type='BOOSTED_TREE_CLASSIFIER')`). Habilitar la explicabilidad con `EXPLAIN_PREDICT`.

Por qué: Evita el movimiento de datos y aprovecha las habilidades SQL existentes para un desarrollo rápido. Mantiene la gobernanza de datos dentro de BigQuery y proporciona explicabilidad integrada.

Referencia

Extraer datos estructurados (ej., nombres, fechas, códigos) de documentos no estructurados como formularios o facturas con mínima experiencia en ML.

Usar Document AI con un procesador preentrenado o personalizado. Entrenar un procesador personalizado con documentos de muestra etiquetados para diseños especializados.

Por qué: Un servicio gestionado y especializado para el análisis de documentos que supera la construcción de OCR personalizado y la lógica de análisis desde cero.

Referencia

Analizar datos no estructurados como audio o texto para sentimiento, entidades o temas sin entrenar un modelo personalizado.

Encadenar APIs preentrenadas. Ejemplo: API de Speech-to-Text para transcripción, seguida de la API de Natural Language para análisis de entidades y sentimiento.

Por qué: El tiempo de comercialización más rápido para casos de uso comunes. Aprovecha modelos entrenados por Google sin requerir etiquetado de datos ni entrenamiento de modelos.

Construir un modelo personalizado de alta calidad para imágenes, video o datos tabulares con datos etiquetados pero con experiencia limitada en codificación de ML.

Usar Vertex AI AutoML (ej., AutoML Vision Object Detection). Proporcionar datos etiquetados y dejar que el servicio maneje la búsqueda de arquitectura y el entrenamiento.

Por qué: Equilibra las necesidades de modelos personalizados con la facilidad de uso. Supera a las APIs preentrenadas genéricas para tareas personalizadas (ej., identificar productos específicos).

Referencia

Construir una IA conversacional o asistente de conocimiento que responda preguntas basándose en un corpus de documentos grande y propietario.

Implementar un patrón de Generación Aumentada por Recuperación (RAG). Usar Vertex AI Vector Search para encontrar fragmentos de documentos relevantes y pasarlos como contexto a un modelo Gemini para la generación de respuestas fundamentadas.

Por qué: Fundamenta las respuestas de LLM en datos fácticos, reduciendo las alucinaciones y proporcionando citas. Más escalable y actualizado que el ajuste fino para el conocimiento.

Crear un chatbot o motor de búsqueda de nivel empresarial con código mínimo, conectado a fuentes de datos internas como Cloud Storage o BigQuery.

Usar Vertex AI Agent Builder. Configurar conectores de almacenes de datos a su base de conocimiento y usar herramientas (llamada a funciones) para búsquedas de datos en tiempo real.

Por qué: Solución de bajo código que automatiza la creación de pipelines RAG, incluyendo el análisis de documentos, la fragmentación, la incrustación y la recuperación, para una implementación rápida.

Realizar detección de defectos en tiempo real en flujos de video de alto volumen de cámaras de fabricación con latencia inferior a un segundo.

Desplegar modelos optimizados en dispositivos de borde usando Vertex AI Edge Manager. Realizar inferencia localmente y enviar solo metadatos de defectos a la nube para monitoreo.

Por qué: Maneja requisitos de alto ancho de banda y baja latencia que son inviables o prohibitivos en cuanto a costos con un enfoque solo en la nube.

Colaborando y Gestionando Datos/Modelos

Gestionar características de ML para asegurar la coherencia entre el entrenamiento por lotes y el servicio en tiempo real, previniendo el sesgo de entrenamiento-servicio.

Usar Vertex AI Feature Store. Definir grupos de características con diferentes programaciones de sincronización (por lotes, streaming). Usar consultas de viaje en el tiempo para datos de entrenamiento correctos en un punto específico del tiempo.

Por qué: Proporciona un repositorio centralizado de características, asegura definiciones de características consistentes y resuelve la corrección en un punto específico del tiempo para los datos de entrenamiento.

Referencia

Implementar la gobernanza de modelos con versionado, flujos de trabajo de aprobación e historial de despliegue auditable.

Usar Vertex AI Model Registry para versionar y almacenar modelos. Vincular a experimentos y conjuntos de datos. Usar IAM y alias de versión (ej., "production") para gestionar las aprobaciones de despliegue.

Por qué: Centraliza la gestión de modelos, habilitando la gobernanza, la reproducibilidad y las capacidades de reversión segura. Se integra con pipelines de CI/CD.

Rastrear y comparar sistemáticamente experimentos de ML, incluyendo hiperparámetros, métricas y artefactos, para asegurar la reproducibilidad.

Usar Vertex AI Experiments. Registrar automáticamente parámetros y métricas de los trabajos de entrenamiento. Vincular artefactos y conjuntos de datos para un seguimiento completo del linaje.

Por qué: Proporciona un sistema estructurado y consultable para la gestión de experimentos, yendo más allá de las hojas de cálculo o registros manuales para una mejor colaboración.

Entrenar y servir modelos sobre datos sensibles (ej., PHI, PII) cumpliendo con estrictos requisitos de residencia de datos y seguridad.

Configurar Vertex AI dentro de un perímetro de VPC Service Controls. Usar Private Endpoints para aislamiento de red y Claves de Cifrado Gestionadas por el Cliente (CMEK) para datos en reposo.

Por qué: Crea un perímetro de red seguro que previene la exfiltración de datos y asegura que todo el procesamiento y tránsito de datos ocurran dentro de límites controlados.

Controlar versiones de datos de entrenamiento para asegurar que los experimentos sean reproducibles y los modelos puedan rastrearse hasta la instantánea exacta de datos utilizada para el entrenamiento.

Usar conjuntos de datos gestionados de Vertex AI con versionado. Crear nuevas versiones de conjuntos de datos para cambios significativos y vincular versiones específicas a ejecuciones de entrenamiento.

Por qué: Proporciona instantáneas de datos inmutables y versionadas con seguimiento automático de linaje en ML Metadata, crucial para el cumplimiento y la depuración.

Etiquetar un gran conjunto de datos sin etiquetar para el entrenamiento de modelos con un presupuesto limitado para anotación humana.

Implementar un ciclo de aprendizaje activo. Entrenar un modelo inicial en un pequeño subconjunto etiquetado, luego usar sus puntuaciones de incertidumbre para priorizar las muestras más informativas para el etiquetado humano.

Por qué: Maximiza el valor de cada muestra etiquetada manualmente, reduciendo los costos y el tiempo de etiquetado en comparación con el muestreo aleatorio o el etiquetado exhaustivo.

Escalando Prototipos a Modelos de ML

Reducir el tiempo de entrenamiento para un modelo grande en un conjunto de datos masivo escalando a través de múltiples GPUs o nodos.

Usar una estrategia de paralelismo de datos síncrono, como `MultiWorkerMirroredStrategy` de TensorFlow. Empaquetar el código de entrenamiento y enviarlo a Vertex AI Training con una configuración de múltiples trabajadores.

Por qué: Método estándar y efectivo para escalar la mayoría de los trabajos de entrenamiento. Vertex AI gestiona la configuración y sincronización del clúster, requiriendo cambios mínimos en el código.

Entrenar un modelo fundacional (LLM) que es demasiado grande para caber en la memoria de un solo acelerador (ej., >50B parámetros).

Usar paralelismo 3D: Paralelismo de Tensor (divide capas dentro de nodos), Paralelismo de Pipeline (organiza capas a través de nodos) y Paralelismo de Datos (replica a través del pod). Entrenar en pods de TPU.

Por qué: La única forma factible de entrenar modelos que exceden la memoria de un solo dispositivo. Cada dimensión de paralelismo aborda un cuello de botella de escalado diferente (memoria, computación, red).

Minimizar costos para trabajos de entrenamiento de larga duración y tolerantes a fallos (ej., >12 horas).

Usar VMs Spot (preemptivas) para el entrenamiento, que ofrecen hasta un 80% de ahorro de costos. Implementar puntos de control frecuentes en Cloud Storage y configurar el trabajo para reinicio automático.

Por qué: Reduce drásticamente los costos de entrenamiento. El uso de puntos de control asegura que se pierda un progreso mínimo en caso de interrupción, lo que la convierte en una estrategia confiable para trabajos no urgentes.

Encontrar eficientemente hiperparámetros óptimos para un modelo con un espacio de búsqueda grande y complejo.

Usar Vertex AI Hyperparameter Tuning (Vizier) con optimización bayesiana. Definir el espacio de búsqueda y la métrica objetivo. Habilitar la parada anticipada para podar pruebas poco prometedoras.

Por qué: La optimización bayesiana es más eficiente en muestras que la búsqueda en cuadrícula o aleatoria, encontrando mejores configuraciones con menos pruebas, ahorrando tiempo y dinero.

Un trabajo de entrenamiento requiere versiones específicas de librerías, kernels CUDA personalizados o paquetes privados no disponibles en contenedores preconstruidos.

Construir un contenedor Docker personalizado con todas las dependencias fijadas. Subir el contenedor a Artifact Registry y referenciarlo en el trabajo de entrenamiento de Vertex AI.

Por qué: Proporciona control total sobre el entorno de ejecución, asegurando la reproducibilidad y el manejo de dependencias complejas que los contenedores preconstruidos no pueden.

Entrenar un modelo en un conjunto de datos muy grande de BigQuery sin la demora o el costo de exportarlo a Cloud Storage.

Usar la API de lectura de BigQuery Storage directamente desde el contenedor de entrenamiento. Esto permite el streaming paralelo de datos de alto rendimiento en cargadores de datos de TensorFlow o PyTorch.

Por qué: La forma más rápida y eficiente de leer grandes conjuntos de datos de BQ para el entrenamiento. Evita el almacenamiento intermedio y los cuellos de botella de E/S.

Referencia

Sirviendo y Escalando Modelos

Servir un modelo con tráfico alto o variable (ej., picos de 10.000 RPS) manteniendo baja latencia y optimizando costos.

Desplegar el modelo en un Endpoint de Vertex AI con un tipo de máquina GPU. Configurar el autoescalado con recuentos mínimos y máximos de réplicas basados en el tráfico o la utilización.

Por qué: Escala automáticamente los recursos para satisfacer la demanda, asegurando el rendimiento durante los picos y el ahorro de costos durante los períodos de baja actividad. Las GPUs proporcionan baja latencia para modelos complejos.

Servir predicciones de modelos a una base de usuarios global con mínima latencia en cada región.

Desplegar el modelo en Endpoints regionales de Vertex AI en cada geografía objetivo (ej., EE. UU., UE, APAC). Usar un balanceador de carga global para dirigir a los usuarios al endpoint más cercano.

Por qué: Minimiza la latencia de red al servir solicitudes desde infraestructura cercana al usuario. Esencial para aplicaciones globales sensibles a la latencia.

Desplegar una nueva versión de modelo de forma segura, desviando el tráfico gradualmente mientras se monitorea el rendimiento.

Desplegar la nueva versión en el mismo Endpoint de Vertex AI que el modelo actual. Usar la división de tráfico para enviar un pequeño porcentaje del tráfico (ej., 5%) a la nueva versión, aumentándolo gradualmente.

Por qué: Permite despliegues canary y pruebas A/B. Permite una validación segura de nuevos modelos bajo tráfico de producción real con capacidad de reversión inmediata.

Servir recomendaciones en tiempo real de un catálogo de millones de artículos con latencia inferior a 50 ms.

Implementar una arquitectura de dos etapas: 1) Una etapa de recuperación rápida usando Vertex AI Vector Search (ANN) para encontrar los K mejores candidatos. 2) Una etapa de clasificación precisa que aplica un modelo más complejo al pequeño conjunto de candidatos.

Por qué: Equilibra precisión y latencia. La rápida recuperación ANN poda el vasto espacio de elementos, permitiendo que el clasificador computacionalmente costoso opere en un subconjunto manejable.

Reducir la latencia de inferencia del modelo para cumplir estrictos requisitos en tiempo real (<20ms).

Aplicar técnicas de optimización de modelos. Compilar el modelo con TensorRT para GPU o OpenVINO para CPU. Usar cuantificación (ej., INT8) para reducir la precisión y aumentar el rendimiento.

Por qué: Estas técnicas optimizan el grafo del modelo y aprovechan la aceleración específica del hardware, a menudo proporcionando una reducción de latencia de 2 a 5 veces sin una pérdida significativa de precisión.

Servir docenas de modelos de bajo tráfico de manera rentable sin provisionar recursos dedicados para cada uno.

Usar un endpoint multi-modelo para alojar varios modelos en un conjunto compartido de recursos de servicio. Vertex AI carga dinámicamente los modelos basándose en las solicitudes entrantes.

Por qué: Reduce drásticamente los costos de servir muchos modelos con tráfico infrecuente al mejorar la utilización de recursos en comparación con los endpoints dedicados de un solo modelo.

Reducir la latencia de generación de modelos de lenguaje grandes (LLM) para aplicaciones interactivas.

Implementar decodificación especulativa. Usar un modelo "borrador" más pequeño y rápido para generar tokens candidatos, que luego son verificados en una sola pasada por el modelo más grande y preciso.

Por qué: Acelera significativamente la generación de tokens al reemplazar la decodificación secuencial con verificación paralela, reduciendo un importante cuello de botella en el servicio de LLM.

Automatizando y Orquestando Pipelines de ML

Automatizar un flujo de trabajo de ML de varios pasos que incluye validación de datos, preprocesamiento, entrenamiento, evaluación y despliegue condicional.

Definir el flujo de trabajo como un DAG usando Vertex AI Pipelines con el SDK de Kubeflow Pipelines (KFP). Usar componentes preconstruidos o personalizados para cada paso.

Por qué: Proporciona un servicio de orquestación gestionado y sin servidor para ML con seguimiento de artefactos, linaje, almacenamiento en caché y ejecución condicional incorporados.

Referencia

Prevenir que datos defectuosos entren en un pipeline de entrenamiento y causen la degradación de la calidad del modelo.

Añadir un componente de TensorFlow Data Validation (TFDV) al principio del pipeline. Comparar las estadísticas de los datos entrantes con un esquema de referencia y detener el pipeline si se detecta deriva o anomalías.

Por qué: Actúa como una puerta de calidad automatizada, detectando problemas de datos de forma proactiva antes de que desperdicien recursos computacionales y resulten en un modelo defectuoso.

Activar automáticamente el reentrenamiento del modelo cuando llegan nuevos datos o cuando se detecta deriva del modelo.

Usar una arquitectura basada en eventos. Un mensaje de Pub/Sub (ej., de una actualización de Cloud Storage o una alerta de deriva) activa una Cloud Function o un disparador de Eventarc que inicia una ejecución de Vertex AI Pipeline.

Por qué: Crea un sistema responsivo y eficiente que reentrena modelos solo cuando es necesario, asegurando la frescura del modelo sin ejecuciones programadas derrochadoras.

Automatizar la promoción del modelo a producción solo si el nuevo modelo supera al modelo de producción actual en métricas clave de negocio.

En un Pipeline de Vertex AI, añadir un componente de evaluación que compare el nuevo modelo con una línea base de producción. Usar un `dsl.Condition` para ejecutar el componente de despliegue solo si el nuevo modelo cumple o excede el umbral de rendimiento.

Por qué: Automatiza la puerta de calidad final en un pipeline de MLOps, previniendo regresiones de rendimiento y asegurando que solo se desplieguen modelos superiores.

Estandarizar tareas comunes (ej., ingeniería de características, evaluación) a través de múltiples pipelines de ML y equipos.

Empaquetar la lógica compartida en componentes personalizados versionados y contenerizados. Almacenarlos en Artifact Registry y compartirlos entre proyectos.

Por qué: Promueve la reutilización de código, asegura la coherencia y simplifica el mantenimiento. Los equipos pueden componer pipelines complejos a partir de una biblioteca de componentes confiables y estandarizados.

Acelerar el desarrollo de pipelines y reducir costos evitando computaciones redundantes durante ejecuciones repetidas.

Habilitar el caché de ejecución en Vertex AI Pipelines. El servicio reutilizará automáticamente las salidas de un componente si sus entradas e implementación no han cambiado.

Por qué: Acelera drásticamente el desarrollo iterativo al permitirte volver a ejecutar un pipeline y solo ejecutar los componentes que has cambiado.

Implementar un flujo de trabajo de CI/CD para probar y desplegar automáticamente cambios en el código del pipeline de ML.

Usar Cloud Build activado por un push a un repositorio Git. El proceso de construcción ejecuta pruebas unitarias de componentes, compila el pipeline y lo despliega en un entorno de staging o producción.

Por qué: Aplica las mejores prácticas de ingeniería de software a MLOps, permitiendo actualizaciones rápidas, fiables y automatizadas a los sistemas de ML en producción.

Monitoreando y Manteniendo Soluciones de ML

Detectar cuándo el rendimiento de un modelo en producción se está degradando debido a cambios en los datos entrantes o los resultados predichos.

Configurar Vertex AI Model Monitoring. Configurar un trabajo para detectar el sesgo de entrenamiento-servicio (cambios en la distribución de entrada desde el entrenamiento) y la deriva de predicción (cambios en la distribución de salida con el tiempo).

Por qué: Proporciona un sistema de alerta temprana automatizado para la degradación del modelo, permitiendo el reentrenamiento proactivo o la intervención antes de que las métricas de negocio se vean significativamente afectadas.

Referencia

El rendimiento del modelo se está degradando, pero las distribuciones de las características de entrada parecen estables (no se detecta deriva de datos).

Implementar monitoreo de los resultados de la predicción frente a etiquetas de verdad fundamental retrasadas. Una caída en la precisión u otras métricas de evaluación indica deriva de concepto, donde la relación entre las características y el objetivo ha cambiado.

Por qué: El monitoreo de deriva de características por sí solo es insuficiente. La deriva de concepto requiere evaluar las predicciones del modelo frente a los valores reales para detectar cambios en los patrones subyacentes.

Proporcionar explicaciones para predicciones individuales del modelo para cumplir con la conformidad regulatoria o para la confianza de las partes interesadas.

Habilitar Vertex AI Explainable AI en el endpoint desplegado. Usar métodos como Sampled Shapley o Integrated Gradients para obtener atribuciones de características para cada predicción.

Por qué: Proporciona explicaciones locales, por predicción, que identifican qué características contribuyeron a una decisión, lo cual es esencial para auditar y depurar modelos de "caja negra".

Asegurar que un modelo se desempeñe equitativamente en diferentes segmentos de usuarios (ej., datos demográficos) y detectar sesgos ocultos.

Configurar el monitoreo del modelo para calcular y rastrear métricas de rendimiento (ej., precisión, tasas de error) en segmentos de los datos definidos por atributos sensibles.

Por qué: Las métricas agregadas pueden ocultar un rendimiento deficiente para subgrupos minoritarios. El análisis segmentado es crucial para identificar y mitigar problemas de equidad.

Evitar que un modelo realice predicciones poco fiables y excesivamente seguras sobre entradas que son fundamentalmente diferentes de sus datos de entrenamiento.

Implementar un modelo de detección de fuera de distribución (OOD) (ej., un autoencoder) junto con el modelo principal. Un alto error de reconstrucción marca una entrada como OOD, activando una lógica de fallback.

Por qué: Proporciona un mecanismo de seguridad contra el cambio de dominio, mejorando la robustez del modelo al identificar cuándo el modelo está operando fuera de su área de especialización.

Documentar el uso previsto de un modelo, sus limitaciones, datos de entrenamiento y evaluación de equidad para partes interesadas técnicas y no técnicas.

Crear una Tarjeta de Modelo utilizando el framework de Google. Incluir secciones sobre detalles del modelo, uso previsto, consideraciones éticas, análisis cuantitativos (incluyendo métricas segmentadas) y limitaciones.

Por qué: Un estándar para la documentación de IA responsable que promueve la transparencia, la rendición de cuentas y el uso adecuado del modelo en toda una organización.

Mantener un registro auditable y con capacidad de búsqueda de todas las solicitudes y respuestas de predicción para cumplimiento y depuración.

Habilitar el registro de acceso en el Endpoint de Vertex AI. Configurar los registros para que se exporten a BigQuery para almacenamiento y análisis estructurado a largo plazo.

Por qué: BigQuery proporciona una plataforma escalable y consultable para crear pistas de auditoría, analizar tendencias de predicción y unir predicciones con datos de verdad fundamental.