Guide

Google Cloud Professional Machine Learning Engineer

Dernière révision : mai 2026

Une référence concise des modèles d'architecture évalués par l'examen PMLE. Lisez de haut en bas ou sautez à une section.

Conception d'architectures de solutions ML

Construire des modèles de classification, de régression ou de recommandation sur de grands ensembles de données tabulaires dans BigQuery pour des équipes ayant de solides compétences SQL.

Utiliser BigQuery ML avec la syntaxe SQL (par exemple, `CREATE MODEL ... OPTIONS(model_type='BOOSTED_TREE_CLASSIFIER')`). Activer l'explicabilité avec `EXPLAIN_PREDICT`.

Pourquoi: Évite le déplacement des données et exploite les compétences SQL existantes pour un développement rapide. Maintient la gouvernance des données au sein de BigQuery et fournit une explicabilité intégrée.

Référence

Extraire des données structurées (par exemple, noms, dates, codes) de documents non structurés comme des formulaires ou des factures avec une expertise ML minimale.

Utiliser Document AI avec un processeur pré-entraîné ou personnalisé. Entraîner un processeur personnalisé avec des exemples de documents étiquetés pour des mises en page spécialisées.

Pourquoi: Un service géré et spécialisé pour l'analyse de documents qui surpasse la création de logiques OCR et d'analyse personnalisées à partir de zéro.

Référence

Analyser des données non structurées comme l'audio ou le texte pour le sentiment, les entités ou les sujets sans entraîner de modèle personnalisé.

Chaîner les API pré-entraînées. Exemple : l'API Speech-to-Text pour la transcription, suivie de l'API Natural Language pour l'analyse d'entités et de sentiments.

Pourquoi: Délai de mise sur le marché le plus rapide pour les cas d'utilisation courants. Exploite les modèles entraînés par Google sans nécessiter d'étiquetage de données ni d'entraînement de modèle.

Construire un modèle personnalisé d'image, de vidéo ou tabulaire de haute qualité avec des données étiquetées mais une expertise limitée en codage ML.

Utiliser Vertex AI AutoML (par exemple, AutoML Vision Object Detection). Fournir des données étiquetées et laisser le service gérer la recherche d'architecture et l'entraînement.

Pourquoi: Équilibre les besoins de modèles personnalisés avec la facilité d'utilisation. Surpasse les API pré-entraînées génériques pour les tâches personnalisées (par exemple, l'identification de produits spécifiques).

Référence

Construire une IA conversationnelle ou un assistant de connaissances qui répond aux questions sur la base d'un vaste corpus de documents propriétaires.

Mettre en œuvre un modèle de génération augmentée par récupération (RAG). Utiliser Vertex AI Vector Search pour trouver des fragments de documents pertinents et les transmettre comme contexte à un modèle Gemini pour une génération de réponses fondée.

Pourquoi: Fonde les réponses des LLM sur des données factuelles, réduisant les hallucinations et fournissant des citations. Plus évolutif et à jour que le fine-tuning pour la connaissance.

Créer un chatbot ou un moteur de recherche de qualité entreprise avec un minimum de code, connecté à des sources de données internes comme Cloud Storage ou BigQuery.

Utiliser Vertex AI Agent Builder. Configurer les connecteurs de datastore à votre base de connaissances et utiliser des outils (appel de fonction) pour des recherches de données en temps réel.

Pourquoi: Solution low-code qui automatise la création de pipelines RAG, y compris l'analyse, le découpage, l'intégration (embedding) et la récupération de documents, pour un déploiement rapide.

Effectuer une détection de défauts en temps réel sur des flux vidéo à grand volume provenant de caméras de fabrication avec une latence inférieure à la seconde.

Déployer des modèles optimisés sur des appareils Edge à l'aide de Vertex AI Edge Manager. Effectuer l'inférence localement et n'envoyer que les métadonnées de défaut au cloud pour la surveillance.

Pourquoi: Gère les exigences de bande passante élevée et de faible latence qui sont infaisables ou prohibitivement coûteuses avec une approche uniquement basée sur le cloud.

Collaboration et gestion des données/modèles

Gérer les fonctionnalités ML pour assurer la cohérence entre l'entraînement par lots et la diffusion en temps réel, évitant ainsi le décalage entraînement-diffusion (training-serving skew).

Utiliser Vertex AI Feature Store. Définir des groupes de fonctionnalités avec différents calendriers de synchronisation (batch, streaming). Utiliser des requêtes "time-travel" pour des données d'entraînement correctes à un instant T.

Pourquoi: Fournit un référentiel de fonctionnalités centralisé, assure des définitions de fonctionnalités cohérentes et résout la correction des données d'entraînement à un instant T.

Référence

Mettre en œuvre la gouvernance des modèles avec le versionnement, les workflows d'approbation et un historique de déploiement auditable.

Utiliser Vertex AI Model Registry pour versionner et stocker les modèles. Lier aux expériences et aux jeux de données. Utiliser IAM et des alias de version (par exemple, "production") pour gérer les approbations de déploiement.

Pourquoi: Centralise la gestion des modèles, permettant la gouvernance, la reproductibilité et des capacités de restauration sûres. S'intègre aux pipelines CI/CD.

Suivre et comparer systématiquement les expériences ML, y compris les hyperparamètres, les métriques et les artefacts, pour assurer la reproductibilité.

Utiliser Vertex AI Experiments. Enregistrer automatiquement les paramètres et les métriques des tâches d'entraînement. Lier les artefacts et les jeux de données pour un suivi complet de la lignée.

Pourquoi: Fournit un système structuré et interrogeable pour la gestion des expériences, allant au-delà des feuilles de calcul ou des journaux manuels pour une meilleure collaboration.

Entraîner et servir des modèles sur des données sensibles (par exemple, PHI, PII) tout en respectant des exigences strictes de résidence des données et de sécurité.

Configurer Vertex AI au sein d'un périmètre VPC Service Controls. Utiliser des Private Endpoints pour l'isolation réseau et des clés de chiffrement gérées par le client (CMEK) pour les données au repos.

Pourquoi: Crée un périmètre réseau sécurisé qui empêche l'exfiltration de données et garantit que tout le traitement et le transit des données se produisent dans des limites contrôlées.

Contrôler la version des données d'entraînement pour garantir la reproductibilité des expériences et que les modèles puissent être tracés jusqu'à l'instantané exact des données utilisé pour l'entraînement.

Utiliser les jeux de données gérés de Vertex AI avec versionnement. Créer de nouvelles versions de jeux de données pour les changements de données significatifs et lier des versions spécifiques aux exécutions d'entraînement.

Pourquoi: Fournit des instantanés de données immuables et versionnés avec un suivi automatique de la lignée dans les métadonnées ML, crucial pour la conformité et le débogage.

Étiqueter un grand ensemble de données non étiquetées pour l'entraînement de modèles avec un budget limité pour l'annotation humaine.

Mettre en œuvre une boucle d'apprentissage actif (active learning). Entraîner un modèle initial sur un petit sous-ensemble étiqueté, puis utiliser ses scores d'incertitude pour prioriser les échantillons les plus informatifs pour l'étiquetage humain.

Pourquoi: Maximise la valeur de chaque échantillon étiqueté par l'homme, réduisant les coûts et le temps d'étiquetage par rapport à l'échantillonnage aléatoire ou à l'étiquetage exhaustif.

Mise à l'échelle des prototypes en modèles ML

Réduire le temps d'entraînement pour un grand modèle sur un ensemble de données massif en le mettant à l'échelle sur plusieurs GPU ou nœuds.

Utiliser une stratégie de parallélisme de données synchrone, telle que `MultiWorkerMirroredStrategy` de TensorFlow. Empaqueter le code d'entraînement et le soumettre à Vertex AI Training avec une configuration multi-worker.

Pourquoi: Méthode standard et efficace pour la mise à l'échelle de la plupart des tâches d'entraînement. Vertex AI gère la configuration du cluster et la synchronisation, nécessitant des changements de code minimaux.

Entraîner un modèle de fondation (LLM) trop volumineux pour tenir dans la mémoire d'un seul accélérateur (par exemple, >50 milliards de paramètres).

Utiliser le parallélisme 3D : parallélisme tensoriel (sharding des couches au sein des nœuds), parallélisme pipeline (étagement des couches à travers les nœuds) et parallélisme de données (réplication à travers le pod). Entraîner sur des pods TPU.

Pourquoi: La seule façon réalisable d'entraîner des modèles qui dépassent la mémoire d'un seul appareil. Chaque dimension de parallélisme s'attaque à un goulot d'étranglement de mise à l'échelle différent (mémoire, calcul, réseau).

Minimiser les coûts pour les tâches d'entraînement de longue durée et tolérantes aux pannes (par exemple, >12 heures).

Utiliser des VM Spot (préemptibles) pour l'entraînement, qui offrent jusqu'à 80% d'économies. Mettre en œuvre un checkpointing fréquent vers Cloud Storage et configurer la tâche pour un redémarrage automatique.

Pourquoi: Réduit drastiquement les coûts d'entraînement. Le checkpointing garantit une perte minimale de progression en cas de préemption, ce qui en fait une stratégie fiable pour les tâches non urgentes.

Trouver efficacement les hyperparamètres optimaux pour un modèle avec un espace de recherche vaste et complexe.

Utiliser Vertex AI Hyperparameter Tuning (Vizier) avec l'optimisation bayésienne. Définir l'espace de recherche et la métrique objective. Activer l'arrêt précoce pour élaguer les essais non prometteurs.

Pourquoi: L'optimisation bayésienne est plus efficace en termes d'échantillons que la recherche par grille ou aléatoire, trouvant de meilleures configurations avec moins d'essais, économisant du temps et de l'argent.

Une tâche d'entraînement nécessite des versions de bibliothèque spécifiques, des noyaux CUDA personnalisés ou des packages privés non disponibles dans les conteneurs pré-construits.

Construire un conteneur Docker personnalisé avec toutes les dépendances épinglées. Pousser le conteneur vers Artifact Registry et le référencer dans la tâche d'entraînement Vertex AI.

Pourquoi: Offre un contrôle total sur l'environnement d'exécution, garantissant la reproductibilité et la gestion des dépendances complexes que les conteneurs pré-construits ne peuvent pas gérer.

Entraîner un modèle sur un très grand ensemble de données BigQuery sans le délai ni le coût de son exportation vers Cloud Storage.

Utiliser l'API BigQuery Storage Read directement depuis le conteneur d'entraînement. Cela permet un streaming de données parallèle et à haut débit dans les chargeurs de données TensorFlow ou PyTorch.

Pourquoi: Moyen le plus rapide et le plus efficace de lire de grands ensembles de données BQ pour l'entraînement. Évite le stockage intermédiaire et les goulots d'étranglement I/O.

Référence

Déploiement et mise à l'échelle des modèles

Servir un modèle avec un trafic élevé ou variable (par exemple, des pics de 10 000 RPS) tout en maintenant une faible latence et en optimisant les coûts.

Déployer le modèle sur un Vertex AI Endpoint avec un type de machine GPU. Configurer l'autoscaling avec des nombres de réplicas minimum et maximum basés sur le trafic ou l'utilisation.

Pourquoi: Adapte automatiquement les ressources à la demande, assurant les performances pendant les pics et les économies de coûts pendant les périodes creuses. Les GPU offrent une faible latence pour les modèles complexes.

Servir les prédictions de modèles à une base d'utilisateurs mondiale avec une latence minimale dans chaque région.

Déployer le modèle sur des Vertex AI Endpoints régionaux dans chaque zone géographique cible (par exemple, États-Unis, UE, APAC). Utiliser un équilibreur de charge global pour acheminer les utilisateurs vers le point de terminaison le plus proche.

Pourquoi: Minimise la latence réseau en servant les requêtes depuis une infrastructure proche de l'utilisateur. Essentiel pour les applications globales sensibles à la latence.

Déployer une nouvelle version de modèle en toute sécurité en déplaçant progressivement le trafic tout en surveillant les performances.

Déployer la nouvelle version sur le même Vertex AI Endpoint que le modèle actuel. Utiliser le partage de trafic (traffic splitting) pour envoyer un petit pourcentage du trafic (par exemple, 5 %) à la nouvelle version, en l'augmentant progressivement.

Pourquoi: Permet les déploiements canary et les tests A/B. Permet une validation sûre des nouveaux modèles sous un trafic de production réel avec une capacité de retour en arrière immédiate.

Servir des recommandations en temps réel à partir d'un catalogue de millions d'articles avec une latence inférieure à 50 ms.

Mettre en œuvre une architecture en deux étapes : 1) Une étape de récupération rapide utilisant Vertex AI Vector Search (ANN) pour trouver les K meilleurs candidats. 2) Une étape de classement précis qui applique un modèle plus complexe au petit ensemble de candidats.

Pourquoi: Équilibre précision et latence. La récupération ANN rapide élague le vaste espace d'éléments, permettant au classificateur coûteux en calcul d'opérer sur un sous-ensemble gérable.

Réduire la latence d'inférence du modèle pour répondre à des exigences strictes en temps réel (<20ms).

Appliquer des techniques d'optimisation de modèle. Compiler le modèle avec TensorRT pour GPU ou OpenVINO pour CPU. Utiliser la quantification (par exemple, INT8) pour réduire la précision et augmenter le débit.

Pourquoi: Ces techniques optimisent le graphe du modèle et exploitent l'accélération spécifique au matériel, offrant souvent une réduction de latence de 2 à 5 fois sans perte significative de précision.

Servir des dizaines de modèles à faible trafic de manière rentable sans provisionner de ressources dédiées pour chacun.

Utiliser un point de terminaison multi-modèle pour héberger plusieurs modèles sur un ensemble partagé de ressources de service. Vertex AI charge dynamiquement les modèles en fonction des requêtes entrantes.

Pourquoi: Réduit considérablement les coûts de service de nombreux modèles avec un trafic peu fréquent en améliorant l'utilisation des ressources par rapport aux points de terminaison dédiés à un seul modèle.

Réduire la latence de la génération de grands modèles de langage (LLM) pour les applications interactives.

Mettre en œuvre le décodage spéculatif. Utiliser un modèle "brouillon" plus petit et plus rapide pour générer des jetons candidats, qui sont ensuite vérifiés en un seul passage par le modèle plus grand et plus précis.

Pourquoi: Accélère considérablement la génération de jetons en remplaçant le décodage séquentiel par une vérification parallèle, réduisant ainsi un goulot d'étranglement majeur du service LLM.

Automatisation et orchestration des pipelines ML

Automatiser un workflow ML multi-étapes incluant la validation des données, le prétraitement, l'entraînement, l'évaluation et le déploiement conditionnel.

Définir le workflow comme un DAG utilisant Vertex AI Pipelines avec le SDK Kubeflow Pipelines (KFP). Utiliser des composants pré-construits ou personnalisés pour chaque étape.

Pourquoi: Fournit un service d'orchestration géré et sans serveur pour le ML avec suivi intégré des artefacts, lignage, mise en cache et exécution conditionnelle.

Référence

Empêcher l'entrée de données incorrectes dans un pipeline d'entraînement, ce qui dégraderait la qualité du modèle.

Ajouter un composant TensorFlow Data Validation (TFDV) tôt dans le pipeline. Comparer les statistiques des données entrantes avec un schéma de référence et arrêter le pipeline si des dérives ou des anomalies sont détectées.

Pourquoi: Agit comme une porte de qualité automatisée, détectant les problèmes de données de manière proactive avant qu'ils ne gaspillent des ressources de calcul et n'entraînent un modèle défectueux.

Déclencher automatiquement le réentraînement du modèle lorsque de nouvelles données arrivent ou lorsque une dérive du modèle est détectée.

Utiliser une architecture événementielle. Un message Pub/Sub (par exemple, d'une mise à jour Cloud Storage ou d'une alerte de dérive) déclenche une Cloud Function ou un déclencheur Eventarc qui démarre une exécution de Vertex AI Pipeline.

Pourquoi: Crée un système réactif et efficace qui réentraîne les modèles uniquement lorsque cela est nécessaire, assurant la fraîcheur du modèle sans exécutions planifiées inutiles.

Automatiser la promotion du modèle en production uniquement si le nouveau modèle surpasse le modèle de production actuel sur les métriques métier clés.

Dans un pipeline Vertex AI, ajouter un composant d'évaluation qui compare le nouveau modèle à une référence de production. Utiliser une `dsl.Condition` pour exécuter le composant de déploiement uniquement si le nouveau modèle atteint ou dépasse le seuil de performance.

Pourquoi: Automatise la porte de qualité finale dans un pipeline MLOps, empêchant les régressions de performance et garantissant que seuls les modèles supérieurs sont déployés.

Standardiser les tâches courantes (par exemple, ingénierie des fonctionnalités, évaluation) à travers plusieurs pipelines ML et équipes.

Empaqueter la logique partagée dans des composants personnalisés versionnés et conteneurisés. Les stocker dans Artifact Registry et les partager entre les projets.

Pourquoi: Favorise la réutilisation du code, assure la cohérence et simplifie la maintenance. Les équipes peuvent composer des pipelines complexes à partir d'une bibliothèque de composants fiables et standardisés.

Accélérer le développement de pipelines et réduire les coûts en évitant les calculs redondants lors des exécutions répétées.

Activer la mise en cache d'exécution dans Vertex AI Pipelines. Le service réutilisera automatiquement les sorties d'un composant si ses entrées et son implémentation n'ont pas changé.

Pourquoi: Accélère considérablement le développement itératif en vous permettant de réexécuter un pipeline et d'exécuter uniquement les composants que vous avez modifiés.

Mettre en œuvre un workflow CI/CD pour tester et déployer automatiquement les modifications du code de pipeline ML.

Utiliser Cloud Build déclenché par un push sur un dépôt Git. Le processus de build exécute les tests unitaires des composants, compile le pipeline et le déploie vers un environnement de staging ou de production.

Pourquoi: Applique les meilleures pratiques d'ingénierie logicielle à l'MLOps, permettant des mises à jour rapides, fiables et automatisées des systèmes ML en production.

Surveillance et maintenance des solutions ML

Détecter quand la performance d'un modèle de production se dégrade en raison de changements dans les données entrantes ou les résultats prédits.

Configurer Vertex AI Model Monitoring. Mettre en place une tâche pour détecter le décalage entraînement-diffusion (training-serving skew) (changements de distribution des entrées par rapport à l'entraînement) et la dérive de prédiction (changements de distribution des sorties au fil du temps).

Pourquoi: Fournit un système d'alerte précoce automatisé pour la dégradation du modèle, permettant un réentraînement ou une intervention proactive avant que les métriques métier ne soient significativement impactées.

Référence

La performance du modèle se dégrade, mais les distributions des fonctionnalités d'entrée semblent stables (aucune dérive de données détectée).

Mettre en œuvre la surveillance des résultats de prédiction par rapport aux étiquettes de vérité terrain retardées. Une baisse de précision ou d'autres métriques d'évaluation indique une dérive de concept, où la relation entre les fonctionnalités et la cible a changé.

Pourquoi: La surveillance de la dérive des fonctionnalités seule est insuffisante. La dérive de concept nécessite d'évaluer les prédictions du modèle par rapport aux données réelles pour détecter les changements dans les motifs sous-jacents.

Fournir des explications pour les prédictions de modèles individuelles afin de répondre à la conformité réglementaire ou d'établir la confiance des parties prenantes.

Activer Vertex AI Explainable AI sur le point de terminaison déployé. Utiliser des méthodes comme Sampled Shapley ou Integrated Gradients pour obtenir les attributions de fonctionnalités pour chaque prédiction.

Pourquoi: Fournit des explications locales, par prédiction, qui identifient les fonctionnalités ayant contribué à une décision, ce qui est essentiel pour l'audit et le débogage des modèles "boîte noire".

S'assurer qu'un modèle fonctionne équitablement pour différents segments d'utilisateurs (par exemple, données démographiques) et détecter les biais cachés.

Configurer la surveillance du modèle pour calculer et suivre les métriques de performance (par exemple, précision, taux d'erreur) sur des tranches de données définies par des attributs sensibles.

Pourquoi: Les métriques agrégées peuvent masquer de mauvaises performances pour les sous-groupes minoritaires. L'analyse par tranche est cruciale pour identifier et atténuer les problèmes d'équité.

Empêcher un modèle de faire des prédictions non fiables et trop confiantes sur des entrées fondamentalement différentes de ses données d'entraînement.

Mettre en œuvre un modèle de détection hors distribution (OOD) (par exemple, un auto-encodeur) aux côtés du modèle principal. Une erreur de reconstruction élevée signale une entrée comme OOD, déclenchant une logique de repli.

Pourquoi: Fournit un mécanisme de sécurité contre le changement de domaine, améliorant la robustesse du modèle en identifiant quand le modèle opère en dehors de son domaine d'expertise.

Documenter l'utilisation prévue d'un modèle, ses limitations, ses données d'entraînement et son évaluation de l'équité pour les parties prenantes techniques et non techniques.

Créer une Model Card en utilisant le framework de Google. Inclure des sections sur les détails du modèle, l'utilisation prévue, les considérations éthiques, les analyses quantitatives (y compris les métriques par tranche) et les limitations.

Pourquoi: Une norme pour la documentation d'IA responsable qui favorise la transparence, la responsabilité et l'utilisation appropriée des modèles au sein d'une organisation.

Maintenir un journal consultable et auditable de toutes les requêtes et réponses de prédiction pour la conformité et le débogage.

Activer la journalisation des accès sur le Vertex AI Endpoint. Configurer les journaux pour qu'ils soient exportés vers BigQuery pour un stockage et une analyse structurés à long terme.

Pourquoi: BigQuery fournit une plateforme évolutive et interrogeable pour créer des pistes d'audit, analyser les tendances de prédiction et joindre les prédictions avec les données de vérité terrain.