Détecter quand la performance d'un modèle de production se dégrade en raison de changements dans les données entrantes ou les résultats prédits.
→Configurer Vertex AI Model Monitoring. Mettre en place une tâche pour détecter le décalage entraînement-diffusion (training-serving skew) (changements de distribution des entrées par rapport à l'entraînement) et la dérive de prédiction (changements de distribution des sorties au fil du temps).
Pourquoi: Fournit un système d'alerte précoce automatisé pour la dégradation du modèle, permettant un réentraînement ou une intervention proactive avant que les métriques métier ne soient significativement impactées.
Référence↗
La performance du modèle se dégrade, mais les distributions des fonctionnalités d'entrée semblent stables (aucune dérive de données détectée).
→Mettre en œuvre la surveillance des résultats de prédiction par rapport aux étiquettes de vérité terrain retardées. Une baisse de précision ou d'autres métriques d'évaluation indique une dérive de concept, où la relation entre les fonctionnalités et la cible a changé.
Pourquoi: La surveillance de la dérive des fonctionnalités seule est insuffisante. La dérive de concept nécessite d'évaluer les prédictions du modèle par rapport aux données réelles pour détecter les changements dans les motifs sous-jacents.
Fournir des explications pour les prédictions de modèles individuelles afin de répondre à la conformité réglementaire ou d'établir la confiance des parties prenantes.
→Activer Vertex AI Explainable AI sur le point de terminaison déployé. Utiliser des méthodes comme Sampled Shapley ou Integrated Gradients pour obtenir les attributions de fonctionnalités pour chaque prédiction.
Pourquoi: Fournit des explications locales, par prédiction, qui identifient les fonctionnalités ayant contribué à une décision, ce qui est essentiel pour l'audit et le débogage des modèles "boîte noire".
S'assurer qu'un modèle fonctionne équitablement pour différents segments d'utilisateurs (par exemple, données démographiques) et détecter les biais cachés.
→Configurer la surveillance du modèle pour calculer et suivre les métriques de performance (par exemple, précision, taux d'erreur) sur des tranches de données définies par des attributs sensibles.
Pourquoi: Les métriques agrégées peuvent masquer de mauvaises performances pour les sous-groupes minoritaires. L'analyse par tranche est cruciale pour identifier et atténuer les problèmes d'équité.
Empêcher un modèle de faire des prédictions non fiables et trop confiantes sur des entrées fondamentalement différentes de ses données d'entraînement.
→Mettre en œuvre un modèle de détection hors distribution (OOD) (par exemple, un auto-encodeur) aux côtés du modèle principal. Une erreur de reconstruction élevée signale une entrée comme OOD, déclenchant une logique de repli.
Pourquoi: Fournit un mécanisme de sécurité contre le changement de domaine, améliorant la robustesse du modèle en identifiant quand le modèle opère en dehors de son domaine d'expertise.
Documenter l'utilisation prévue d'un modèle, ses limitations, ses données d'entraînement et son évaluation de l'équité pour les parties prenantes techniques et non techniques.
→Créer une Model Card en utilisant le framework de Google. Inclure des sections sur les détails du modèle, l'utilisation prévue, les considérations éthiques, les analyses quantitatives (y compris les métriques par tranche) et les limitations.
Pourquoi: Une norme pour la documentation d'IA responsable qui favorise la transparence, la responsabilité et l'utilisation appropriée des modèles au sein d'une organisation.
Maintenir un journal consultable et auditable de toutes les requêtes et réponses de prédiction pour la conformité et le débogage.
→Activer la journalisation des accès sur le Vertex AI Endpoint. Configurer les journaux pour qu'ils soient exportés vers BigQuery pour un stockage et une analyse structurés à long terme.
Pourquoi: BigQuery fournit une plateforme évolutive et interrogeable pour créer des pistes d'audit, analyser les tendances de prédiction et joindre les prédictions avec les données de vérité terrain.