Le prompt engineering atteint un plateau sur une tâche de domaine étroit qui nécessite un style cohérent.
→Exécutez le prompt tuning dans Tuning Studio pour apprendre une invite souple (vecteur ajusté) sur des exemples étiquetés.
Pourquoi: Le prompt tuning adapte le comportement sans modifier les poids de base — moins cher que le fine-tuning, plus fiable que les longues invites.
Référence↗
Le modèle manque de connaissances d'entreprise factuelles et à jour.
→Utilisez RAG pour ancrer les réponses dans des documents récupérés plutôt que d'ajuster le modèle sur ces faits.
Pourquoi: L'ajustement enseigne le style/comportement, pas de nouveaux faits ; RAG injecte un contexte actuel ancré et est facile à mettre à jour.
Décider entre le prompt tuning et le fine-tuning complet pour un projet watsonx de niveau associé.
→Préférez le prompt tuning : il entraîne beaucoup moins de paramètres, s'exécute plus rapidement et est le chemin pris en charge dans Tuning Studio.
Pourquoi: Le fine-tuning complet est coûteux, nécessite de grands ensembles de données et risque l'oubli catastrophique ; le prompt tuning est la valeur par défaut de watsonx.
Préparer les données pour affiner un modèle de résumé par prompt tuning.
→Fournissez des paires entrée/sortie au format JSON/JSONL attendu, divisées en ensembles d'entraînement et de validation.
Pourquoi: Des paires propres et représentatives améliorent la qualité de l'ajustement ; un ensemble de validation conservé est nécessaire pour évaluer la généralisation.
La courbe de perte d'ajustement s'aplatit tôt tandis que la perte de validation commence à augmenter.
→Arrêtez ou réduisez les époques — le modèle commence à surajuster l'ensemble d'entraînement.
Pourquoi: La divergence de la perte d'entraînement/validation est le signal classique de surajustement ; plus d'époques mémoriseraient au lieu de généraliser.
Les résultats du prompt tuning sont instables d'une exécution à l'autre.
→Ajustez le taux d'apprentissage, le nombre d'époques, la taille du lot et le nombre de jetons virtuels dans la configuration du tuning.
Pourquoi: Un taux d'apprentissage trop élevé déstabilise l'entraînement ; ce sont les leviers que Tuning Studio expose pour la convergence.
Besoin de comparer objectivement deux invites ou actifs ajustés.
→Évaluez avec des métriques de tâche (par exemple ROUGE/BLEU pour la résumé, correspondance exacte/F1 pour l'extraction) plus une révision humaine.
Pourquoi: La qualité générative est multidimensionnelle ; les métriques automatisées détectent les régressions, mais l'examen humain juge la fidélité.
Le modèle ajusté invente toujours des faits non présents dans la source.
→Ancrez avec RAG, baissez la température et demandez au modèle de répondre uniquement à partir du contexte fourni ou de dire qu'il ne sait pas.
Pourquoi: L'hallucination est plus un problème d'ancrage et de décodage qu'un problème de poids ; la récupération et les contraintes résolvent la majeure partie.
Seules quelques dizaines d'exemples étiquetés sont disponibles pour l'adaptation.
→Restez avec le few-shot prompting ou le prompt tuning léger ; ne faites pas de fine-tuning sur de très petites données.
Pourquoi: Les petits ensembles de données surajustent gravement en fine-tuning complet ; les exemples in-context se généralisent mieux à cette échelle.
Choisir le modèle de base à affiner par prompt tuning pour une tâche de classification.
→Choisissez un modèle de base Granite réglable que Tuning Studio prend en charge pour le prompt tuning, dimensionné pour la tâche.
Pourquoi: Tous les modèles du catalogue ne sont pas réglables ; l'ajustement d'un modèle pris en charge plus petit est moins cher et souvent suffisant pour la classification.
La qualité de la sortie générative doit être suivie en continu en production.
→Configurez les métriques d'évaluation de watsonx.governance (qualité, dérive, métriques d'IA générative) pour le déploiement.
Pourquoi: La gouvernance transforme l'évaluation ponctuelle en seuils surveillés avec des alertes, et non en une vérification manuelle ponctuelle.
La même invite ajustée doit traiter de nombreuses entrées avec des champs différents.
→Paramétrez le modèle d'invite avec des variables nommées et fournissez des valeurs au moment de l'inférence.
Pourquoi: Les variables permettent de conserver un modèle réutilisable au lieu de coder en dur les entrées, et elles se mappent proprement aux paramètres de l'API.
Un modèle ignore l'instruction de la tâche et se contente de poursuivre le texte.
→Utilisez un modèle optimisé pour les instructions et formulez l'invite comme une directive explicite, et non comme un fragment à compléter.
Pourquoi: Les modèles de complétion de base poursuivent des motifs ; les modèles d'instruction sont entraînés à suivre des directives.