Les sorties de diffusion ignorent l'invite ; augmenter la fidélité au texte sans détériorer la qualité d'image.
→Augmenter l'échelle de guidage sans classifieur (CFG) ; surveiller la sursaturation/les artefacts et réduire.
Pourquoi: Un CFG plus élevé renforce l'adhérence à l'invite, mais un CFG trop élevé provoque des couleurs brûlées et des détails non naturels — c'est un compromis, pas un levier gratuit.
L'échantillonnage de diffusion est trop lent pour une démo interactive ; réduire les étapes sans perte de qualité évidente.
→Passer à un échantillonneur ODE plus rapide (DPM-Solver++ / Euler) et réduire les étapes ; valider avec FID, pas à l'œil nu.
Pourquoi: Les échantillonneurs modernes atteignent une qualité comparable en beaucoup moins d'étapes que l'échantillonnage ancestral DDPM.
Un pipeline multimodal a de nombreux éléments et un résultat faible ; décider quoi modifier ensuite.
→Exécuter une ablation contrôlée — modifier un composant à la fois et mesurer par rapport à un ensemble d'évaluation fixe.
Pourquoi: Modifier plusieurs paramètres à la fois rend le résultat ininterprétable ; isoler la cause avant de monter en puissance.
Les résultats de génération varient d'une exécution à l'autre et vous ne pouvez pas comparer équitablement deux variantes d'invite.
→Fixer la graine aléatoire (et l'échantillonneur) de sorte que la seule différence soit la variable testée.
Pourquoi: La diffusion est stochastique ; sans graine fixe, vous comparez du bruit, pas votre modification.
Les images générées incluent toujours un élément indésirable (par exemple, texte, filigrane, membres supplémentaires).
→Ajouter une invite négative décrivant ce qu'il faut exclure ; combiner avec le CFG.
Pourquoi: L'invite négative oriente la branche inconditionnelle loin des concepts nommés — moins coûteux que le réentraînement.
Choisir la bonne métrique pour piloter une expérience texte-image.
→Utiliser FID pour la qualité d'image distributionnelle, CLIPScore pour l'alignement invite-image, et la préférence humaine pour la décision finale.
Pourquoi: Une seule métrique est trompeuse : un modèle peut obtenir un excellent FID tout en ignorant l'invite. Utiliser les deux axes.
Une tâche de légendage de modèle de langage-vision donne des légendes incohérentes et hallucinées.
→Diminuer la température de décodage / utiliser le décodage glouton ou un faible top-p pour un légendage factuel.
Pourquoi: Une température élevée augmente la créativité et l'hallucination ; le légendage recherche le déterminisme et l'ancrage.
L'itération sur le conditionnement est lente car chaque cycle évalue l'ensemble du jeu de données.
→Construire un petit jeu d'évaluation "golden" représentatif pour une itération rapide ; n'exécuter l'évaluation complète que sur les candidats.
Pourquoi: Les boucles de rétroaction courtes sont plus efficaces que les boucles exhaustives mais lentes pour la phase d'expérimentation.
Nécessité que les images générées suivent une pose, une profondeur ou une disposition des bords précise.
→Ajouter un conditionnement structurel (type ControlNet : pose/profondeur/canny) en plus de l'invite textuelle.
Pourquoi: Les invites textuelles ne peuvent pas spécifier une structure spatiale exacte ; une carte de conditionnement auxiliaire le peut.
Deux points de contrôle obtiennent un score FID/CLIPScore presque identique ; choisir lequel déployer.
→Exécuter un test A/B de préférence humaine en aveugle sur un ensemble d'invites mis de côté.
Pourquoi: Les métriques automatisées saturent ; la préférence humaine est le facteur décisif pour la qualité générative.
Le modèle semble excellent sur les invites sur lesquelles il a été réglé, mais médiocre sur de nouvelles invites.
→Conserver un ensemble d'invites distinct, jamais utilisé pendant le réglage, et rendre compte de ses performances sur celui-ci.
Pourquoi: Le réglage par rapport à vos invites d'évaluation suradapte l'expérience, pas le modèle.
Les sorties sont proches du style cible mais pas tout à fait ; décider entre les astuces d'invite et l'entraînement.
→Épuiser les techniques d'invite/conditionnement et le fine-tuning léger de type LoRA avant un réentraînement complet.
Pourquoi: L'intervention la moins chère d'abord — un réentraînement complet est rarement justifié par un écart stylistique.