Выходные данные диффузии игнорируют запрос; повышение точности текста без ухудшения качества изображения.
→Увеличьте параметр масштаба управления без классификатора; следите за перенасыщением/артефактами и уменьшайте его.
Почему: Более высокий CFG усиливает соответствие запросу, но слишком высокое значение вызывает выгоревшие цвета и неестественные детали — это компромисс, а не свободный рычаг.
Диффузионная выборка слишком медленная для интерактивной демонстрации; сократите шаги без очевидной потери качества.
→Переключитесь на более быстрый ODE sampler (DPM-Solver++ / Euler) и уменьшите количество шагов; проверяйте с помощью FID, а не на глаз.
Почему: Современные samplers достигают сопоставимого качества за гораздо меньшее количество шагов, чем ancestral DDPM sampling.
Мультимодальный конвейер имеет много движущихся частей и один слабый результат; решаем, что менять дальше.
→Выполните контролируемую абляцию — изменяйте один компонент за раз и измеряйте его по фиксированному набору оценок.
Почему: Одновременное изменение нескольких параметров делает результат неинтерпретируемым; изолируйте причину, прежде чем масштабировать.
Результаты генерации различаются от запуска к запуску, и вы не можете справедливо сравнить два варианта запроса.
→Зафиксируйте случайное зерно (и sampler), чтобы единственным отличием была тестируемая переменная.
Почему: Диффузия стохастична; без фиксированного зерна вы сравниваете шум, а не свое изменение.
Сгенерированные изображения постоянно включают нежелательный элемент (например, текст, водяной знак, лишние конечности).
→Добавьте negative prompt, описывающий, что исключить; скомбинируйте его с CFG.
Почему: Negative prompting отводит безусловную ветвь от названных концепций — это дешевле, чем переобучение.
Выбор правильной метрики для проведения эксперимента "текст в изображение".
→Используйте FID для качества изображения по распределению, CLIPScore для соответствия запроса изображению и человеческие предпочтения для окончательного решения.
Почему: Одна метрика вводит в заблуждение: модель может показывать отличный FID, игнорируя при этом запрос. Используйте обе оси.
Задача создания подписей для модели "зрение-язык" дает непоследовательные, галлюцинаторные подписи.
→Понизьте температуру декодирования / используйте жадный или низкий top-p для фактического создания подписей.
Почему: Высокая температура повышает креативность и галлюцинации; создание подписей требует детерминизма и обоснованности.
Итерация по условиям медленна, потому что каждый раунд оценивает весь набор данных.
→Создайте небольшой, репрезентативный "золотой" набор оценок для быстрой итерации; полный анализ запускайте только для кандидатов.
Почему: Короткие циклы обратной связи превосходят исчерпывающие, но медленные для фазы экспериментов.
Требуется, чтобы сгенерированные изображения следовали точно заданной позе, глубине или контуру.
→Добавьте структурное обусловливание (в стиле ControlNet: поза/глубина/canny) поверх текстового запроса.
Почему: Текстовые запросы не могут точно указывать пространственную структуру; вспомогательная карта обусловливания может.
Два checkpoints показывают почти идентичные FID/CLIPScore; выбор того, какой из них выпустить.
→Проведите слепой A/B тест человеческих предпочтений на отложенном наборе запросов.
Почему: Автоматические метрики насыщаются; человеческие предпочтения являются решающим фактором для качества генерации.
Модель отлично работает с запросами, на которых вы ее настраивали, но плохо — со свежими запросами.
→Отложите отдельный набор запросов, никогда не использовавшихся во время настройки, и предоставьте отчет по нему.
Почему: Настройка по вашим оценочным запросам переобучает эксперимент, а не модель.
Выходные данные близки к целевому стилю, но не совсем; выбор между хитростями с запросами и обучением.
→Исчерпайте возможности запросов/обусловливания и легкой донастройки в стиле LoRA перед полным переобучением.
Почему: Сначала самое дешевое вмешательство — полное переобучение редко оправдано стилистическим пробелом.