Las salidas de difusión ignoran el prompt; aumentar la fidelidad al texto sin estropear la calidad de la imagen.
→Aumentar la escala de guía sin clasificador; estar atento a la sobresaturación/artefactos y retroceder.
Por qué: Un CFG más alto mejora la adherencia al prompt, pero si es demasiado alto causa colores quemados y detalles antinaturales — es una compensación, no una palanca gratuita.
El muestreo por difusión es demasiado lento para una demo interactiva; reducir los pasos sin una pérdida de calidad obvia.
→Cambiar a un muestreador ODE más rápido (DPM-Solver++ / Euler) y reducir los pasos; validar con FID, no a simple vista.
Por qué: Los muestreadores modernos alcanzan una calidad comparable en muchos menos pasos que el muestreo DDPM ancestral.
Un pipeline multimodal tiene muchas partes móviles y un resultado débil; decidir qué cambiar a continuación.
→Ejecutar una ablación controlada — cambiar un componente a la vez y medirlo contra un conjunto de evaluación fijo.
Por qué: Cambiar varios controles a la vez hace que el resultado sea ininterpretable; aislar la causa antes de escalar.
Los resultados de generación varían entre ejecuciones y no se pueden comparar dos variantes de prompt de manera justa.
→Fijar la semilla aleatoria (y el muestreador) para que la única diferencia sea la variable bajo prueba.
Por qué: La difusión es estocástica; sin una semilla fija, se está comparando ruido, no el cambio que se realizó.
Las imágenes generadas siguen incluyendo un elemento no deseado (p. ej., texto, marca de agua, extremidades adicionales).
→Añadir un prompt negativo que describa qué excluir; combinar con CFG.
Por qué: El prompt negativo aleja la rama incondicional de los conceptos nombrados — más barato que reentrenar.
Elegir la métrica correcta para impulsar un experimento de texto a imagen.
→Usar FID para la calidad de imagen distribucional, CLIPScore para la alineación prompt-imagen, y la preferencia humana para la decisión final.
Por qué: Una sola métrica engaña: un modelo puede obtener un gran FID mientras ignora el prompt. Usar ambos ejes.
Una tarea de subtitulado de modelo de visión-lenguaje produce subtítulos inconsistentes y alucinatorios.
→Bajar la temperatura de decodificación / usar muestreo greedy o top-p bajo para subtítulos fácticos.
Por qué: La temperatura alta aumenta la creatividad y la alucinación; el subtitulado busca determinismo y fundamentación.
Iterar sobre el condicionamiento es lento porque cada ronda evalúa todo el conjunto de datos.
→Construir un pequeño conjunto de evaluación "golden" representativo para una iteración rápida; ejecutar la evaluación completa solo en los candidatos.
Por qué: Los ciclos de retroalimentación ajustados superan a los exhaustivos pero lentos para la fase de experimentación.
Necesidad de que las imágenes generadas sigan una pose, profundidad o diseño de bordes preciso.
→Añadir condicionamiento estructural (estilo ControlNet: pose/profundidad/canny) además del prompt de texto.
Por qué: Los prompts de texto no pueden especificar una estructura espacial exacta; un mapa de condicionamiento auxiliar sí puede.
Dos checkpoints obtienen puntuaciones FID/CLIPScore casi idénticas; elegir cuál lanzar.
→Realizar una prueba ciega A/B de preferencia humana en un conjunto de prompts reservado.
Por qué: Las métricas automatizadas se saturan; la preferencia humana es el desempate para la calidad generativa.
El modelo se ve genial con los prompts en los que fue ajustado, pero mal con prompts nuevos.
→Reservar un conjunto de prompts separado nunca utilizado durante el ajuste e informar sobre él.
Por qué: Ajustar contra los prompts de evaluación sobreajusta el experimento, no el modelo.
Las salidas están cerca del estilo objetivo pero no del todo; decidir entre trucos de prompt y entrenamiento.
→Agotar el prompting/condicionamiento y el ajuste fino ligero al estilo LoRA antes del reentrenamiento completo.
Por qué: La intervención más barata primero — el reentrenamiento completo rara vez se justifica por una brecha estilística.