As saídas de difusão ignoram o prompt; aumentando a fidelidade ao texto sem estragar a qualidade da imagem.
→Aumente a escala de orientação classifier-free; observe a super-saturação/artefatos e diminua.
Por quê: Uma CFG mais alta aumenta a aderência ao prompt, mas muito alta causa cores queimadas e detalhes não naturais — é um tradeoff, não uma alavanca livre.
A amostragem de difusão é muito lenta para uma demo interativa; corte passos sem perda óbvia de qualidade.
→Mude para um sampler ODE mais rápido (DPM-Solver++ / Euler) e reduza os passos; valide com FID, não a olho nu.
Por quê: Samplers modernos atingem qualidade comparável em muito menos passos do que a amostragem ancestral DDPM.
Um pipeline multimodal tem muitas partes móveis e um resultado fraco; decidindo o que mudar em seguida.
→Execute uma ablação controlada — mude um componente por vez e meça contra um conjunto de avaliação fixo.
Por quê: Mudar vários controles ao mesmo tempo torna o resultado ininterpretável; isole a causa antes de escalar.
Os resultados de geração variam de execução para execução e você não pode comparar duas variantes de prompt de forma justa.
→Corrija o random seed (e o sampler) para que a única diferença seja a variável em teste.
Por quê: A difusão é estocástica; sem um seed fixo, você está comparando ruído, não a sua mudança.
Imagens geradas continuam incluindo um elemento indesejado (por exemplo, texto, marca d'água, membros extras).
→Adicione um negative prompt descrevendo o que excluir; combine com CFG.
Por quê: O negative prompting direciona o branch incondicional para longe de conceitos nomeados — mais barato do que o retreinamento.
Escolhendo a métrica certa para impulsionar um experimento de texto para imagem.
→Use FID para qualidade de imagem distribucional, CLIPScore para alinhamento prompt-imagem, e preferência humana para a decisão final.
Por quê: Uma única métrica engana: um modelo pode obter um ótimo FID enquanto ignora o prompt. Use ambos os eixos.
Uma tarefa de legendagem de modelo de visão-linguagem (VLM) gera legendas inconsistentes e alucinadas.
→Diminua a temperatura de decodificação / use greedy ou low top-p para legendagem factual.
Por quê: Alta temperatura aumenta a criatividade e a alucinação; a legendagem exige determinismo e fundamentação.
A iteração no condicionamento é lenta porque cada rodada avalia todo o dataset.
→Construa um pequeno conjunto de avaliação "golden" representativo para iteração rápida; execute a avaliação completa apenas em candidatos.
Por quê: Loops de feedback rápidos são melhores do que os exaustivos, mas lentos, para a fase de experimentação.
É preciso que as imagens geradas sigam uma pose, profundidade ou layout de borda preciso.
→Adicione condicionamento estrutural (estilo ControlNet: pose/profundidade/canny) sobre o text prompt.
Por quê: Text prompts não podem especificar uma estrutura espacial exata; um mapa de condicionamento auxiliar pode.
Dois checkpoints obtêm FID/CLIPScore quase idênticos; escolhendo qual enviar.
→Execute um teste de preferência humana A/B cego em um conjunto de prompts não visto.
Por quê: Métricas automatizadas saturam; a preferência humana é o desempate para a qualidade generativa.
O modelo parece ótimo nos prompts em que foi ajustado, mas fraco em novos prompts.
→Guarde um conjunto de prompts separado, nunca usado durante o ajuste, e relate sobre ele.
Por quê: O ajuste em relação aos seus prompts de avaliação overfits o experimento, não o modelo.
As saídas estão próximas do estilo-alvo, mas não totalmente; decidindo entre truques de prompt e treinamento.
→Esgote o prompting/condicionamento e o fine-tune leve estilo LoRA antes do retreinamento completo.
Por quê: A intervenção mais barata primeiro — o retreinamento completo raramente se justifica por uma lacuna estilística.