Precisa de menor latência em H100/Blackwell sem o impacto na precisão da quantização INT agressiva.
→Use a quantização FP8 (E4M3) via TensorRT-LLM; Hopper e Blackwell possuem Tensor Cores FP8 nativos.
Por quê: FP8 preserva melhor o alcance dinâmico do que INT8 e funciona na velocidade máxima do hardware em Hopper+, oferecendo qualidade próxima de FP16 com throughput de classe INT8.
Referência↗
O modelo mal cabe na memória da GPU e o throughput é limitado pela largura de banda da memória.
→Aplique a quantização INT4 somente de pesos (AWQ ou GPTQ); mantenha as ativações em FP16/FP8.
Por quê: INT4 somente de pesos reduz a memória pela metade em relação a INT8 e alivia a pressão da largura de banda; a precisão da ativação permanece alta, então a perda de precisão é pequena.
Decidindo entre quantização pós-treinamento e treinamento com reconhecimento de quantização.
→Comece com PTQ (calibre em uma amostra representativa); volte para QAT apenas se a perda de precisão do PTQ exceder o orçamento.
Por quê: PTQ é rápido e não precisa de retreinamento; QAT recupera a precisão, mas custa uma execução de treinamento, então reserve-o para modelos críticos em precisão.
Serviço de contexto longo onde o cache KV domina a memória e limita o tamanho do batch.
→Ative a quantização de cache KV FP8 ou INT8 no TensorRT-LLM.
Por quê: O cache KV cresce com o comprimento da sequência × batch; quantizá-lo libera memória para batches maiores e contextos mais longos com impacto mínimo na qualidade.
Comprimentos de requisição mistos causam tempo ocioso da GPU com batching estático.
→Use o batching "in-flight" (contínuo) no TensorRT-LLM para que as sequências finalizadas sejam desalojadas e novas sequências se juntem durante o processamento.
Por quê: O batching contínuo mantém a GPU saturada e aumenta o throughput muito além do batching estático para fluxos de requisições heterogêneos.
Referência↗
Um modelo "professor" grande atende à qualidade, mas não atinge o objetivo de latência e custo.
→Destile para um modelo "aluno" menor, e então quantize o aluno para inferência.
Por quê: A destilação transfere capacidade para uma arquitetura mais barata; combinada com a quantização, ela potencializa a economia de custo/latência.
A latência de fluxo único é muito alta para um caso de uso interativo.
→Aplique a decodificação especulativa com um pequeno modelo de rascunho verificado pelo modelo alvo.
Por quê: O rascunho propõe múltiplos tokens que o modelo grande verifica em uma única passagem, reduzindo a latência real sem alterar a distribuição de saída.
Quantizar tudo para INT4 prejudica a precisão em algumas camadas sensíveis.
→Use precisão mista: mantenha as camadas sensíveis (por exemplo, projeção final, atenção) com maior precisão e quantize o restante.
Por quê: A sensibilidade por camada varia; a precisão seletiva protege a exatidão onde importa, enquanto ainda reduz a maior parte dos pesos.
A precisão do PTQ é ruim apesar de um esquema de quantização razoável.
→Recalibre com uma amostra em distribuição (centenas de prompts representativos) que corresponda ao tráfego de produção.
Por quê: A calibração define os intervalos de ativação; uma amostra não representativa produz escalas ruins e perda de precisão evitável.