Se necesita menor latencia en H100/Blackwell sin el impacto en la precisión de una cuantización INT agresiva.
→Use cuantización FP8 (E4M3) a través de TensorRT-LLM; Hopper y Blackwell tienen Tensor Cores FP8 nativos.
Por qué: FP8 preserva mejor el rango dinámico que INT8 y se ejecuta a la máxima velocidad de hardware en Hopper+, ofreciendo una calidad cercana a FP16 con un rendimiento de clase INT8.
Referencia↗
El modelo apenas cabe en la memoria de la GPU y el rendimiento está limitado por el ancho de banda de la memoria.
→Aplique cuantización INT4 solo de pesos (AWQ o GPTQ); mantenga las activaciones en FP16/FP8.
Por qué: INT4 solo de pesos reduce aproximadamente a la mitad la memoria frente a INT8 y alivia la presión del ancho de banda; la precisión de activación se mantiene alta, por lo que la pérdida de precisión es pequeña.
Decidir entre cuantización post-entrenamiento y entrenamiento consciente de la cuantización.
→Comience con PTQ (calibre con una muestra representativa); recurra a QAT solo si la pérdida de precisión de PTQ excede el presupuesto.
Por qué: PTQ es rápido y no necesita reentrenamiento; QAT recupera la precisión pero implica un ciclo de entrenamiento, así que resérvelo para modelos críticos en cuanto a precisión.
Servicio de contexto largo donde la caché KV domina la memoria y limita el tamaño del lote.
→Habilite la cuantización de caché KV FP8 o INT8 en TensorRT-LLM.
Por qué: La caché KV crece con la longitud de la secuencia × lote; cuantizarla libera memoria para lotes más grandes y contextos más largos con un impacto mínimo en la calidad.
Longitudes de solicitud mixtas causan tiempo de inactividad de la GPU con el procesamiento por lotes estático.
→Utilice el procesamiento por lotes en curso (continuo) en TensorRT-LLM para que las secuencias terminadas sean desalojadas y las nuevas se unan a mitad de proceso.
Por qué: El procesamiento por lotes continuo mantiene la GPU saturada y aumenta el rendimiento muy por encima del procesamiento por lotes estático para flujos de solicitudes heterogéneos.
Referencia↗
Un modelo grande "maestro" cumple con la calidad pero no alcanza el objetivo de latencia y costo.
→Destile en un modelo "estudiante" más pequeño, luego cuantifique el estudiante para la inferencia.
Por qué: La destilación transfiere la capacidad a una arquitectura más barata; combinada con la cuantificación, multiplica los ahorros de costo/latencia.
La latencia de una sola secuencia es demasiado alta para un caso de uso interactivo.
→Aplique la decodificación especulativa con un modelo de borrador pequeño verificado por el modelo objetivo.
Por qué: El borrador propone múltiples tokens que el modelo grande verifica en una sola pasada, reduciendo la latencia de tiempo real sin cambiar la distribución de salida.
Cuantizar todo a INT4 reduce drásticamente la precisión en algunas capas sensibles.
→Use precisión mixta: mantenga las capas sensibles (por ejemplo, proyección final, atención) con mayor precisión y cuantifique el resto.
Por qué: La sensibilidad por capa varía; la precisión selectiva protege la precisión donde importa mientras reduce la mayor parte de los pesos.
La precisión de PTQ es deficiente a pesar de un esquema de cuantización razonable.
→Recalibre con una muestra en distribución (cientos de prompts representativos) que coincida con el tráfico de producción.
Por qué: La calibración establece rangos de activación; una muestra no representativa produce escalas incorrectas y una pérdida de precisión evitable.