Benötigen geringere Latenz auf H100/Blackwell ohne den Genauigkeitsverlust aggressiver INT quantization.
→Verwenden Sie FP8 (E4M3) quantization über TensorRT-LLM; Hopper und Blackwell verfügen über native FP8 Tensor Cores.
Warum: FP8 bewahrt den dynamischen Bereich besser als INT8 und läuft mit voller Hardwaregeschwindigkeit auf Hopper+, was eine Qualität nahe FP16 bei einem Durchsatz der INT8-Klasse bietet.
Referenz↗
Modell passt kaum in den GPU-Speicher und der Durchsatz ist durch die Speicherbandbreite begrenzt.
→Wenden Sie INT4 weight-only quantization (AWQ oder GPTQ) an; halten Sie activations in FP16/FP8.
Warum: Weight-only INT4 halbiert den Speicher im Vergleich zu INT8 und reduziert den Bandbreitendruck; die activation precision bleibt hoch, so dass der Genauigkeitsverlust gering ist.
Entscheidung zwischen post-training quantization und quantization-aware training.
→Beginnen Sie mit PTQ (Kalibrierung an einer repräsentativen Stichprobe); greifen Sie nur auf QAT zurück, wenn der PTQ-Genauigkeitsverlust das Budget überschreitet.
Warum: PTQ ist schnell und benötigt kein Umschulung; QAT stellt die Genauigkeit wieder her, kostet aber einen Trainingslauf, daher sollte es für präzisionskritische Modelle reserviert werden.
Long-context serving, bei dem der KV cache den Speicher dominiert und die Batch-Größe begrenzt.
→Aktivieren Sie FP8 oder INT8 KV-cache quantization in TensorRT-LLM.
Warum: Der KV cache wächst mit der Sequenzlänge × Batch; seine Quantisierung gibt Speicher für größere Batches und längere Kontexte mit minimaler Qualitätseinbuße frei.
Gemischte Anforderungslängen verursachen GPU-Leerlaufzeiten bei statischem Batching.
→Verwenden Sie in-flight (kontinuierliches) Batching in TensorRT-LLM, sodass abgeschlossene Sequenzen entfernt werden und neue mitten im Flug hinzukommen.
Warum: Kontinuierliches Batching hält die GPU ausgelastet und erhöht den Durchsatz für heterogene Anforderungsströme weit über statisches Batching hinaus.
Referenz↗
Ein großes teacher model erfüllt die Qualität, verfehlt aber die Latenz- und Kostenziele.
→Destillieren Sie es zu einem kleineren student model und quantisieren Sie den student für die inference.
Warum: Distillation überträgt Fähigkeiten auf eine kostengünstigere Architektur; in Kombination mit quantization potenziert es die Kosten-/Latenzeinsparungen.
Die Latenz eines einzelnen Streams ist für einen interaktiven Anwendungsfall zu hoch.
→Wenden Sie speculative decoding mit einem kleinen draft model an, das vom target model verifiziert wird.
Warum: Der draft schlägt mehrere tokens vor, die das große Modell in einem Durchlauf verifiziert, wodurch die Wall-Clock-Latenz reduziert wird, ohne die Ausgabeverteilung zu ändern.
Die Quantisierung von allem auf INT4 beeinträchtigt die Genauigkeit in einigen wenigen sensiblen Schichten stark.
→Verwenden Sie mixed-precision: Behalten Sie sensible Schichten (z.B. finale Projektion, attention) in höherer Präzision und quantisieren Sie den Rest.
Warum: Die Schichtempfindlichkeit variiert; selektive Präzision schützt die Genauigkeit dort, wo es wichtig ist, während der Großteil der Gewichte immer noch reduziert wird.
Die PTQ-Genauigkeit ist trotz eines vernünftigen Quantisierungsschemas schlecht.
→Rekalibrieren Sie mit einer In-Distribution-Stichprobe (Hunderte repräsentativer Prompts), die dem Produktionsverkehr entspricht.
Warum: Die Kalibrierung legt die activation ranges fest; eine nicht repräsentative Stichprobe führt zu schlechten Skalen und vermeidbaren Genauigkeitsverlusten.