Ein praktischer Leitfaden zur LLM-Inferenz-Mathematik: Von der Theorie zur Hardware

Large Language Models (LLMs) sind zu einer grundlegenden Technologie in der modernen KI geworden, aber ihr effizienter Betrieb erfordert ein tiefes Verständnis des Zusammenspiels zwischen Modellarchitektur und Hardwarefähigkeiten. Es ist nicht immer die kosteneffizienteste Lösung, einfach die leistungsstärkste GPU auszuwählen. Entscheidend ist, ob Ihr Workload compute-bound oder memory-bound ist.

Dieser Leitfaden führt Sie durch die wesentlichen mathematischen Grundlagen, um ein LLM für Inferenz zu profilieren, damit Sie die richtige Hardware auswählen und deren Leistung optimieren können. Wir wenden diese Prinzipien auf ein Praxisbeispiel an: den Betrieb des Qwen/Qwen3-VL-32B-Instruct Modells auf der leistungsstarken NVIDIA RTX PRO 6000 Blackwell Edition Workstation-GPU.

Dieser Artikel ist inspiriert von dem mathematischen Ansatz, der im Baseten Blogbeitrag "A guide to LLM inference and performance." beschrieben wird.

Schritt 1: Verstehen Sie die Fähigkeiten Ihrer Hardware

Der erste Schritt besteht darin, die wichtigsten Spezifikationen unserer GPU zu analysieren. Diese Zahlen definieren die theoretischen Grenzen unserer Hardware. Für die NVIDIA RTX PRO 6000 Blackwell Edition sind die entscheidenden Spezifikationen:

GPU Speicher (VRAM): 96 GB GDDR7 ECC ¹
GPU Speicherbandbreite: 1790 GB/s ¹
FP16/BF16 Compute Leistung: 126.0 TFLOPS ¹

Diese drei Kennzahlen – Kapazität, Geschwindigkeit und rohe Leistung – sind die Säulen unserer Analyse.

Schritt 2: Berechnung der Operational Intensity (Ops:Byte-Verhältnis) der GPU

Die operational intensity einer GPU, also das ops:byte-Verhältnis, gibt an, wie viele Berechnungen sie für jedes Byte an Daten durchführen kann, das sie aus dem VRAM bewegt. Dies ist ein entscheidendes, hardware-spezifisches Verhältnis, das das Gleichgewicht zwischen Berechnung und Speicherzugriff aufzeigt.

Die Formel ist einfach:

ops:byte Ratio = Compute Bandwidth (FLOPS) / Memory Bandwidth (Bytes/s)

Berechnen wir es für unsere RTX PRO 6000:

Compute: 126.0 TFLOPS = 126,000,000,000,000 FLOPS
Memory: 1790 GB/s = 1,790,000,000,000 Bytes/s

ops_to_byte_ratio = 126,000,000,000,000 / 1,790,000,000,000
                  = 70.39 ops/byte

Das bedeutet, damit unsere Hardware vollständig ausgelastet ist, muss unsere Anwendung ungefähr 70,39 Gleitkommaoperationen für jedes einzelne Byte ausführen, das sie aus dem VRAM abruft.

Führt unser Modell weniger Operationen pro Byte aus, sind wir memory-bound.
Benötigt unser Modell mehr Operationen pro Byte, sind wir compute-bound.

Schritt 3: Berechnung der arithmetischen Intensität des Modells

Als Nächstes müssen wir die arithmetische Intensität unseres Modells berechnen. Bei Transformern ist der anspruchsvollste Teil der Inferenz der Attention-Mechanismus.

Wir verwenden die Parameter für das Modell Qwen/Qwen3-VL-32B-Instruct ²:

Sequenzlänge (N): 4096
Modelldimension (d_model): 5120
Anzahl der Attention Heads (n_heads): 40
Dimension pro Head (d_head): 128

Berechnen wir die arithmetische Intensität mit dem vereinfachten Roofline-Modell:

Arithmetic Intensity = (4 * N^2 * d_head) / (8 * N^2)
                     = d_head / 2
                     = 128 / 2
                     = 64.0 ops/byte

Die arithmetische Intensität unseres Modells beträgt ungefähr 64,0 Operationen pro Byte.

Schritt 4: Identifizierung des Engpasses

Nun vergleichen wir die beiden Verhältnisse:

GPU Ops:Byte Ratio: 70.39 ops/byte
Model Arithmetic Intensity: 64.0 ops/byte

Da 64,0 < 70,39 gilt, ist unsere Arbeitslast eindeutig memory-bound. Dies ist bei LLM-Inferenz üblich und bedeutet, dass die Speicherbandbreite der primäre begrenzende Faktor für die Inferenzgeschwindigkeit ist.

Mit unserer 96 GB GPU stehen nach dem Laden des 64 GB Modells zur Verfügung:

Spare VRAM = 96 GB - 64 GB = 32 GB

Dies ermöglicht eine theoretische Batchgröße von:

Batch Size = Spare VRAM / (KV Cache per Token * Sequence Length) ≈ 4 sequences

Leistungsschätzung

Zeit pro Ausgabetoken (Decodierlatenz):

Time/Token = Model Size (Bytes) / Memory Bandwidth (Bytes/s) = 35.75 ms/token

Dies entspricht einem theoretischen Durchsatz von ~28 Token/Sekunde.

Time to First Token (Prefill Latency): Für eine Eingabe von 512 Tokens:

Prefill Time = (Prompt Tokens * Model Ops) / GPU Compute Power = 260.06 ms

Fazit

Unsere Analyse zeigt:

Inference ist speichergebunden: Der Hauptengpass ist die 1790 GB/s Speicherbandbreite, nicht die 126.0 TFLOPS Rechenleistung.
VRAM für Batching: Die 96 GB VRAM sind ein bedeutender Vorteil und ermöglichen eine theoretische Batch-Größe von 4, um die Rechenleistung der GPU besser auszunutzen.
Leistungserwartungen: Wir können einen theoretischen Durchsatz von etwa 28 Tokens/Sekunde und eine Prefill-Zeit von ungefähr 260,06 ms für eine 512-Token-Eingabe erwarten.

Diese Berechnungen bieten eine solide Grundlage, um die LLM-Inferenzleistung zu verstehen und fundierte Hardware-Entscheidungen zu treffen.

References

NVIDIA RTX PRO 6000 Blackwell Workstation Edition specifications, sourced from primeLine Solutions - PNY NVIDIA RTX PRO 6000 Blackwell ↩ ↩² ↩³
Qwen/Qwen3-VL-32B-Instruct model architecture parameters, sourced from Hugging Face Model Card. ↩