Auswahl der richtigen GPU für Qwen3-Inferenz
Diese Übersicht erweitert die Berechnungen aus A Practical Guide to LLM Inference Math und wendet sie auf konkrete Hardware- und Modellkombinationen an. Ziel ist es, klar zu machen, wann die NVIDIA RTX PRO 6000, H200 oder die kommende DGX Station die beste Effizienz für Qwen3-Workloads mit 4B bis 32B aktiven Parametern liefert.
Wichtig: Jede Zahl in diesem Leitfaden stellt eine theoretische Obergrenze dar, die aus Herstellerangaben und vereinfachter Roofline-Mathematik abgeleitet wurde. In der Praxis liegen die Werte oft niedriger, da die Kernels nicht perfekt sind, die Host↔Device-Pipelines Reibung verursachen und GPUs selten über einen gesamten Decode-Durchlauf hinweg 100% Effizienz erreichen.
Zusammenfassung: Die 60-Sekunden ops:byte-Checkliste
- Berechnen Sie das ops:byte-Verhältnis der GPU (
peak FLOPS ÷ memory bandwidth). - Berechnen Sie die arithmetische Intensität des Modells (≈
d_head ÷ 2für schrittintensive Attention-Prozesse). - Wenn
model_intensity < gpu_intensityist, ist die Aufgabe speichergebunden; konzentrieren Sie sich auf Bandbreite und VRAM. - Schätzen Sie die Zeit pro Ausgabetoken mit
model_size_bytes ÷ memory_bandwidth_bytes_per_second, um eine theoretische Obergrenze für Tokens/s bei Batchgröße 1 abzuleiten.
GPU-Leistungsübersicht
NVIDIA RTX PRO 6000 Blackwell Workstation Edition
- 96 GB GDDR7 ECC VRAM, gespeist durch 1.792 GB/s Bandbreite und ~125 TFLOPS FP32 Rechenleistung, was zu einem ops:byte-Verhältnis von nahezu 70 führt.
- Die maximale Board-Leistung von 600 W ermöglicht den Einsatz direkt am Arbeitsplatz, wo Geräuschentwicklung und Temperatur wichtig sind, aber die Rack-Leistung begrenzt ist.
- Ideal, wenn Sie lokale Feinabstimmung oder multimodales Prototyping (Vision, Audio) mit bis zu ~64 GB an Gewichten sowie einem nützlichen KV-Cache-Budget benötigen.1
NVIDIA H200 Tensor Core GPU (SXM + NVL)
- Erster Hopper-basierter Accelerator mit 141 GB HBM3e und 4,8 TB/s Speicherbandbreite; BF16 Tensor-Leistung erreicht 1,979 PFLOPS, sodass das ops:byte-Verhältnis auf über 400 steigt.
- Wird mit Hardware-MIG-Slicing (7 Instanzen) und optionalen NVL-Konfigurationen für luftgekühlte Racks ausgeliefert.
- Am besten geeignet für 14B+ dichte Modelle oder MoE-Deployments, bei denen sowohl Kapazität als auch Streaming-Bandbreite die Kosten dominieren.2
NVIDIA DGX Station (Grace Blackwell Ultra)
- Desktop-Supercomputer, der eine Blackwell-Ultra GPU (bis zu 288 GB HBM3e @ 8 TB/s) mit einer 72-Kern Grace CPU und 496 GB LPDDR5X in einem kohärenten 784 GB Speicherpool kombiniert.
- NVLink-C2C liefert 900 GB/s zwischen CPU und GPU, sodass große Retrieval-Datensätze ohne PCIe-Nachteile resident bleiben können.
- Verwendet das gleiche Blackwell Ultra-Silizium wie in HGX B300 Servern, das von NVIDIA mit 36 PFLOPS BF16 / 144 PFLOPS FP4 für die 8-GPU-Basisplatine bewertet wird—etwa 4,5 PFLOPS BF16 pro GPU—was uns konkrete Rechenobergrenzen für DGX Station-Arbeitslasten gibt.34
- Richtet sich an Multi-User-Labore, die lokale Autonomie für iteratives Training, MoE-Routing-Experimente und Agenten-Stacks benötigen, bevor diese an einen Cluster übergeben werden.
Qwen3 Modell-Footprints (Batchgröße 1, BF16)
Kleine, klar abgegrenzte Übersetzungsabschnitte halten die Übersetzungspipeline stabil. Jedes Modell verwendet die KV-Cache-Formel aus dem Inferenz-Mathematik-Leitfaden erneut (2 * layers * hidden_size * 2 bytes).
| Model | Active params | Hidden size / layers | Weights (GB) | KV cache per token (MB) | Notes |
|---|---|---|---|---|---|
| Qwen3-4B-Instruct | ~4B | 2,560 / 36 | ~8 | 0.35 | Sliding-window ready; great for CPU offload experiments.5 |
| Qwen3-VL-8B-Instruct | ~8B | 4,096 / 36 | ~16 | 0.56 | Vision-language encoder adds ~1152-dim vision tower.6 |
| Qwen3-14B | ~14B | 5,120 / 40 | ~28 | 0.78 | 40-layer stack with 1M rope theta for 40k context.7 |
| Qwen3-32B | ~32B | 5,120 / 64 | ~64 | 1.25 | 64 decoder layers; same d_head so arithmetic intensity stays ≈64 ops/byte.8 |
Passende Szenarien
1. Workstation-Prototyping (RTX PRO 6000)
- Empfohlene Modelle: Qwen3-4B, Qwen3-VL-8B.
- Warum: Beide Gewichte (8–16 GB) plus KV-Cache für 4K Tokens lassen immer noch >70 GB VRAM für Batch-Verarbeitung, LoRA-Adapter oder Vision-Embeddings übrig.
- Durchsatz: Theoretisch
tokens/s = 1.792 TB/s ÷ weights. Sie können mit ~220 tok/s (4B) oder ~110 tok/s (8B) rechnen, bevor die Rechenkapazität ausgeschöpft ist, sodass die Latenz hauptsächlich durch Speicherzugriffe und nicht durch Tensor-Operationen bestimmt wird. - Tipp: Bleiben Sie rechenbalanciert, indem Sie die Batchgröße auf 4 erhöhen, wann immer das Latenzbudget es zulässt; OBS- oder Whisper-Sidecars beanspruchen kaum VRAM.
2. Enterprise-Copiloten (H200 SXM)
- Empfohlene Modelle: Qwen3-14B dense, Qwen3-32B MoE Routing mit Batch 1–2.
- Warum: 141 GB HBM3e ermöglichen die Aufnahme des 64 GB Modells plus >70 GB für Long-Context KV-Caches. Das Verhältnis von ~412 ops:byte bedeutet, dass die arithmetische Intensität (64) Sie speichergebunden hält, sodass der 4.8 TB/s Feed ~170 tok/s auf 14B und ~75 tok/s auf 32B ohne Tensor-Parallelismus ermöglicht.
- Tipp: Teilen Sie Attention- und Feed-Forward-Layer über MIG-Instanzen auf, wenn Sie mehrere Mandanten bedienen; jede MIG-Slice erhält weiterhin ≥18 GB.
3. Labormaßstab-Supercomputer (DGX Station)
- Empfohlene Modelle: Jede Qwen3-Variante plus gestapelte Tools (RAG, VLM Agents) dank des 784 GB kohärenten Pools.
- Warum: 288 GB On-Package HBM3e bedeuten, dass Sie zwei Dense-Modelle oder ein Dense+MoE-Paar gleichzeitig festlegen können, während die Grace CPU die Datenvorverarbeitung mit 396 GB/s übernimmt. NVLink-C2C eliminiert PCIe-Resharding beim Streamen von Dokumenten aus dem RAM in KV-Caches.
- Durchsatz: Die HGX B300 Spezifikation (36 PFLOPS BF16 über acht GPUs, ≈4.5 PFLOPS pro GPU) kombiniert mit der 8 TB/s Bandbreite hält die Roofline speichergebunden, daher planen Sie ~125 tok/s auf einem 32B Dense-Modell und skalieren linear mit der Batchgröße, bis die Compute-Sättigung 4.5 PFLOPS erreicht.4
- Tipp: Verwenden Sie MIG (7 Slices), um kleine Partitionen für Telemetrie- oder Guardrail-Modelle zu reservieren, ohne den Haupt-VLM-Job zu unterbrechen.
Schnelle Zuordnungsmatrix
| Scenario | Model | GPU | Est. tokens/s (batch 1) | Primary bottleneck | Notes |
|---|---|---|---|---|---|
| Edge copilots | Qwen3-4B | RTX PRO 6000 | ~220 | Memory BW | Plenty of VRAM left for RAG embeddings. |
| Vision agent demos | Qwen3-VL-8B | RTX PRO 6000 | ~110 | Memory BW | Vision tower benefits from 96 GB VRAM for image batches. |
| Customer support copilots | Qwen3-14B | H200 | ~170 | Memory BW | MIG lets you mirror-prod topology in dev. |
| Technical assistant / codegen | Qwen3-32B | H200 | ~75 | Memory BW | Requires tensor parallel if batching >2. |
| Multi-agent sandbox | Qwen3-32B + tools | DGX Station | ~125 | Memory BW | 784 GB pool hosts RAG corpora in-memory. |
Interaktiver Rechner (Beta)
Verwenden Sie den untenstehenden Planer, um Kontextfenster, Batch-Größen und Präzisionsannahmen für jedes GPU-Profil einem Stresstest zu unterziehen.
Hinweis: Die Token pro Sekunde erreichen ein Plateau, sobald die Auslastung die Compute-Grenze erreicht – der Rechner vergleicht jetzt beide Limits und meldet das strengere.
Interactive Estimator
LLM inference planner beta
Adjust model, GPU, context, and precision settings to estimate VRAM usage, roofline balance, and theoretical tokens per second for batch 1 workloads.
Capacity check
- Model weights
- 8 GB
- KV cache per token
- 0.37 MB
- KV budget (context × batch)
- 0.57 GB
- Total VRAM needed
- 8.57 GB
- Headroom on GPU
- 87.43 GB
Roofline alignment
- GPU ops:byte70.31 ops/byte
- Base intensity (d_head/2)64 ops/byte
- Effective intensity (× batch)64 ops/byte
- Gap6.31 ops/byte
Memory-bound: scaling batch size raises effective intensity because more tokens share the same weight fetch per decode step.
Latency snapshot
- Tokens per second
- 224 tok/s
- Throughput limit
- Memory
- Prefill latency
- 4,571.43 ms
Tokens/s picks the lower of the memory-bound ceiling (`bandwidth ÷ weights × batch`) and the compute ceiling (`FLOPS ÷ ops/token`). Prefill latency uses the single-sequence value because prompts stream tokens sequentially.
Footnotes
-
NVIDIA RTX PRO 6000 Blackwell Workstation Edition specifications, NVIDIA. ↩
-
NVIDIA DGX Station (Grace Blackwell Ultra) specifications, NVIDIA. ↩
-
NVIDIA HGX Platform and Blackwell Ultra specifications (HGX B300), NVIDIA. ↩ ↩2
-
Qwen/Qwen3-4B-Instruct-2507 model card, Hugging Face. ↩
-
Qwen/Qwen3-VL-8B-Instruct model card, Hugging Face. ↩
-
Qwen/Qwen3-14B model card, Hugging Face. ↩
-
Qwen/Qwen3-32B model card, Hugging Face. ↩