Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?
DO
Damien · LocalIAVRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.

Llama 3.3 70B ist ein Referenzmodell fuer lokales RAG und Agenten. Entscheidend sind genug VRAM und die passende Quantization.
VRAM nach Quantization
| Q4_K_M | ~47 GB | Akzeptable Qualitaet, nicht auf einer Consumer-GPU. |
| Q5_K_M | ~58 GB | Sehr gute Qualitaet, empfohlen fuer RAG. |
| Q8 | ~84 GB | Fast FP16-Qualitaet. |
| FP16 | ~168 GB | Referenzpraezision, Datacenter-Niveau. |
Typische Hardware
- 24-32 GB: lieber kleinere Modelle oder CPU-Offload.
- 48-64 GB: Sweet Spot 2026, besonders 2 RTX 5090 fuer Q5.
- 80+ GB: Q8 und grosse MoE-Modelle werden realistisch.
Vor dem Kauf das Zielmodell im LocalIA-Rechner testen und die VRAM-Marge pruefen.
Rechner öffnen / frag uns um Rat mit Zielmodell, Nutzern und Randbedingungen.
Häufig gestellte Fragen
What is the minimum GPU to run Llama 3.3 70B locally?+
An RTX 5090 (32 GB) in Q3_K_M works with quality trade-offs. For comfortable Q5_K_M: 2x RTX 5090 (64 GB) or 1x A6000 (48 GB). For Q8 production: 2x A6000 NVLink (96 GB) or 1x H100 80 GB.
How much VRAM for Llama 70B in Q4?+
Around 44 GB in Q4_K_M (params x 0.5625 bytes + 20% overhead for KV cache and context). So 48 GB minimum (A6000) or 64 GB (2x 5090). The 32 GB of a single 5090 is not enough for Q4 without offload.
What differences between Q3, Q4, Q5 and Q8 on Llama 70B?+
Q3: 32 GB VRAM, degraded reasoning quality. Q4: 44 GB, the consumer sweet spot. Q5: 52 GB, indistinguishable from FP16 in chat. Q8: 78 GB, near-FP16 for production. For most uses, Q5_K_M is the best quality/VRAM trade-off.
RTX 4090 or RTX 5090 for Llama 70B in 2026?+
The RTX 5090 (32 GB) wins on VRAM capacity (+33%), bandwidth (~1,800 GB/s vs 1,000) and FP4 support. In mid-2026 both sit at similar prices due to the AI shortage, so prefer the 5090 to be future-proof.
Is a Pro build (~EUR 11,990) well sized for Llama 70B?+
Yes, it is the 2026 sweet spot. 2x RTX 5090 = 64 GB total VRAM via vLLM tensor parallelism. Llama 3.3 70B Q5_K_M runs at 28-35 tok/s single-user and reaches 90-100 tok/s combined in batching for 5 users.
GPULlamaRAG