GPU · 9 Min. Lesezeit

Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?

DO
Damien · LocalIA
Veröffentlicht 2026-05-07

VRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.

LocalIA AI rig

Llama 3.3 70B ist ein Referenzmodell fuer lokales RAG und Agenten. Entscheidend sind genug VRAM und die passende Quantization.

VRAM nach Quantization

Q4_K_M~47 GBAkzeptable Qualitaet, nicht auf einer Consumer-GPU.
Q5_K_M~58 GBSehr gute Qualitaet, empfohlen fuer RAG.
Q8~84 GBFast FP16-Qualitaet.
FP16~168 GBReferenzpraezision, Datacenter-Niveau.

Typische Hardware

  • 24-32 GB: lieber kleinere Modelle oder CPU-Offload.
  • 48-64 GB: Sweet Spot 2026, besonders 2 RTX 5090 fuer Q5.
  • 80+ GB: Q8 und grosse MoE-Modelle werden realistisch.
Vor dem Kauf das Zielmodell im LocalIA-Rechner testen und die VRAM-Marge pruefen.

Rechner öffnen / frag uns um Rat mit Zielmodell, Nutzern und Randbedingungen.

Häufig gestellte Fragen

What is the minimum GPU to run Llama 3.3 70B locally?+
An RTX 5090 (32 GB) in Q3_K_M works with quality trade-offs. For comfortable Q5_K_M: 2x RTX 5090 (64 GB) or 1x A6000 (48 GB). For Q8 production: 2x A6000 NVLink (96 GB) or 1x H100 80 GB.
How much VRAM for Llama 70B in Q4?+
Around 44 GB in Q4_K_M (params x 0.5625 bytes + 20% overhead for KV cache and context). So 48 GB minimum (A6000) or 64 GB (2x 5090). The 32 GB of a single 5090 is not enough for Q4 without offload.
What differences between Q3, Q4, Q5 and Q8 on Llama 70B?+
Q3: 32 GB VRAM, degraded reasoning quality. Q4: 44 GB, the consumer sweet spot. Q5: 52 GB, indistinguishable from FP16 in chat. Q8: 78 GB, near-FP16 for production. For most uses, Q5_K_M is the best quality/VRAM trade-off.
RTX 4090 or RTX 5090 for Llama 70B in 2026?+
The RTX 5090 (32 GB) wins on VRAM capacity (+33%), bandwidth (~1,800 GB/s vs 1,000) and FP4 support. In mid-2026 both sit at similar prices due to the AI shortage, so prefer the 5090 to be future-proof.
Is a Pro build (~EUR 11,990) well sized for Llama 70B?+
Yes, it is the 2026 sweet spot. 2x RTX 5090 = 64 GB total VRAM via vLLM tensor parallelism. Llama 3.3 70B Q5_K_M runs at 28-35 tok/s single-user and reaches 90-100 tok/s combined in batching for 5 users.
GPULlamaRAG