Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?
DO
Damien · LocalIAVRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.

Llama 3.3 70B is een referentiemodel voor lokale RAG en agents. De voorwaarde is simpel: genoeg VRAM en de juiste quantization.
VRAM per quantization
| Q4_K_M | ~47 GB | Acceptabele kwaliteit, niet op een enkele consumer-GPU. |
| Q5_K_M | ~58 GB | Zeer goede kwaliteit, aanbevolen voor RAG. |
| Q8 | ~84 GB | Bijna FP16-kwaliteit. |
| FP16 | ~168 GB | Referentieprecisie, datacenter-niveau. |
Typische hardware
- 24-32 GB: beter kleinere modellen of CPU-offload.
- 48-64 GB: sweet spot 2026, vooral 2 RTX 5090s voor Q5.
- 80+ GB: Q8 en grote MoE-modellen worden realistisch.
Test voor aankoop het doelmodel in de LocalIA-calculator en controleer de VRAM-marge.
Open de calculator / vraag een offerte aan met doelmodel, gebruikers en randvoorwaarden.
GPULlamaRAG