GPU · 9 min lezen

Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?

Damien · LocalIA

Gepubliceerd 2026-05-07

VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.

Llama 3.3 70B is een referentiemodel voor lokale RAG en agents. De voorwaarde is simpel: genoeg VRAM en de juiste quantization.

VRAM per quantization

Q4_K_M	~47 GB	Acceptabele kwaliteit, niet op een enkele consumer-GPU.
Q5_K_M	~58 GB	Zeer goede kwaliteit, aanbevolen voor RAG.
Q8	~84 GB	Bijna FP16-kwaliteit.
FP16	~168 GB	Referentieprecisie, datacenter-niveau.

Test voor aankoop het doelmodel in de LocalIA-calculator en controleer de VRAM-marge.

Open de calculator / vraag een offerte aan met doelmodel, gebruikers en randvoorwaarden.

GPULlamaRAG