GPU · 9 min lezen

Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?

DO
Damien · LocalIA
Gepubliceerd 2026-05-07

VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.

LocalIA AI rig

Llama 3.3 70B is een referentiemodel voor lokale RAG en agents. De voorwaarde is simpel: genoeg VRAM en de juiste quantization.

VRAM per quantization

Q4_K_M~47 GBAcceptabele kwaliteit, niet op een enkele consumer-GPU.
Q5_K_M~58 GBZeer goede kwaliteit, aanbevolen voor RAG.
Q8~84 GBBijna FP16-kwaliteit.
FP16~168 GBReferentieprecisie, datacenter-niveau.

Typische hardware

  • 24-32 GB: beter kleinere modellen of CPU-offload.
  • 48-64 GB: sweet spot 2026, vooral 2 RTX 5090s voor Q5.
  • 80+ GB: Q8 en grote MoE-modellen worden realistisch.
Test voor aankoop het doelmodel in de LocalIA-calculator en controleer de VRAM-marge.

Open de calculator / vraag een offerte aan met doelmodel, gebruikers en randvoorwaarden.

GPULlamaRAG