Journal · 14 artikels

Notities van de testbank.

Echte benchmarks, geteste configuraties en veldnotities. Geen listicles, geen SEO bait.

Rig IA LocalIA détouré
Testbank · uitgelicht

Welke LLMs draaien op een budget-GPU (RTX 3060, 3070) in 2026?

Je hebt geen RTX 5090 nodig om te beginnen met lokale AI. De beste GPU's per budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), wat past per VRAM, en de koning van VRAM per euro op de tweedehandsmarkt.

· 7 min
Apple

Kun je een lokale LLM draaien op een Mac Mini M4? (2026)

De Mac Mini M4 draait lokale LLMs verrassend goed dankzij unified memory (tot 64 GB als VRAM). Welke modellen passen per configuratie, de echte tok/s en Mac vs een dedicated GPU.

· 7 min
GPU

RTX 5090 vs RTX 4090 voor lokale AI: welke kiezen in 2026?

Het nuchtere duel vanuit de hoek die telt: welke modellen draaien, bij welke throughput, voor welke prijs. VRAM (32 vs 24 GB), GDDR7-bandbreedte, modeltabel en oordeel per profiel.

· 7 min
VRAM

Hoeveel VRAM om een lokale LLM te draaien? (formule + tabel 2026)

De exacte methode om de VRAM van een LLM te schatten: modelgewichten x bytes per parameter, KV-cache, overhead. Een kant-en-klare tabel (7B tot 123B x Q4/Q5/Q8) en de minimale kaart per model.

· 8 min
RAG

Een lokale RAG bouwen in 2026: Ollama + Qdrant + LlamaIndex stack

Architectuur in 4 bouwstenen, technische keuzes, GPU-sizing per gelijktijdige gebruiker en 24-maands TCO vs GPT-4o.

· 9 min
Quantization

Q4 vs Q5 vs Q8: welke quantization voor Llama 70B in 2026?

VRAM-tabel per quant (Q3 tot FP16), gemeten kwaliteitsverlies, GPU-aanbevelingen en geschatte tok/s per setup.

· 8 min
Llama

Llama 4 lokaal in 2026: VRAM, GPU's en realistische alternatieven

Llama 4 Scout, Maverick, Behemoth: wat thuis echt past in 2026. VRAM per versie, minimale GPU's en 5 competitieve alternatieven 70-123B.

· 8 min
Mistral

Mistral Large 123B lokaal: welke rig, wat zijn de echte kosten in 2026

Mistral Large 123B open-weight thuis: VRAM per quant, minimale rig (2x A6000 NVLink), ROI vs Mistral API per maandvolume, en wanneer kies je beter voor Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama in productie: de 2026 benchmark (single user, batching, multi-user)

Echte benchmark van de twee inference-runtimes op RTX 5090 en 2x RTX 5090 NVLink. Single user, 4 gelijktijdige users, 10 users onder load: wie wint wanneer, en waarom continuous batching alles verandert.

· 8 min
RAG

Soevereine RAG met Qwen 3 30B MoE: de complete 2026 stack

Waarom Qwen 3 30B-A3B (MoE, 3B actieve params/token) de 2026 sweet spot is voor een soevereine team-RAG. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex op een Pro rig (EUR 11.990). Alles open-weight, alles self-hosted.

· 9 min
Prijs

Wat kost een AI-server voor een mkb-bedrijf in 2026?

Heldere uitsplitsing van de echte kosten van een lokale AI-rig: hardware, software, stroom en support, met drie prijslagen en cloudvergelijking.

· 8 min
Strategie

Cloud vs on-prem AI: break-even kan na 9 maanden komen

Een eerlijke vergelijking tussen OpenAI / Anthropic APIs en een lokale AI-rig, met drie concrete TCO-scenario's over 24 maanden.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra voor lokale LLMs

Twee filosofieen en twee winnaars per use case: dedicated VRAM vs unified memory, throughput, multi-user serving en EUR per GB.

· 8 min
GPU

Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?

VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.

· 9 min