Journal · 10 artikels

Notities van de testbank.

Echte benchmarks, geteste configuraties en veldnotities. Geen listicles, geen SEO bait.

Rig IA LocalIA détouré
Testbank · uitgelicht

Een lokale RAG bouwen in 2026: Ollama + Qdrant + LlamaIndex stack

Architectuur in 4 bouwstenen, technische keuzes, GPU-sizing per gelijktijdige gebruiker en 24-maands TCO vs GPT-4o.

· 9 min
Quantization

Q4 vs Q5 vs Q8: welke quantization voor Llama 70B in 2026?

VRAM-tabel per quant (Q3 tot FP16), gemeten kwaliteitsverlies, GPU-aanbevelingen en geschatte tok/s per setup.

· 8 min
Llama

Llama 4 lokaal in 2026: VRAM, GPU's en realistische alternatieven

Llama 4 Scout, Maverick, Behemoth: wat thuis echt past in 2026. VRAM per versie, minimale GPU's en 5 competitieve alternatieven 70-123B.

· 8 min
Mistral

Mistral Large 123B lokaal: welke rig, wat zijn de echte kosten in 2026

Mistral Large 123B open-weight thuis: VRAM per quant, minimale rig (2x A6000 NVLink), ROI vs Mistral API per maandvolume, en wanneer kies je beter voor Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama in productie: de 2026 benchmark (single user, batching, multi-user)

Echte benchmark van de twee inference-runtimes op RTX 5090 en 2x RTX 5090 NVLink. Single user, 4 gelijktijdige users, 10 users onder load: wie wint wanneer, en waarom continuous batching alles verandert.

· 8 min
RAG

Soevereine RAG met Qwen 3 30B MoE: de complete 2026 stack

Waarom Qwen 3 30B-A3B (MoE, 3B actieve params/token) de 2026 sweet spot is voor een soevereine team-RAG. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex op een Pro rig (EUR 11.990). Alles open-weight, alles self-hosted.

· 9 min
Prijs

Wat kost een AI-server voor een mkb-bedrijf in 2026?

Heldere uitsplitsing van de echte kosten van een lokale AI-rig: hardware, software, stroom en support, met drie prijslagen en cloudvergelijking.

· 8 min
Strategie

Cloud vs on-prem AI: break-even kan na 9 maanden komen

Een eerlijke vergelijking tussen OpenAI / Anthropic APIs en een lokale AI-rig, met drie concrete TCO-scenario's over 24 maanden.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra voor lokale LLMs

Twee filosofieen en twee winnaars per use case: dedicated VRAM vs unified memory, throughput, multi-user serving en EUR per GB.

· 8 min
GPU

Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?

VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.

· 9 min