Notities van de testbank.
Echte benchmarks, geteste configuraties en veldnotities. Geen listicles, geen SEO bait.

Een lokale RAG bouwen in 2026: Ollama + Qdrant + LlamaIndex stack
Architectuur in 4 bouwstenen, technische keuzes, GPU-sizing per gelijktijdige gebruiker en 24-maands TCO vs GPT-4o.
Q4 vs Q5 vs Q8: welke quantization voor Llama 70B in 2026?
VRAM-tabel per quant (Q3 tot FP16), gemeten kwaliteitsverlies, GPU-aanbevelingen en geschatte tok/s per setup.
Llama 4 lokaal in 2026: VRAM, GPU's en realistische alternatieven
Llama 4 Scout, Maverick, Behemoth: wat thuis echt past in 2026. VRAM per versie, minimale GPU's en 5 competitieve alternatieven 70-123B.
Mistral Large 123B lokaal: welke rig, wat zijn de echte kosten in 2026
Mistral Large 123B open-weight thuis: VRAM per quant, minimale rig (2x A6000 NVLink), ROI vs Mistral API per maandvolume, en wanneer kies je beter voor Llama 3.3 70B.
vLLM vs Ollama in productie: de 2026 benchmark (single user, batching, multi-user)
Echte benchmark van de twee inference-runtimes op RTX 5090 en 2x RTX 5090 NVLink. Single user, 4 gelijktijdige users, 10 users onder load: wie wint wanneer, en waarom continuous batching alles verandert.
Soevereine RAG met Qwen 3 30B MoE: de complete 2026 stack
Waarom Qwen 3 30B-A3B (MoE, 3B actieve params/token) de 2026 sweet spot is voor een soevereine team-RAG. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex op een Pro rig (EUR 11.990). Alles open-weight, alles self-hosted.
Wat kost een AI-server voor een mkb-bedrijf in 2026?
Heldere uitsplitsing van de echte kosten van een lokale AI-rig: hardware, software, stroom en support, met drie prijslagen en cloudvergelijking.
Cloud vs on-prem AI: break-even kan na 9 maanden komen
Een eerlijke vergelijking tussen OpenAI / Anthropic APIs en een lokale AI-rig, met drie concrete TCO-scenario's over 24 maanden.
RTX 5090 vs Mac Studio M3 Ultra voor lokale LLMs
Twee filosofieen en twee winnaars per use case: dedicated VRAM vs unified memory, throughput, multi-user serving en EUR per GB.
Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?
VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.