Notities van de testbank.
Echte benchmarks, geteste configuraties en veldnotities. Geen listicles, geen SEO bait.

Welke LLMs draaien op een budget-GPU (RTX 3060, 3070) in 2026?
Je hebt geen RTX 5090 nodig om te beginnen met lokale AI. De beste GPU's per budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), wat past per VRAM, en de koning van VRAM per euro op de tweedehandsmarkt.
Kun je een lokale LLM draaien op een Mac Mini M4? (2026)
De Mac Mini M4 draait lokale LLMs verrassend goed dankzij unified memory (tot 64 GB als VRAM). Welke modellen passen per configuratie, de echte tok/s en Mac vs een dedicated GPU.
RTX 5090 vs RTX 4090 voor lokale AI: welke kiezen in 2026?
Het nuchtere duel vanuit de hoek die telt: welke modellen draaien, bij welke throughput, voor welke prijs. VRAM (32 vs 24 GB), GDDR7-bandbreedte, modeltabel en oordeel per profiel.
Hoeveel VRAM om een lokale LLM te draaien? (formule + tabel 2026)
De exacte methode om de VRAM van een LLM te schatten: modelgewichten x bytes per parameter, KV-cache, overhead. Een kant-en-klare tabel (7B tot 123B x Q4/Q5/Q8) en de minimale kaart per model.
Een lokale RAG bouwen in 2026: Ollama + Qdrant + LlamaIndex stack
Architectuur in 4 bouwstenen, technische keuzes, GPU-sizing per gelijktijdige gebruiker en 24-maands TCO vs GPT-4o.
Q4 vs Q5 vs Q8: welke quantization voor Llama 70B in 2026?
VRAM-tabel per quant (Q3 tot FP16), gemeten kwaliteitsverlies, GPU-aanbevelingen en geschatte tok/s per setup.
Llama 4 lokaal in 2026: VRAM, GPU's en realistische alternatieven
Llama 4 Scout, Maverick, Behemoth: wat thuis echt past in 2026. VRAM per versie, minimale GPU's en 5 competitieve alternatieven 70-123B.
Mistral Large 123B lokaal: welke rig, wat zijn de echte kosten in 2026
Mistral Large 123B open-weight thuis: VRAM per quant, minimale rig (2x A6000 NVLink), ROI vs Mistral API per maandvolume, en wanneer kies je beter voor Llama 3.3 70B.
vLLM vs Ollama in productie: de 2026 benchmark (single user, batching, multi-user)
Echte benchmark van de twee inference-runtimes op RTX 5090 en 2x RTX 5090 NVLink. Single user, 4 gelijktijdige users, 10 users onder load: wie wint wanneer, en waarom continuous batching alles verandert.
Soevereine RAG met Qwen 3 30B MoE: de complete 2026 stack
Waarom Qwen 3 30B-A3B (MoE, 3B actieve params/token) de 2026 sweet spot is voor een soevereine team-RAG. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex op een Pro rig (EUR 11.990). Alles open-weight, alles self-hosted.
Wat kost een AI-server voor een mkb-bedrijf in 2026?
Heldere uitsplitsing van de echte kosten van een lokale AI-rig: hardware, software, stroom en support, met drie prijslagen en cloudvergelijking.
Cloud vs on-prem AI: break-even kan na 9 maanden komen
Een eerlijke vergelijking tussen OpenAI / Anthropic APIs en een lokale AI-rig, met drie concrete TCO-scenario's over 24 maanden.
RTX 5090 vs Mac Studio M3 Ultra voor lokale LLMs
Twee filosofieen en twee winnaars per use case: dedicated VRAM vs unified memory, throughput, multi-user serving en EUR per GB.
Welke GPU heb je nodig voor Llama 3.3 70B lokaal in 2026?
VRAM per quantization, compatibele GPU's, RTX 5090 vs A6000 vs H100 en de kosten/prestatie-afweging tegenover OpenAI APIs.