Notizen vom Prüfstand.
Reale Benchmarks, getestete Konfigurationen und Feldnotizen. Keine Listicles, kein SEO-Bait.

Lokales RAG in 2026 bauen: Stack Ollama + Qdrant + LlamaIndex
Architektur in 4 Bausteinen, technische Wahl, GPU-Sizing nach Nutzern und TCO ueber 24 Monate vs GPT-4o.
Q4 vs Q5 vs Q8: welche Quantization fuer Llama 70B in 2026?
VRAM-Tabelle pro Quant (Q3 bis FP16), gemessener Qualitaetsverlust, GPU-Empfehlungen und tok/s pro Setup.
Llama 4 lokal in 2026: VRAM, GPUs und realistische Alternativen
Llama 4 Scout, Maverick, Behemoth: was wirklich zuhause laeuft. VRAM pro Version, Mindest-GPUs, 5 kompetitive 70-123B Alternativen.
Mistral Large 123B lokal: welches Rig, welche realen Kosten in 2026
Mistral Large 123B open-weight zuhause: VRAM pro Quant, Mindest-Rig (2x A6000 NVLink), ROI vs Mistral API nach Monatsvolumen, und wann Llama 3.3 70B die bessere Wahl ist.
vLLM vs Ollama im Produktivbetrieb: das 2026 Benchmark (single, batching, multi-user)
Reales Benchmark der beiden Inferenz-Runtimes auf RTX 5090 und 2x RTX 5090 NVLink. Single user, 4 parallel, 10 parallel: wer gewinnt wann und warum Continuous Batching alles aendert.
Souveraenes RAG mit Qwen 3 30B MoE: der vollstaendige 2026er Stack
Warum Qwen 3 30B-A3B (MoE, 3B aktive Params/Token) der 2026er Sweet Spot fuer souveraenes Team-RAG ist. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex auf einem Pro-Rig (11.990 EUR). Alles open-weight, alles self-hosted.
Was kostet ein KI-Server fuer KMU im Jahr 2026?
Klare Aufschluesselung der echten Kosten eines lokalen KI-Rigs: Hardware, Software, Strom und Support, mit drei Preisstufen und Cloud-Vergleich.
Cloud vs On-Prem-KI: Break-even kann nach 9 Monaten kommen
Ein ehrlicher Vergleich zwischen OpenAI / Anthropic APIs und einem lokalen KI-Rig, mit drei konkreten TCO-Szenarien ueber 24 Monate.
RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs
Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.
Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?
VRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.