Journal · 10 Artikel

Notizen vom Prüfstand.

Reale Benchmarks, getestete Konfigurationen und Feldnotizen. Keine Listicles, kein SEO-Bait.

Rig IA LocalIA détouré
Prüfstand · featured

Lokales RAG in 2026 bauen: Stack Ollama + Qdrant + LlamaIndex

Architektur in 4 Bausteinen, technische Wahl, GPU-Sizing nach Nutzern und TCO ueber 24 Monate vs GPT-4o.

· 9 Min.
Quantization

Q4 vs Q5 vs Q8: welche Quantization fuer Llama 70B in 2026?

VRAM-Tabelle pro Quant (Q3 bis FP16), gemessener Qualitaetsverlust, GPU-Empfehlungen und tok/s pro Setup.

· 8 Min.
Llama

Llama 4 lokal in 2026: VRAM, GPUs und realistische Alternativen

Llama 4 Scout, Maverick, Behemoth: was wirklich zuhause laeuft. VRAM pro Version, Mindest-GPUs, 5 kompetitive 70-123B Alternativen.

· 8 Min.
Mistral

Mistral Large 123B lokal: welches Rig, welche realen Kosten in 2026

Mistral Large 123B open-weight zuhause: VRAM pro Quant, Mindest-Rig (2x A6000 NVLink), ROI vs Mistral API nach Monatsvolumen, und wann Llama 3.3 70B die bessere Wahl ist.

· 9 Min.
vLLM

vLLM vs Ollama im Produktivbetrieb: das 2026 Benchmark (single, batching, multi-user)

Reales Benchmark der beiden Inferenz-Runtimes auf RTX 5090 und 2x RTX 5090 NVLink. Single user, 4 parallel, 10 parallel: wer gewinnt wann und warum Continuous Batching alles aendert.

· 8 Min.
RAG

Souveraenes RAG mit Qwen 3 30B MoE: der vollstaendige 2026er Stack

Warum Qwen 3 30B-A3B (MoE, 3B aktive Params/Token) der 2026er Sweet Spot fuer souveraenes Team-RAG ist. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex auf einem Pro-Rig (11.990 EUR). Alles open-weight, alles self-hosted.

· 9 Min.
Preis

Was kostet ein KI-Server fuer KMU im Jahr 2026?

Klare Aufschluesselung der echten Kosten eines lokalen KI-Rigs: Hardware, Software, Strom und Support, mit drei Preisstufen und Cloud-Vergleich.

· 8 Min.
Strategie

Cloud vs On-Prem-KI: Break-even kann nach 9 Monaten kommen

Ein ehrlicher Vergleich zwischen OpenAI / Anthropic APIs und einem lokalen KI-Rig, mit drei konkreten TCO-Szenarien ueber 24 Monate.

· 9 Min.
GPU

RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs

Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.

· 8 Min.
GPU

Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?

VRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.

· 9 Min.