Notizen vom Prüfstand.
Reale Benchmarks, getestete Konfigurationen und Feldnotizen. Keine Listicles, kein SEO-Bait.

Welche LLMs laufen auf einer günstigen GPU (RTX 3060, 3070) in 2026?
Sie brauchen keine RTX 5090 für den Einstieg in lokale KI. Die besten GPUs je Budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), was nach VRAM passt, und der König des VRAM pro Euro auf dem Gebrauchtmarkt.
Kann man ein LLM lokal auf einem Mac Mini M4 betreiben? (2026)
Der Mac Mini M4 betreibt lokale LLMs erstaunlich gut dank Unified Memory (bis 64 GB als VRAM). Welche Modelle je Konfiguration passen, reale tok/s und Mac vs dedizierte GPU.
RTX 5090 vs RTX 4090 für lokale KI: welche 2026 wählen?
Der nüchterne Vergleich aus dem Blickwinkel, der zählt: welche Modelle laufen, bei welchem Durchsatz, zu welchem Preis. VRAM (32 vs 24 GB), GDDR7-Bandbreite, Modelltabelle und Urteil nach Profil.
Wie viel VRAM für ein lokales LLM? (Formel + Tabelle 2026)
Die exakte Methode zur Schätzung des VRAM eines LLM: Modellgewichte x Bytes pro Parameter, KV-Cache, Overhead. Eine sofort nutzbare Tabelle (7B bis 123B x Q4/Q5/Q8) und die Mindest-Karte je Modell.
Lokales RAG in 2026 bauen: Stack Ollama + Qdrant + LlamaIndex
Architektur in 4 Bausteinen, technische Wahl, GPU-Sizing nach Nutzern und TCO ueber 24 Monate vs GPT-4o.
Q4 vs Q5 vs Q8: welche Quantization fuer Llama 70B in 2026?
VRAM-Tabelle pro Quant (Q3 bis FP16), gemessener Qualitaetsverlust, GPU-Empfehlungen und tok/s pro Setup.
Llama 4 lokal in 2026: VRAM, GPUs und realistische Alternativen
Llama 4 Scout, Maverick, Behemoth: was wirklich zuhause laeuft. VRAM pro Version, Mindest-GPUs, 5 kompetitive 70-123B Alternativen.
Mistral Large 123B lokal: welches Rig, welche realen Kosten in 2026
Mistral Large 123B open-weight zuhause: VRAM pro Quant, Mindest-Rig (2x A6000 NVLink), ROI vs Mistral API nach Monatsvolumen, und wann Llama 3.3 70B die bessere Wahl ist.
vLLM vs Ollama im Produktivbetrieb: das 2026 Benchmark (single, batching, multi-user)
Reales Benchmark der beiden Inferenz-Runtimes auf RTX 5090 und 2x RTX 5090 NVLink. Single user, 4 parallel, 10 parallel: wer gewinnt wann und warum Continuous Batching alles aendert.
Souveraenes RAG mit Qwen 3 30B MoE: der vollstaendige 2026er Stack
Warum Qwen 3 30B-A3B (MoE, 3B aktive Params/Token) der 2026er Sweet Spot fuer souveraenes Team-RAG ist. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex auf einem Pro-Rig (11.990 EUR). Alles open-weight, alles self-hosted.
Was kostet ein KI-Server fuer KMU im Jahr 2026?
Klare Aufschluesselung der echten Kosten eines lokalen KI-Rigs: Hardware, Software, Strom und Support, mit drei Preisstufen und Cloud-Vergleich.
Cloud vs On-Prem-KI: Break-even kann nach 9 Monaten kommen
Ein ehrlicher Vergleich zwischen OpenAI / Anthropic APIs und einem lokalen KI-Rig, mit drei konkreten TCO-Szenarien ueber 24 Monate.
RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs
Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.
Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?
VRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.