Journal · 14 Artikel

Notizen vom Prüfstand.

Reale Benchmarks, getestete Konfigurationen und Feldnotizen. Keine Listicles, kein SEO-Bait.

Rig IA LocalIA détouré
Prüfstand · featured

Welche LLMs laufen auf einer günstigen GPU (RTX 3060, 3070) in 2026?

Sie brauchen keine RTX 5090 für den Einstieg in lokale KI. Die besten GPUs je Budget (RTX 3060 12 GB, 4060 Ti 16 GB, 3090 24 GB), was nach VRAM passt, und der König des VRAM pro Euro auf dem Gebrauchtmarkt.

· 7 Min.
Apple

Kann man ein LLM lokal auf einem Mac Mini M4 betreiben? (2026)

Der Mac Mini M4 betreibt lokale LLMs erstaunlich gut dank Unified Memory (bis 64 GB als VRAM). Welche Modelle je Konfiguration passen, reale tok/s und Mac vs dedizierte GPU.

· 7 Min.
GPU

RTX 5090 vs RTX 4090 für lokale KI: welche 2026 wählen?

Der nüchterne Vergleich aus dem Blickwinkel, der zählt: welche Modelle laufen, bei welchem Durchsatz, zu welchem Preis. VRAM (32 vs 24 GB), GDDR7-Bandbreite, Modelltabelle und Urteil nach Profil.

· 7 Min.
VRAM

Wie viel VRAM für ein lokales LLM? (Formel + Tabelle 2026)

Die exakte Methode zur Schätzung des VRAM eines LLM: Modellgewichte x Bytes pro Parameter, KV-Cache, Overhead. Eine sofort nutzbare Tabelle (7B bis 123B x Q4/Q5/Q8) und die Mindest-Karte je Modell.

· 8 Min.
RAG

Lokales RAG in 2026 bauen: Stack Ollama + Qdrant + LlamaIndex

Architektur in 4 Bausteinen, technische Wahl, GPU-Sizing nach Nutzern und TCO ueber 24 Monate vs GPT-4o.

· 9 Min.
Quantization

Q4 vs Q5 vs Q8: welche Quantization fuer Llama 70B in 2026?

VRAM-Tabelle pro Quant (Q3 bis FP16), gemessener Qualitaetsverlust, GPU-Empfehlungen und tok/s pro Setup.

· 8 Min.
Llama

Llama 4 lokal in 2026: VRAM, GPUs und realistische Alternativen

Llama 4 Scout, Maverick, Behemoth: was wirklich zuhause laeuft. VRAM pro Version, Mindest-GPUs, 5 kompetitive 70-123B Alternativen.

· 8 Min.
Mistral

Mistral Large 123B lokal: welches Rig, welche realen Kosten in 2026

Mistral Large 123B open-weight zuhause: VRAM pro Quant, Mindest-Rig (2x A6000 NVLink), ROI vs Mistral API nach Monatsvolumen, und wann Llama 3.3 70B die bessere Wahl ist.

· 9 Min.
vLLM

vLLM vs Ollama im Produktivbetrieb: das 2026 Benchmark (single, batching, multi-user)

Reales Benchmark der beiden Inferenz-Runtimes auf RTX 5090 und 2x RTX 5090 NVLink. Single user, 4 parallel, 10 parallel: wer gewinnt wann und warum Continuous Batching alles aendert.

· 8 Min.
RAG

Souveraenes RAG mit Qwen 3 30B MoE: der vollstaendige 2026er Stack

Warum Qwen 3 30B-A3B (MoE, 3B aktive Params/Token) der 2026er Sweet Spot fuer souveraenes Team-RAG ist. Stack: vLLM + Qdrant + nomic-embed + LlamaIndex auf einem Pro-Rig (11.990 EUR). Alles open-weight, alles self-hosted.

· 9 Min.
Preis

Was kostet ein KI-Server fuer KMU im Jahr 2026?

Klare Aufschluesselung der echten Kosten eines lokalen KI-Rigs: Hardware, Software, Strom und Support, mit drei Preisstufen und Cloud-Vergleich.

· 8 Min.
Strategie

Cloud vs On-Prem-KI: Break-even kann nach 9 Monaten kommen

Ein ehrlicher Vergleich zwischen OpenAI / Anthropic APIs und einem lokalen KI-Rig, mit drei konkreten TCO-Szenarien ueber 24 Monate.

· 9 Min.
GPU

RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs

Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.

· 8 Min.
GPU

Welche GPU braucht man fuer Llama 3.3 70B lokal in 2026?

VRAM nach Quantization, kompatible GPUs, RTX 5090 vs A6000 vs H100 und der Kostenvergleich mit OpenAI APIs.

· 9 Min.