GPU · 8 Min. Lesezeit

RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs

Damien · LocalIA

Veröffentlicht 2026-05-08

Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.

NVIDIA und Apple loesen lokale LLMs unterschiedlich: dedizierte schnelle VRAM und CUDA-Tools hier, massive Unified Memory und leiser Desktop dort.

Kurzfassung

RTX 5090	32 GB dedizierte VRAM	Schnell, CUDA-nativ, stark beim Serving.
Mac Studio M3 Ultra	bis 512 GB Unified Memory	Langsamer, leise, laedt riesige Modelle.

Wer gewinnt wann

Modelle unter 70B mit mehreren Nutzern: NVIDIA gewinnt.
Sehr grosse Modelle fuer ein bis zwei Nutzer: Mac Studio gewinnt.
Fine-tuning und Produktionstools: NVIDIA gewinnt wegen CUDA.
Leiser Forschungsarbeitsplatz: Mac Studio ist sehr stark.

Die beste Maschine ist die, die zur Last passt, nicht die mit dem lautesten Benchmark.

Rechner öffnen / frag uns um Rat mit Zielmodell, Nutzern und Randbedingungen.

Häufig gestellte Fragen

RTX 5090 oder Mac Studio M3 Ultra für ein lokales LLM?+

Die RTX 5090 (32 GB dedizierte VRAM) gewinnt bei Durchsatz und Multi-User (vLLM-Batching). Der Mac Studio M3 Ultra (bis 512 GB unified) gewinnt bei der Fähigkeit, sehr große Modelle für 1-2 Nutzer zu laden.

Welche GPU ist die beste, um Llama 70B für 5 Nutzer zu servieren?+

2x RTX 5090 (64 GB Gesamt-VRAM) mit vLLM. Eine einzelne 5090 ist knapp für 70B Q3, aber 2x 5090 erlauben komfortables Q5_K_M plus Batching von 5-10 gleichzeitigen Anfragen bei ~30-40 tok/s kombiniert.

Kann der Mac Studio M3 Ultra Mistral Large 123B betreiben?+

Ja, in Q5_K_M passt es bequem in 96-128 GB unified. Single-User-Geschwindigkeit ~15-25 tok/s. Nachteil: kein effizientes Batching (Metal Performance Shaders sind weniger ausgereift als CUDA), daher keine 5+ gleichzeitigen Nutzer.

Welches Rig für eine DSGVO-sensible Kanzlei?+

Empfehlung: ein Enterprise-Build (2x RTX A6000 NVLink, 96 GB VRAM, ECC-RAM). Ein Mac Studio ist für einen Einzelanwalt in Ordnung, aber nicht für 5+ gleichzeitige Nutzer. RTX A6000 mit ECC ist Server-Niveau und entspricht DSGVO/AI-Act-Erwartungen.

Wie hoch sind die Kosten pro GB VRAM 2026?+

RTX 5090: ~110 EUR/GB. RTX A6000: ~145 EUR/GB. Mac Studio M3 Ultra 256 GB: ~24 EUR/GB, aber mit etwa 3x geringerem Durchsatz.

GPUAppleVergleich

X Reddit LinkedIn