RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs
DO
Damien · LocalIAZwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.

NVIDIA und Apple loesen lokale LLMs unterschiedlich: dedizierte schnelle VRAM und CUDA-Tools hier, massive Unified Memory und leiser Desktop dort.
Kurzfassung
| RTX 5090 | 32 GB dedizierte VRAM | Schnell, CUDA-nativ, stark beim Serving. |
| Mac Studio M3 Ultra | bis 512 GB Unified Memory | Langsamer, leise, laedt riesige Modelle. |
Wer gewinnt wann
- Modelle unter 70B mit mehreren Nutzern: NVIDIA gewinnt.
- Sehr grosse Modelle fuer ein bis zwei Nutzer: Mac Studio gewinnt.
- Fine-tuning und Produktionstools: NVIDIA gewinnt wegen CUDA.
- Leiser Forschungsarbeitsplatz: Mac Studio ist sehr stark.
Die beste Maschine ist die, die zur Last passt, nicht die mit dem lautesten Benchmark.
Rechner öffnen / frag uns um Rat mit Zielmodell, Nutzern und Randbedingungen.
Häufig gestellte Fragen
RTX 5090 oder Mac Studio M3 Ultra für ein lokales LLM?+
Die RTX 5090 (32 GB dedizierte VRAM) gewinnt bei Durchsatz und Multi-User (vLLM-Batching). Der Mac Studio M3 Ultra (bis 512 GB unified) gewinnt bei der Fähigkeit, sehr große Modelle für 1-2 Nutzer zu laden.
Welche GPU ist die beste, um Llama 70B für 5 Nutzer zu servieren?+
2x RTX 5090 (64 GB Gesamt-VRAM) mit vLLM. Eine einzelne 5090 ist knapp für 70B Q3, aber 2x 5090 erlauben komfortables Q5_K_M plus Batching von 5-10 gleichzeitigen Anfragen bei ~30-40 tok/s kombiniert.
Kann der Mac Studio M3 Ultra Mistral Large 123B betreiben?+
Ja, in Q5_K_M passt es bequem in 96-128 GB unified. Single-User-Geschwindigkeit ~15-25 tok/s. Nachteil: kein effizientes Batching (Metal Performance Shaders sind weniger ausgereift als CUDA), daher keine 5+ gleichzeitigen Nutzer.
Welches Rig für eine DSGVO-sensible Kanzlei?+
Empfehlung: ein Enterprise-Build (2x RTX A6000 NVLink, 96 GB VRAM, ECC-RAM). Ein Mac Studio ist für einen Einzelanwalt in Ordnung, aber nicht für 5+ gleichzeitige Nutzer. RTX A6000 mit ECC ist Server-Niveau und entspricht DSGVO/AI-Act-Erwartungen.
Wie hoch sind die Kosten pro GB VRAM 2026?+
RTX 5090: ~110 EUR/GB. RTX A6000: ~145 EUR/GB. Mac Studio M3 Ultra 256 GB: ~24 EUR/GB, aber mit etwa 3x geringerem Durchsatz.
GPUAppleVergleich