GPU · 8 Min. Lesezeit

RTX 5090 vs Mac Studio M3 Ultra fuer lokale LLMs

DO
Damien · LocalIA
Veröffentlicht 2026-05-08

Zwei Philosophien und zwei Gewinner je nach Use Case: dedizierte VRAM vs Unified Memory, Durchsatz, Multi-User und EUR pro GB.

LocalIA AI rig

NVIDIA und Apple loesen lokale LLMs unterschiedlich: dedizierte schnelle VRAM und CUDA-Tools hier, massive Unified Memory und leiser Desktop dort.

Kurzfassung

RTX 509032 GB dedizierte VRAMSchnell, CUDA-nativ, stark beim Serving.
Mac Studio M3 Ultrabis 512 GB Unified MemoryLangsamer, leise, laedt riesige Modelle.

Wer gewinnt wann

  • Modelle unter 70B mit mehreren Nutzern: NVIDIA gewinnt.
  • Sehr grosse Modelle fuer ein bis zwei Nutzer: Mac Studio gewinnt.
  • Fine-tuning und Produktionstools: NVIDIA gewinnt wegen CUDA.
  • Leiser Forschungsarbeitsplatz: Mac Studio ist sehr stark.
Die beste Maschine ist die, die zur Last passt, nicht die mit dem lautesten Benchmark.

Rechner öffnen / frag uns um Rat mit Zielmodell, Nutzern und Randbedingungen.

Häufig gestellte Fragen

RTX 5090 oder Mac Studio M3 Ultra für ein lokales LLM?+
Die RTX 5090 (32 GB dedizierte VRAM) gewinnt bei Durchsatz und Multi-User (vLLM-Batching). Der Mac Studio M3 Ultra (bis 512 GB unified) gewinnt bei der Fähigkeit, sehr große Modelle für 1-2 Nutzer zu laden.
Welche GPU ist die beste, um Llama 70B für 5 Nutzer zu servieren?+
2x RTX 5090 (64 GB Gesamt-VRAM) mit vLLM. Eine einzelne 5090 ist knapp für 70B Q3, aber 2x 5090 erlauben komfortables Q5_K_M plus Batching von 5-10 gleichzeitigen Anfragen bei ~30-40 tok/s kombiniert.
Kann der Mac Studio M3 Ultra Mistral Large 123B betreiben?+
Ja, in Q5_K_M passt es bequem in 96-128 GB unified. Single-User-Geschwindigkeit ~15-25 tok/s. Nachteil: kein effizientes Batching (Metal Performance Shaders sind weniger ausgereift als CUDA), daher keine 5+ gleichzeitigen Nutzer.
Welches Rig für eine DSGVO-sensible Kanzlei?+
Empfehlung: ein Enterprise-Build (2x RTX A6000 NVLink, 96 GB VRAM, ECC-RAM). Ein Mac Studio ist für einen Einzelanwalt in Ordnung, aber nicht für 5+ gleichzeitige Nutzer. RTX A6000 mit ECC ist Server-Niveau und entspricht DSGVO/AI-Act-Erwartungen.
Wie hoch sind die Kosten pro GB VRAM 2026?+
RTX 5090: ~110 EUR/GB. RTX A6000: ~145 EUR/GB. Mac Studio M3 Ultra 256 GB: ~24 EUR/GB, aber mit etwa 3x geringerem Durchsatz.
GPUAppleVergleich