AppleApple SiliconMac Studiomémoire unifiée

Mac Studio M4 Max (128GB) pour l'IA locale

Le Mac Studio M4 Max (128GB) est un GPU data center (128 GB de VRAM) destiné aux ordinateurs Apple Silicon. Sur les 242 modèles open source de notre catalogue, 227 tournent confortablement dessus en mono-carte. La mémoire unifiée Apple est partagée avec le système — ~75 % typiquement allouable au GPU.

Voir tous les modèles compatibles →Rig autour du (128GB) ↗

VRAM

128GB unif.

Catégorie

Apple

Série

Mac Studio

Vendor

Apple

Modèles qui tournent confortablement

227 modèles · trié VRAM ↓

Ces modèles tiennent dans 128GB avec marge pour le contexte long et l'inférence stable. Triés du plus gros au plus petit.

01Mixtral 8x22Bmistral · MoE108.3 GBcompatibleQ5 · / 128 GB

02★Mistral Large 123Bmistral94.5 GBcompatibleQ5 · / 128 GB

03★NVIDIA Nemotron 3 Super 120B A12B BF16nemotron92.2 GBcompatibleQ5 · / 128 GB

04★Llama 4 Scout 17Bx16llama · MoE83.7 GBcompatibleQ5 · / 128 GB

05★Command R+ 104Bcommand79.9 GBcompatibleQ5 · / 128 GB

06★Qwen 2.5 72Bqwen80.5 GBcompatibleQ8 · / 128 GB

07Qwen 2.5 VL 72Bqwen80.5 GBcompatibleQ8 · / 128 GB

08★Qwen2.5 72B Instructqwen80.5 GBcompatibleQ8 · / 128 GB

09Llama 2 70Bllama78.2 GBcompatibleQ8 · / 128 GB

10Llama 3 70Bllama78.2 GBcompatibleQ8 · / 128 GB

11Llama 3.1 70Bllama78.2 GBcompatibleQ8 · / 128 GB

12★Llama 3.3 70Bllama78.2 GBcompatibleQ8 · / 128 GB

13CodeLlama 70Bcodellama78.2 GBcompatibleQ8 · / 128 GB

14★DeepSeek R1 Distill 70Bdeepseek78.2 GBcompatibleQ8 · / 128 GB

15Hermes 3 70Bhermes78.2 GBcompatibleQ8 · / 128 GB

16★Llama 3.1 Nemotron 70Bnemotron78.2 GBcompatibleQ8 · / 128 GB

17Athene 70Bathene78.2 GBcompatibleQ8 · / 128 GB

18★Llama 3.3 70B Instructllama78.2 GBcompatibleQ8 · / 128 GB

19★Llama 3.1 70B Instructllama78.2 GBcompatibleQ8 · / 128 GB

20★DeepSeek R1 Distill Llama 70Bllama78.2 GBcompatibleQ8 · / 128 GB

21★Llama 3_3 Nemotron Super 49B v1_5llama54.8 GBcompatibleQ8 · / 128 GB

22★Mixtral 8x7Bmistral · MoE105.1 GBcompatibleFP16 · / 128 GB

23Falcon 40Bfalcon89.4 GBcompatibleFP16 · / 128 GB

24Command R 35Bcommand78.2 GBcompatibleFP16 · / 128 GB

25Aya 23 35Baya78.2 GBcompatibleFP16 · / 128 GB

26CodeLlama 34Bcodellama76.0 GBcompatibleFP16 · / 128 GB

27Yi 1.5 34Byi76.0 GBcompatibleFP16 · / 128 GB

28★dolphin 2.9.1 yi 1.5 34byi76.0 GBcompatibleFP16 · / 128 GB

29★Qwen 2.5 32Bqwen71.5 GBcompatibleFP16 · / 128 GB

30★Qwen 2.5 Coder 32Bqwen71.5 GBcompatibleFP16 · / 128 GB

+ 197 autres — voir le calculateur complet →

Modèles serrés (possibles mais lents)

1 modèles tendus

Ces modèles tiennent tout juste. Tournent mais le contexte disponible est limité, et l'inférence peut être lente si on dépasse la VRAM (offload CPU).

01Falcon 180Bfalcon113.2 GBserréQ4 · / 128 GB

Débloqués en rig 2×

256 GB total

Avec 2 cartes en parallèle (256 GB total), vous accédez à des modèles plus gros et à des quantizations plus hautes.

01★Llama 3.1 405Bllama254.6 GBserréQ4 · / 256 GB

02Hermes 3 405Bhermes254.6 GBserréQ4 · / 256 GB

03★Llama 3.1 405Bllama254.6 GBserréQ4 · / 256 GB

04★Llama 4 Maverick 17Bx128llama · MoE251.5 GBserréQ4 · / 256 GB

05Nemotron 340Bnemotron213.7 GBcompatibleQ4 · / 256 GB

06DeepSeek V2deepseek · MoE181.3 GBcompatibleQ5 · / 256 GB

07DeepSeek Coder V2deepseek · MoE181.3 GBcompatibleQ5 · / 256 GB

08★Qwen 3 235B A22Bqwen · MoE180.6 GBcompatibleQ5 · / 256 GB

09★Qwen3 235B A22Bqwen180.6 GBcompatibleQ5 · / 256 GB

Débloqués en rig 4×

512 GB total

Configuration entreprise / serveur (512 GB total) : vous accédez aux flagships open source 70B+ et aux MoE moyens.

01★DeepSeek V3.2deepseek · MoE430.6 GBcompatibleQ4 · / 512 GB

02★DeepSeek V4 Prodeepseek · MoE430.6 GBcompatibleQ4 · / 512 GB

03★DeepSeek R1deepseek · MoE421.8 GBcompatibleQ4 · / 512 GB

04★DeepSeek V3deepseek · MoE421.8 GBcompatibleQ4 · / 512 GB

05★DeepSeek R1 (0528 snapshot)deepseek · MoE421.8 GBcompatibleQ4 · / 512 GB

GPUs similaires

// données mises à jour le 2026-06-27 via HuggingFace API.
// estimations VRAM : (params × bits/8) × overhead 20 %. // apple Silicon : ~75 % de la mémoire unifiée est typiquement allouable au GPU.