Peut-on faire tourner un LLM en local sur un Mac Mini M4 ? (2026)
Le Mac Mini M4 fait tourner des LLM en local étonnamment bien grâce à sa mémoire unifiée (jusqu'à 64 Go = VRAM). Quels modèles tiennent par config, le débit réel en tokens/seconde, et Mac vs GPU dédié.

TL;DR. Oui, le Mac Mini M4fait tourner des LLM en local — et étonnamment bien pour son prix et sa consommation. La clé, c'est la mémoire unifiéequi sert de VRAM : jusqu'à 64 Gosur le M4 Pro, de quoi charger un Llama 70B en Q4. La vraie limite n'est pas la capacité mais la bande passante mémoire, qui plafonne le débit en tokens/seconde.
C'est une des questions les plus posées en 2026 : ce petit boîtier silencieux à ~700 € peut-il vraiment faire tourner Llama, Qwen ou Mistral en local ? Réponse courte : oui, dans les limites de sa mémoire. Voici lesquelles, sans survente.
La mémoire unifiée = ta VRAM
Sur un Mac, le CPU et le GPU partagent la même mémoire (architecture unifiée). Concrètement, toute la RAM peut servir de VRAM — macOS en réserve une partie, comptez ~70 % réellement disponible pour le modèle. C'est l'énorme avantage Apple face à une carte graphique dédiée bloquée à 24 ou 32 Go.
| Modèle | RAM unifiée | Bande passante | Prix indicatif |
|---|---|---|---|
| Mac Mini M4 (base) | 16 / 24 / 32 Go | ~120 Go/s | ~700-1 100 € |
| Mac Mini M4 Pro | 24 / 48 / 64 Go | ~273 Go/s | ~1 500-2 400 € |
Quels LLM tiennent selon la RAM
| RAM unifiée | Ce qui tient confortablement | À la limite |
|---|---|---|
| 16 Go | 7-8B en Q4/Q5 (Llama 3.1 8B, Mistral 7B) | 14B en Q4 |
| 24 Go | 14B en Q5, 32B en Q3 | 32B en Q4 serré |
| 48 Go | 32B en Q5/Q6 (Qwen 2.5 32B) | 70B en Q3 |
| 64 Go | 70B en Q4 (Llama 3.3 70B ~40 Go) | 70B en Q5 juste |
Le sweet spot pour faire tourner un vrai 32B (Qwen 2.5 32B, la requête la plus fréquente sur ce sujet) c'est le Mac Mini M4 Pro 48 Go : il avale du Q5_K_M avec de la marge pour le contexte.
Le débit réel (tokens/seconde)
C'est là qu'il faut être honnête. La mémoire unifiée permet de charger de gros modèles, mais la bande passante limite la vitesse. Ordres de grandeur réalistes :
| Config | Modèle 8B Q4 | Modèle 32B Q5 |
|---|---|---|
| Mac Mini M4 (120 Go/s) | ~18-24 tok/s | trop lent / ne tient pas |
| Mac Mini M4 Pro (273 Go/s) | ~40-50 tok/s | ~10-14 tok/s |
Pour du chat solo ou un assistant de code en tâche de fond, c'est tout à fait utilisable. Pour servir plusieurs utilisateurs en parallèle, non : le Mac ne fait pas de batching efficace (Metal est moins mature que CUDA sur ce point).
Mac Mini M4 ou GPU dédié ?
| Critère | Mac Mini M4 Pro | GPU dédié (RTX) |
|---|---|---|
| VRAM max | 64 Go unifiée | 24-32 Go (RTX 4090/5090) |
| Débit (tok/s) | Correct (memory-bound) | Bien supérieur (GDDR7) |
| Multi-utilisateurs | Faible (pas de batching) | Fort (vLLM) |
| Conso / bruit | ~30-50 W, silencieux | 350-575 W, ventilé |
| Prix d'entrée | ~700 € (base) | ~1 100 € (4090 occasion) |