Combien de VRAM pour faire tourner un LLM en local ? (formule + tableau 2026)
La méthode exacte pour estimer la VRAM d'un LLM : poids du modèle × octets par paramètre, cache KV, overhead. Tableau prêt à l'emploi (7B à 123B × Q4/Q5/Q8) et la carte minimale par modèle.

TL;DR.La VRAM nécessaire pour faire tourner un LLM en local se calcule en trois morceaux : poids du modèle (nombre de paramètres × octets par paramètre selon la quantization) + cache KV (qui grandit avec la longueur de contexte) + ~10-15 % d'overhead. Règle de poche en Q4 : comptez environ 0,5 Go de VRAM par milliard de paramètres, plus une marge. Un modèle 70B tient sur ~40 Go en Q4, un 7-8B sur une carte 8 Go.
C'est la première question que tout le monde se pose avant d'acheter une carte ou de lancer un ollama pull : « est-ce que ce modèle va tenir dans ma VRAM ? » Voici la méthode exacte, sans approximation magique, avec un tableau prêt à l'emploi pour 2026.
1. Les poids du modèle
C'est la partie la plus lourde et la plus simple à estimer. Un modèle de Nmilliards de paramètres occupe :
VRAM des poids (Go) ≈ N × octets par paramètre
Le nombre d'octets par paramètre dépend entièrement de la quantization — c'est le levier numéro un :
| Quantization | Octets / paramètre | Pour un modèle 70B |
|---|---|---|
| FP16 (pleine précision) | 2,0 | ≈ 140 Go |
| Q8 | 1,0 | ≈ 70 Go |
| Q5 (Q5_K_M) | 0,625 | ≈ 44 Go |
| Q4 (Q4_K_M) | 0,5 | ≈ 35 Go |
| Q3 | 0,375 | ≈ 26 Go |
2. Le cache KV (souvent oublié)
Pendant la génération, le modèle garde en mémoire une « clé » et une « valeur » pour chaque token déjà vu : c'est le cache KV. Il grandit avec la longueur de contexte. En ordre de grandeur, comptez 0,1 à 0,5 Go par tranche de 1 000 tokens de contexte pour un modèle 70B (moins pour les petits modèles).
Conséquence concrète : un modèle qui « rentre tout juste » avec 2k tokens de contexte peut déborder à 32k tokens. Si vous visez du RAGavec des prompts longs, gardez 10-20 % de VRAM de marge rien que pour le KV.
3. L'overhead
Les moteurs d'inférence (vLLM, llama.cpp, Ollama) réservent de la place pour les activations, les buffers CUDA et leur propre fonctionnement : comptez ~10 à 15 % en plus.
VRAM totale ≈ (poids + cache KV) × 1,12
Le tableau récap 2026
VRAM totale approximative (poids + overhead, contexte modéré) pour les modèles les plus utilisés, et la carte minimale qui encaisse :
| Modèle | Q4 | Q5 | Q8 | GPU mini (Q4/Q5) |
|---|---|---|---|---|
| Mistral 7B / Llama 3.1 8B | ~5 Go | ~6 Go | ~9 Go | RTX 3060 12 Go |
| Qwen 2.5 32B / Gemma 4 31B | ~18 Go | ~22 Go | ~35 Go | RTX 4090 / 5090 24-32 Go |
| Llama 3.3 70B / Qwen 2.5 72B | ~40 Go | ~50 Go | ~78 Go | 2× RTX 5090 (64 Go) |
| Mistral Large 123B | ~69 Go | ~86 Go | ~138 Go | 2× RTX A6000 NVLink (96 Go) |
| Llama 4 Scout 109B (MoE) | ~61 Go | ~76 Go | ~122 Go | 2× RTX 5090 / A6000 |
Et le multi-GPU ?
Quand un modèle dépasse la VRAM d'une seule carte, on répartit les couches sur plusieurs GPU (tensor parallel). Deux points de vigilance :
- La VRAM s'additionne (2× 32 Go = 64 Go utiles), mais
- la bande passante entre cartescompte énormément : en NVLink, le multi-GPU est fluide ; en PCIe simple, les gros modèles peuvent ralentir nettement.
Réduire la VRAM nécessaire
Descendre d'un cran de quantization
Passer de Q8 à Q4 divise quasiment la VRAM des poids par deux, pour une perte de qualité souvent imperceptible sur des tâches business (résumé, RAG, classification).
Limiter le contexte
Inutile de réserver 128k tokens de contexte si vos prompts en font 4k : réduire la fenêtre de contexte libère du cache KV.
Choisir un MoE
Un modèle Mixture-of-Experts(Qwen 3 30B-A3B, Llama 4 Scout) charge tous ses poids en VRAM mais n'active qu'une fraction par token : vous obtenez la vitesse d'un petit modèle avec la qualité d'un gros, à condition d'avoir la VRAM pour les poids.