VRAM · 8 min de lecture

Combien de VRAM pour faire tourner un LLM en local ? (formule + tableau 2026)

DO
Damien · LocalIA
Publié 2026-06-05

La méthode exacte pour estimer la VRAM d'un LLM : poids du modèle × octets par paramètre, cache KV, overhead. Tableau prêt à l'emploi (7B à 123B × Q4/Q5/Q8) et la carte minimale par modèle.

Rig IA LocalIA détouré
TL;DR.La VRAM nécessaire pour faire tourner un LLM en local se calcule en trois morceaux : poids du modèle (nombre de paramètres × octets par paramètre selon la quantization) + cache KV (qui grandit avec la longueur de contexte) + ~10-15 % d'overhead. Règle de poche en Q4 : comptez environ 0,5 Go de VRAM par milliard de paramètres, plus une marge. Un modèle 70B tient sur ~40 Go en Q4, un 7-8B sur une carte 8 Go.

C'est la première question que tout le monde se pose avant d'acheter une carte ou de lancer un ollama pull : « est-ce que ce modèle va tenir dans ma VRAM ? » Voici la méthode exacte, sans approximation magique, avec un tableau prêt à l'emploi pour 2026.

1. Les poids du modèle

C'est la partie la plus lourde et la plus simple à estimer. Un modèle de Nmilliards de paramètres occupe :

VRAM des poids (Go) ≈ N × octets par paramètre

Le nombre d'octets par paramètre dépend entièrement de la quantization — c'est le levier numéro un :

QuantizationOctets / paramètrePour un modèle 70B
FP16 (pleine précision)2,0≈ 140 Go
Q81,0≈ 70 Go
Q5 (Q5_K_M)0,625≈ 44 Go
Q4 (Q4_K_M)0,5≈ 35 Go
Q30,375≈ 26 Go

2. Le cache KV (souvent oublié)

Pendant la génération, le modèle garde en mémoire une « clé » et une « valeur » pour chaque token déjà vu : c'est le cache KV. Il grandit avec la longueur de contexte. En ordre de grandeur, comptez 0,1 à 0,5 Go par tranche de 1 000 tokens de contexte pour un modèle 70B (moins pour les petits modèles).

Conséquence concrète : un modèle qui « rentre tout juste » avec 2k tokens de contexte peut déborder à 32k tokens. Si vous visez du RAGavec des prompts longs, gardez 10-20 % de VRAM de marge rien que pour le KV.

3. L'overhead

Les moteurs d'inférence (vLLM, llama.cpp, Ollama) réservent de la place pour les activations, les buffers CUDA et leur propre fonctionnement : comptez ~10 à 15 % en plus.

VRAM totale ≈ (poids + cache KV) × 1,12

Le tableau récap 2026

VRAM totale approximative (poids + overhead, contexte modéré) pour les modèles les plus utilisés, et la carte minimale qui encaisse :

ModèleQ4Q5Q8GPU mini (Q4/Q5)
Mistral 7B / Llama 3.1 8B~5 Go~6 Go~9 GoRTX 3060 12 Go
Qwen 2.5 32B / Gemma 4 31B~18 Go~22 Go~35 GoRTX 4090 / 5090 24-32 Go
Llama 3.3 70B / Qwen 2.5 72B~40 Go~50 Go~78 Go2× RTX 5090 (64 Go)
Mistral Large 123B~69 Go~86 Go~138 Go2× RTX A6000 NVLink (96 Go)
Llama 4 Scout 109B (MoE)~61 Go~76 Go~122 Go2× RTX 5090 / A6000

Et le multi-GPU ?

Quand un modèle dépasse la VRAM d'une seule carte, on répartit les couches sur plusieurs GPU (tensor parallel). Deux points de vigilance :

  • La VRAM s'additionne (2× 32 Go = 64 Go utiles), mais
  • la bande passante entre cartescompte énormément : en NVLink, le multi-GPU est fluide ; en PCIe simple, les gros modèles peuvent ralentir nettement.

Réduire la VRAM nécessaire

Descendre d'un cran de quantization

Passer de Q8 à Q4 divise quasiment la VRAM des poids par deux, pour une perte de qualité souvent imperceptible sur des tâches business (résumé, RAG, classification).

Limiter le contexte

Inutile de réserver 128k tokens de contexte si vos prompts en font 4k : réduire la fenêtre de contexte libère du cache KV.

Choisir un MoE

Un modèle Mixture-of-Experts(Qwen 3 30B-A3B, Llama 4 Scout) charge tous ses poids en VRAM mais n'active qu'une fraction par token : vous obtenez la vitesse d'un petit modèle avec la qualité d'un gros, à condition d'avoir la VRAM pour les poids.

Questions fréquentes

Combien de VRAM faut-il pour un LLM de 70B en local ?+
Environ 40 Go en Q4, 50 Go en Q5 et 78 Go en Q8 (poids + ~12 % d'overhead). Un Llama 3.3 70B ou Qwen 2.5 72B en Q4/Q5 tient sur 2× RTX 5090 (64 Go de VRAM cumulée).
Comment calculer la VRAM nécessaire pour un modèle ?+
VRAM ≈ (nombre de milliards de paramètres × octets par paramètre + cache KV) × 1,12. Octets par paramètre : 2 en FP16, 1 en Q8, 0,625 en Q5, 0,5 en Q4. Le cache KV grandit avec la longueur de contexte.
Quelle VRAM pour un petit modèle 7B ou 8B ?+
Environ 5 à 6 Go en Q4/Q5. Un Mistral 7B ou Llama 3.1 8B tient confortablement sur une carte d'entrée de gamme comme une RTX 3060 12 Go, voire une 8 Go en Q4.
Le cache KV consomme combien de VRAM ?+
En ordre de grandeur, 0,1 à 0,5 Go par tranche de 1 000 tokens de contexte pour un modèle 70B (moins pour les petits). Sur des prompts longs (RAG), gardez 10-20 % de marge rien que pour le cache KV.
Comment réduire la VRAM nécessaire pour faire tourner un LLM ?+
Trois leviers : descendre d'un cran de quantization (Q8 → Q4 divise presque par deux la VRAM des poids), limiter la fenêtre de contexte, ou choisir un modèle MoE qui n'active qu'une fraction de ses paramètres par token.
VRAMGPUGuide