Q4 vs Q5 vs Q8 : quelle quantization pour Llama 70B en 2026 ?
Tableau VRAM par quant (Q3 à FP16), perte de qualité mesurée (Δ perplexity), recommandations par GPU et débit tok/s par configuration. Sans bullshit.

Quantizer un LLM, c'est diviser sa taille mémoire par 2 ou 4 en rognant la précision des poids. Pour Llama 3.3 70B, ça décide si le modèle tient sur ta carte ou pas, et combien de qualité tu sacrifies. Voici comment choisir entre Q4, Q5 et Q8 sans bullshit.
Le tableau qui tranche
Pour Llama 3.3 70B, voici la VRAM réelle requise et la perte de qualité mesurée (perplexity vs FP16, plus c'est bas mieux c'est) :
| Quant | VRAM (70B) | Δ perplexity | Qualité ressentie |
|---|---|---|---|
| Q3_K_M | ~32 GB | +5-8 % | Sensible · grammaire OK, raisonnement dégradé |
| Q4_K_M | ~44 GB | +2-3 % | Bon · sweet spot consumer |
| Q5_K_M | ~52 GB | +0.8-1.2 % | Très bon · indiscernable en chat |
| Q6_K | ~60 GB | +0.3-0.5 % | Quasi parfait |
| Q8_0 | ~78 GB | +0.05-0.1 % | Parfait · indiscernable en bench |
| FP16 | ~146 GB | 0 (référence) | Référence · datacenter only |
Le K_M et le _0, c'est quoi ?
Les variants K_M, K_S, K_L et _0sont des stratégies de quantization mixtes (introduites par llama.cpp pour économiser de la qualité sur les couches critiques) :
- K_M (Medium) : équilibre, valeur par défaut.Q5_K_M = mix Q5/Q6 sur les couches sensibles.
- K_S (Small) : agressif, économise ~5 % de VRAM en plus, perd ~1 % de qualité.
- K_L (Large) : prudent, +5 % VRAM, gagne <0.5 % de qualité.
- _0 (legacy) : ancienne méthode uniforme.Q4_0 est moins bon que Q4_K_M à VRAM égale.
Quel quant choisir selon ton GPU ?
24 GB (RTX 3090, 4090, A5000)
Llama 70B ne tient pas en single GPU à aucun quant pertinent. Choisis un modèle plus petit : Qwen 2.5 32B en Q5 (≈24 GB), Gemma 3 27B en Q6 (≈22 GB), DeepSeek R1 Distill 32B en Q5.
32 GB (RTX 5090)
Llama 70B en Q3_K_Mpasse avec ~30 GB. Qualité légèrement dégradée. Préférable : rester sur un 32B en Q5 ou un 14B en Q8.
48 GB (RTX A6000, RTX 6000 Ada)
Le seuil magique pour Llama 70B : Q4_K_M tient avec marge (~44 GB + 4 GB KV cache). C'est le minimum réaliste pour faire tourner Llama 70B en single GPU sans souffrir.
64 GB (2× RTX 5090, ou 2× RTX 4090 tensor-parallel)
Llama 70B en Q5_K_M ou Q6_K : la qualité est quasi-FP16. C'est le sweet spot des rigs LocalIA Pro pour le RAG d'équipe.
96 GB+ (2× A6000 NVLink, H100, MI300X)
Llama 70B en Q8ou FP16. Pour la prod critique où tu refuses toute perte mesurable, ou pour servir 10+ utilisateurs simultanés en batch. Au-dessus de Q8 le gain est invisible à l'usage normal.
Le piège classique : « je vais charger en FP16 par sécurité »
Réflexe d'ingé prudent, mauvaise idée 9 fois sur 10. À Q8 la perte de perplexity est de l'ordre de la marge d'erreur de mesure : tu paies 2× la VRAM pour zéro différence ressentie. La vraie raison de prendre FP16 c'est :
- Tu fais du fine-tuning (la quantization perd pendant le training)
- Tu fais de l'inférence batch massive où chaque % de perplexity compte
- Tu compares scientifiquement des modèles (publication, benchmark)
À usage chat ou RAG en prod, Q5_K_M sur Llama 70B est indiscernable de FP16. Quiconque te dit l'inverse fait du benchmark synthétique pas du produit.
Et la vitesse ?
Plus tu quantizes, plus tu vas vite : tu lis moins de bytes en mémoire par token généré. Ordre de grandeur sur Llama 70B avec 1× A6000 (768 GB/s) :
| Quant | tok/s (single user) | Pourquoi |
|---|---|---|
| Q3_K_M | ~17-19 tok/s | Moins de bytes à streamer |
| Q4_K_M | ~14-16 tok/s | Sweet spot vitesse/qualité |
| Q5_K_M | ~12-14 tok/s | +10 % de bytes vs Q4 |
| Q8_0 | ~9-11 tok/s | 2× le poids |
| FP16 | ~5-6 tok/s | 4× le poids |
Notre recommandation par défaut
Pour tester sur ton GPU, le calculateur croise n'importe quel modèle avec n'importe quel quant et te donne la VRAM réelle + tok/s estimé.