Mistral Large 123B en local : quel rig, quel coût réel en 2026
Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

Mistral Large 123B est le flagship français open-weight de 2025 : contexte 128k, multilingue natif, qualité GPT-4-class en code et raisonnement. Le faire tourner en local — donc sans envoyer un seul token à La Plaine-Saint-Denis — c'est possible mais pas évident. Voici ce que ça coûte vraiment, et quel rig vise juste.
Combien de VRAM pour Mistral Large 123B ?
Le modèle est dense (pas un MoE) : 123 milliards de paramètres tous actifs à chaque token. La VRAM dépend de la quantization choisie :
| Quantization | VRAM totale | Qualité ressentie | Rig minimum |
|---|---|---|---|
| FP16 (référence) | ~246 GB | Parfait | 4× A100 80 GB (datacenter) |
| Q8_0 | ~131 GB | Quasi-FP16 | 2× A6000 + ext, ou 4× RTX 5090 |
| Q5_K_M | ~88 GB | Indiscernable en chat | 2× A6000 NVLink (96 GB) |
| Q4_K_M | ~70 GB | Sweet spot | 2× A6000 NVLink ou 3× RTX 5090 |
| Q3_K_M | ~52 GB | Dégradé sur raisonnement | 2× RTX 5090 (64 GB) |
Le rig recommandé : Entreprise (Q4) ou sur-mesure (Q8+)
En 2026, deux configurations gardent Mistral Large 123B dans le sweet spot qualité/coût :
Option 1 — Rig Entreprise (2× A6000 NVLink, 96 GB)
Le rig Entreprise LocalIA est la cible naturelle pour Mistral Large 123B en Q4_K_M. 96 GB de VRAM unifiée via NVLink suffisent pour le modèle + un contexte 32k confortable.
Option 2 — Datacenter (Q8 ou FP16 production)
Pour Mistral Large 123B en Q8 (qualité production critique) ou FP16 (référence) avec batching agressif, il faut passer en configuration multi-rig ou datacenter avec H100/A100. C'est un projet sur-mesure à partir de 60-80 k€ HT typiquement.
ROI réel : Mistral Large local vs API
Mistral Large via l'API officielle (Mistral AI) coûte ~8 €/M tokens en blended rate (80 % input + 20 % output). Comparons sur plusieurs volumes mensuels :
| Volume mensuel | Coût API/an | Coût local (élec) | Break-even rig Entreprise |
|---|---|---|---|
| 30 Mtok/mois (cabinet) | ~2 880 € | ~120 €/an | ≈ 9 mois |
| 100 Mtok/mois (équipe RAG) | ~9 600 € | ~340 €/an | ≈ 3 mois |
| 300 Mtok/mois (multi-équipes) | ~28 800 € | ~960 €/an | ≈ 1 mois |
| 1 000 Mtok/mois (production) | ~96 000 € | ~3 200 €/an | Quelques semaines |
À partir de 100 Mtok/mois, le rig Entreprise est amorti en moins d'un trimestre. Au-dessus de 300 Mtok/mois, c'est ridicule de continuer à payer Mistral API — sauf si tu veux le contexte 128k natif sans optimisation rolling-window.
Pourquoi Mistral Large 123B et pas Llama 3.3 70B ?
Bonne question. Llama 3.3 70B tourne sur 2× RTX 5090 (rig Pro à 11 990 € HT) et fait ~90 % du job de Mistral Large sur les benchmarks généralistes. Mistral Large garde son avantage sur :
- Multilingue natif premium : français, espagnol, allemand, italien à un niveau natif (Llama est très bon mais centré anglais).
- Code en langues de niche : R, COBOL, Fortran, domaines où Llama décroche.
- Souveraineté française: poids ouverts d'une boîte FR sous loi européenne. Politiquement parlant, c'est mieux pour un contrat public.
- Context 128k natif : sans rolling window dégradant.
Stack logicielle recommandée
- Runtime : vLLM 0.6+ pour le batching production, Ollama pour le dev (mais slow en multi-user).
- Format : GGUF (llama.cpp / Ollama) en Q4_K_M, ou AWQ/GPTQ (vLLM) en 4-bit pour le throughput max.
- API gateway : Ollama embarque un endpoint OpenAI-compatible, vLLM aussi via
--api-server. - RAG : Qdrant (souverain, Rust) + nomic-embed v2 pour les embeddings. Cf notre guide RAG.
Ce que tu n'auras pas (limites honnêtes)
- Mistral Large 2 (latest)n'est pas open-weight : tu utilises Mistral Large 123B (la première gen, sortie 2024-07). C'est encore très bon en 2026, mais pas le state-of-the-art mondial.
- Pas de vision native. Mistral Large 123B est text-only. Pour multimodal, prendre Llama 4 Scout (109B MoE) ou Gemma 4 multimodal.
- Context 128k mais en pratique 32k confortable en local sur 96 GB VRAM : au-delà, la KV cache mange la RAM.
Le verdict
Mistral Large 123B en local est justifié à partir de 100 Mtok/mois d'usage régulier, avec une cible francophone. En-dessous, Llama 3.3 70B sur rig Pro (2× RTX 5090, 11 990 €) couvre 90 % des cas avec un ticket 2× moins cher. Au-dessus de 300 Mtok/mois, le rig Entreprise est ridiculement rentable et tu gardes 100 % de tes données sur tes murs.