Mistral · 9 min de lecture

Mistral Large 123B en local : quel rig, quel coût réel en 2026

Damien · LocalIA

Publié 2026-05-12

Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

Mistral Large 123B est le flagship français open-weight de 2025 : contexte 128k, multilingue natif, qualité GPT-4-class en code et raisonnement. Le faire tourner en local — donc sans envoyer un seul token à La Plaine-Saint-Denis — c'est possible mais pas évident. Voici ce que ça coûte vraiment, et quel rig vise juste.

Combien de VRAM pour Mistral Large 123B ?

Le modèle est dense (pas un MoE) : 123 milliards de paramètres tous actifs à chaque token. La VRAM dépend de la quantization choisie :

Quantization	VRAM totale	Qualité ressentie	Rig minimum
FP16 (référence)	~246 GB	Parfait	4× A100 80 GB (datacenter)
Q8_0	~131 GB	Quasi-FP16	2× A6000 + ext, ou 4× RTX 5090
Q5_K_M	~88 GB	Indiscernable en chat	2× A6000 NVLink (96 GB)
Q4_K_M	~70 GB	Sweet spot	2× A6000 NVLink ou 3× RTX 5090
Q3_K_M	~52 GB	Dégradé sur raisonnement	2× RTX 5090 (64 GB)

Le rig recommandé : Entreprise (Q4) ou sur-mesure (Q8+)

En 2026, deux configurations gardent Mistral Large 123B dans le sweet spot qualité/coût :

Option 1 — Rig Entreprise (2× A6000 NVLink, 96 GB)

Le rig Entreprise LocalIA est la cible naturelle pour Mistral Large 123B en Q4_K_M. 96 GB de VRAM unifiée via NVLink suffisent pour le modèle + un contexte 32k confortable.

Option 2 — Datacenter (Q8 ou FP16 production)

Pour Mistral Large 123B en Q8 (qualité production critique) ou FP16 (référence) avec batching agressif, il faut passer en configuration multi-rig ou datacenter avec H100/A100. C'est un projet sur-mesure à partir de 60-80 k€ HT typiquement.

ROI réel : Mistral Large local vs API

Mistral Large via l'API officielle (Mistral AI) coûte ~8 €/M tokens en blended rate (80 % input + 20 % output). Comparons sur plusieurs volumes mensuels :

Volume mensuel	Coût API/an	Coût local (élec)	Break-even rig Entreprise
30 Mtok/mois (cabinet)	~2 880 €	~120 €/an	≈ 9 mois
100 Mtok/mois (équipe RAG)	~9 600 €	~340 €/an	≈ 3 mois
300 Mtok/mois (multi-équipes)	~28 800 €	~960 €/an	≈ 1 mois
1 000 Mtok/mois (production)	~96 000 €	~3 200 €/an	Quelques semaines

À partir de 100 Mtok/mois, le rig Entreprise est amorti en moins d'un trimestre. Au-dessus de 300 Mtok/mois, c'est ridicule de continuer à payer Mistral API — sauf si tu veux le contexte 128k natif sans optimisation rolling-window.

Pourquoi Mistral Large 123B et pas Llama 3.3 70B ?

Bonne question. Llama 3.3 70B tourne sur 2× RTX 5090 (rig Pro à 11 990 € HT) et fait ~90 % du job de Mistral Large sur les benchmarks généralistes. Mistral Large garde son avantage sur :

Multilingue natif premium : français, espagnol, allemand, italien à un niveau natif (Llama est très bon mais centré anglais).
Code en langues de niche : R, COBOL, Fortran, domaines où Llama décroche.
Souveraineté française: poids ouverts d'une boîte FR sous loi européenne. Politiquement parlant, c'est mieux pour un contrat public.
Context 128k natif : sans rolling window dégradant.

Stack logicielle recommandée

Runtime : vLLM 0.6+ pour le batching production, Ollama pour le dev (mais slow en multi-user).
Format : GGUF (llama.cpp / Ollama) en Q4_K_M, ou AWQ/GPTQ (vLLM) en 4-bit pour le throughput max.
API gateway : Ollama embarque un endpoint OpenAI-compatible, vLLM aussi via --api-server.
RAG : Qdrant (souverain, Rust) + nomic-embed v2 pour les embeddings. Cf notre guide RAG.

Ce que tu n'auras pas (limites honnêtes)

Mistral Large 2 (latest)n'est pas open-weight : tu utilises Mistral Large 123B (la première gen, sortie 2024-07). C'est encore très bon en 2026, mais pas le state-of-the-art mondial.
Pas de vision native. Mistral Large 123B est text-only. Pour multimodal, prendre Llama 4 Scout (109B MoE) ou Gemma 4 multimodal.
Context 128k mais en pratique 32k confortable en local sur 96 GB VRAM : au-delà, la KV cache mange la RAM.

Le verdict

Mistral Large 123B en local est justifié à partir de 100 Mtok/mois d'usage régulier, avec une cible francophone. En-dessous, Llama 3.3 70B sur rig Pro (2× RTX 5090, 11 990 €) couvre 90 % des cas avec un ticket 2× moins cher. Au-dessus de 300 Mtok/mois, le rig Entreprise est ridiculement rentable et tu gardes 100 % de tes données sur tes murs.

MistralSouverainetéRig

↗ HN ↗ X ↗ Reddit ↗ LinkedIn