Mistral · 9 min de lecture

Mistral Large 123B en local : quel rig, quel coût réel en 2026

DO
Damien · LocalIA
Publié 2026-05-12

Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

Rig IA LocalIA détouré

Mistral Large 123B est le flagship français open-weight de 2025 : contexte 128k, multilingue natif, qualité GPT-4-class en code et raisonnement. Le faire tourner en local — donc sans envoyer un seul token à La Plaine-Saint-Denis — c'est possible mais pas évident. Voici ce que ça coûte vraiment, et quel rig vise juste.

Combien de VRAM pour Mistral Large 123B ?

Le modèle est dense (pas un MoE) : 123 milliards de paramètres tous actifs à chaque token. La VRAM dépend de la quantization choisie :

QuantizationVRAM totaleQualité ressentieRig minimum
FP16 (référence)~246 GBParfait4× A100 80 GB (datacenter)
Q8_0~131 GBQuasi-FP162× A6000 + ext, ou 4× RTX 5090
Q5_K_M~88 GBIndiscernable en chat2× A6000 NVLink (96 GB)
Q4_K_M~70 GBSweet spot2× A6000 NVLink ou 3× RTX 5090
Q3_K_M~52 GBDégradé sur raisonnement2× RTX 5090 (64 GB)

Le rig recommandé : Entreprise (Q4) ou sur-mesure (Q8+)

En 2026, deux configurations gardent Mistral Large 123B dans le sweet spot qualité/coût :

Option 1 — Rig Entreprise (2× A6000 NVLink, 96 GB)

Le rig Entreprise LocalIA est la cible naturelle pour Mistral Large 123B en Q4_K_M. 96 GB de VRAM unifiée via NVLink suffisent pour le modèle + un contexte 32k confortable.

Option 2 — Datacenter (Q8 ou FP16 production)

Pour Mistral Large 123B en Q8 (qualité production critique) ou FP16 (référence) avec batching agressif, il faut passer en configuration multi-rig ou datacenter avec H100/A100. C'est un projet sur-mesure à partir de 60-80 k€ HT typiquement.

ROI réel : Mistral Large local vs API

Mistral Large via l'API officielle (Mistral AI) coûte ~8 €/M tokens en blended rate (80 % input + 20 % output). Comparons sur plusieurs volumes mensuels :

Volume mensuelCoût API/anCoût local (élec)Break-even rig Entreprise
30 Mtok/mois (cabinet)~2 880 €~120 €/an≈ 9 mois
100 Mtok/mois (équipe RAG)~9 600 €~340 €/an≈ 3 mois
300 Mtok/mois (multi-équipes)~28 800 €~960 €/an≈ 1 mois
1 000 Mtok/mois (production)~96 000 €~3 200 €/anQuelques semaines
À partir de 100 Mtok/mois, le rig Entreprise est amorti en moins d'un trimestre. Au-dessus de 300 Mtok/mois, c'est ridicule de continuer à payer Mistral API — sauf si tu veux le contexte 128k natif sans optimisation rolling-window.

Pourquoi Mistral Large 123B et pas Llama 3.3 70B ?

Bonne question. Llama 3.3 70B tourne sur 2× RTX 5090 (rig Pro à 11 990 € HT) et fait ~90 % du job de Mistral Large sur les benchmarks généralistes. Mistral Large garde son avantage sur :

  • Multilingue natif premium : français, espagnol, allemand, italien à un niveau natif (Llama est très bon mais centré anglais).
  • Code en langues de niche : R, COBOL, Fortran, domaines où Llama décroche.
  • Souveraineté française: poids ouverts d'une boîte FR sous loi européenne. Politiquement parlant, c'est mieux pour un contrat public.
  • Context 128k natif : sans rolling window dégradant.

Stack logicielle recommandée

  • Runtime : vLLM 0.6+ pour le batching production, Ollama pour le dev (mais slow en multi-user).
  • Format : GGUF (llama.cpp / Ollama) en Q4_K_M, ou AWQ/GPTQ (vLLM) en 4-bit pour le throughput max.
  • API gateway : Ollama embarque un endpoint OpenAI-compatible, vLLM aussi via --api-server.
  • RAG : Qdrant (souverain, Rust) + nomic-embed v2 pour les embeddings. Cf notre guide RAG.

Ce que tu n'auras pas (limites honnêtes)

  • Mistral Large 2 (latest)n'est pas open-weight : tu utilises Mistral Large 123B (la première gen, sortie 2024-07). C'est encore très bon en 2026, mais pas le state-of-the-art mondial.
  • Pas de vision native. Mistral Large 123B est text-only. Pour multimodal, prendre Llama 4 Scout (109B MoE) ou Gemma 4 multimodal.
  • Context 128k mais en pratique 32k confortable en local sur 96 GB VRAM : au-delà, la KV cache mange la RAM.

Le verdict

Mistral Large 123B en local est justifié à partir de 100 Mtok/mois d'usage régulier, avec une cible francophone. En-dessous, Llama 3.3 70B sur rig Pro (2× RTX 5090, 11 990 €) couvre 90 % des cas avec un ticket 2× moins cher. Au-dessus de 300 Mtok/mois, le rig Entreprise est ridiculement rentable et tu gardes 100 % de tes données sur tes murs.

MistralSouverainetéRig