Mistral · 9 min de lecture

Mistral Large 123B en local : quel rig, quel coût réel en 2026

DO
Damien · LocalIA
Publié 2026-05-12

Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

Rig IA LocalIA détouré

Mistral Large 123B est le flagship français open-weight de 2025 : contexte 128k, multilingue natif, qualité GPT-4-class en code et raisonnement. Le faire tourner en local — donc sans envoyer un seul token à La Plaine-Saint-Denis — c'est possible mais pas évident. Voici ce que ça coûte vraiment, et quel rig vise juste.

Combien de VRAM pour Mistral Large 123B ?

Le modèle est dense (pas un MoE) : 123 milliards de paramètres tous actifs à chaque token. La VRAM dépend de la quantization choisie :

QuantizationVRAM totaleQualité ressentieRig minimum
FP16 (référence)~246 GBParfait4× A100 80 GB (datacenter)
Q8_0~131 GBQuasi-FP162× A6000 + ext, ou 4× RTX 5090
Q5_K_M~88 GBIndiscernable en chat2× A6000 NVLink (96 GB)
Q4_K_M~70 GBSweet spot2× A6000 NVLink ou 3× RTX 5090
Q3_K_M~52 GBDégradé sur raisonnement2× RTX 5090 (64 GB)

Le rig recommandé : Entreprise (Q4) ou sur-mesure (Q8+)

En 2026, deux configurations gardent Mistral Large 123B dans le sweet spot qualité/coût :

Le rig Entreprise LocalIA est la cible naturelle pour Mistral Large 123B en Q4_K_M. 96 GB de VRAM unifiée via NVLink suffisent pour le modèle + un contexte 32k confortable.

Option 2 — Datacenter (Q8 ou FP16 production)

Pour Mistral Large 123B en Q8 (qualité production critique) ou FP16 (référence) avec batching agressif, il faut passer en configuration multi-rig ou datacenter avec H100/A100. C'est un projet sur-mesure à partir de 60-80 k€ HT typiquement.

ROI réel : Mistral Large local vs API

Mistral Large via l'API officielle (Mistral AI) coûte ~8 €/M tokens en blended rate (80 % input + 20 % output). Comparons sur plusieurs volumes mensuels :

Volume mensuelCoût API/anCoût local (élec)Break-even rig Entreprise
30 Mtok/mois (cabinet)~2 880 €~120 €/an≈ 9 mois
100 Mtok/mois (équipe RAG)~9 600 €~340 €/an≈ 3 mois
300 Mtok/mois (multi-équipes)~28 800 €~960 €/an≈ 1 mois
1 000 Mtok/mois (production)~96 000 €~3 200 €/anQuelques semaines
À partir de 100 Mtok/mois, le rig Entreprise est amorti en moins d'un trimestre. Au-dessus de 300 Mtok/mois, c'est ridicule de continuer à payer Mistral API — sauf si tu veux le contexte 128k natif sans optimisation rolling-window.

Pourquoi Mistral Large 123B et pas Llama 3.3 70B ?

Bonne question. Llama 3.3 70B tourne sur 2× RTX 5090 (rig Pro à 11 990 € HT) et fait ~90 % du job de Mistral Large sur les benchmarks généralistes. Mistral Large garde son avantage sur :

  • Multilingue natif premium : français, espagnol, allemand, italien à un niveau natif (Llama est très bon mais centré anglais).
  • Code en langues de niche : R, COBOL, Fortran, domaines où Llama décroche.
  • Souveraineté française: poids ouverts d'une boîte FR sous loi européenne. Politiquement parlant, c'est mieux pour un contrat public.
  • Context 128k natif : sans rolling window dégradant.

Stack logicielle recommandée

  • Runtime : vLLM 0.6+ pour le batching production, Ollama pour le dev (mais slow en multi-user).
  • Format : GGUF (llama.cpp / Ollama) en Q4_K_M, ou AWQ/GPTQ (vLLM) en 4-bit pour le throughput max.
  • API gateway : Ollama embarque un endpoint OpenAI-compatible, vLLM aussi via --api-server.
  • RAG : Qdrant (souverain, Rust) + nomic-embed v2 pour les embeddings. Cf notre guide RAG.

Ce que tu n'auras pas (limites honnêtes)

  • Mistral Large 2 (latest)n'est pas open-weight : tu utilises Mistral Large 123B (la première gen, sortie 2024-07). C'est encore très bon en 2026, mais pas le state-of-the-art mondial.
  • Pas de vision native. Mistral Large 123B est text-only. Pour multimodal, prendre Llama 4 Scout (109B MoE) ou Gemma 4 multimodal.
  • Context 128k mais en pratique 32k confortable en local sur 96 GB VRAM : au-delà, la KV cache mange la RAM.

Le verdict

Mistral Large 123B en local est justifié à partir de 100 Mtok/mois d'usage régulier, avec une cible francophone. En-dessous, Llama 3.3 70B sur rig Pro (2× RTX 5090, 11 990 €) couvre 90 % des cas avec un ticket 2× moins cher. Au-dessus de 300 Mtok/mois, le rig Entreprise est ridiculement rentable et tu gardes 100 % de tes données sur tes murs.

Questions fréquentes

Combien coûte un rig pour faire tourner Mistral Large 123B en local ?+
À partir de 25 990 € HT (rig Entreprise LocalIA, 2× RTX A6000 NVLink, 96 GB VRAM). Permet Mistral Large 123B en Q5_K_M (88 GB) avec contexte 32k confortable. Pour Q8 (131 GB), il faut configuration custom multi-rig.
Mistral Large 123B en local vs API Mistral, c'est rentable ?+
Oui à partir de 100 Mtok/mois. Mistral API = 8 €/Mtok blended. À 100 Mtok/mois = 9 600 €/an. Rig Entreprise amorti en ~3 mois. À 30 Mtok/mois, le break-even est ~9 mois (toujours rentable).
Quelle VRAM pour Mistral Large 123B en Q4 ?+
Environ 70 GB en Q4_K_M. Configurations possibles : 2× RTX A6000 NVLink (96 GB), 2× RTX 6000 Ada (96 GB) plus rapide, ou 3× RTX 5090 (96 GB en tensor parallelism). 2× RTX 5090 (64 GB) est trop juste sans offload.
Mistral Large 123B ou Llama 3.3 70B, lequel choisir ?+
Llama 3.3 70B (Pro 11 990 €) suffit pour 90 % des cas. Mistral Large 123B (Entreprise 25 990 €) justifié si multilingue européen premium (FR/ES/DE/IT natif), code en langues rares, ou souveraineté absolue (poids ouverts FR).
Quels sont les avantages souveraineté de Mistral Large ?+
Poids ouverts d'une entreprise française sous loi européenne. Aucun transfert hors UE, aucun export control US, conforme RGPD/AI Act dès le déploiement local. Argument fort pour marché public, juridique, médical.
MistralSouverainetéRig