Mistral Large 123B
- Total paramètres123B
- Contexte max128k tokens
- FamilleMistral
- TypeDense
Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.
Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).
| Quant | Mistral Large 123B | Mixtral 8x22B | Écart |
|---|---|---|---|
| Q3 | 60.3 GB | 28.7 GB | 31.6 GB |
| Q4 | 77.5 GB | 36.9 GB | 40.6 GB |
| Q5 | 94.7 GB | 45 GB | 49.7 GB |
| Q6 | 111.9 GB | 53.2 GB | 58.7 GB |
| Q8 | 137.8 GB | 65.5 GB | 72.3 GB |
| FP16 | 275.5 GB | 131 GB | 144.5 GB |
80 GB de VRAM — suffisant pour les 77.5 GB requis en Q4.
→ Fiche NVIDIA A100 80GB40 GB de VRAM — suffisant pour les 36.9 GB requis en Q4.
→ Fiche NVIDIA A100 40GBMistral Large 123B et Mixtral 8x22B sont de taille comparable (123B vs 141B), donc le choix se joue sur la famille, le contexte et le use case. Mixtral 8x22B est un MoE (39B actifs par token) — débit plus élevé sur serveur dédié, mais charge VRAM complète à charger.
Souveraineté FR/EU, qualité GPT-4-class sur le flagship, équipe basée en France.
→ Fiche Mistral Large 123BSouveraineté FR/EU, qualité GPT-4-class sur le flagship, équipe basée en France.
→ Fiche Mixtral 8x22BLe calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.