face-à-face · LLM local

Gemma 3 27B vs Mixtral 8x22B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

27B
params Gemma 3 27B
141B
params Mixtral 8x22B
Gemma
famille A
Mistral
famille B
▲ Specs côte à côte

Les chiffres bruts.

Gemma · 27B

Gemma 3 27B

  • Total paramètres27B
  • Contexte max128k tokens
  • FamilleGemma
  • TypeDense
→ Fiche Gemma 3 27B
Mistral · 141B · MoE 39B actifs

Mixtral 8x22B

  • Total paramètres141B
  • Paramètres actifs (MoE)39B
  • Contexte max66k tokens
  • FamilleMistral
  • TypeMoE
→ Fiche Mixtral 8x22B
▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantGemma 3 27BMixtral 8x22BÉcart
Q313.2 GB28.7 GB15.5 GB
Q417 GB36.9 GB19.9 GB
Q520.8 GB45 GB24.2 GB
Q624.6 GB53.2 GB28.6 GB
Q830.2 GB65.5 GB35.3 GB
FP1660.5 GB131 GB70.5 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

▲ Verdict

Ce que les chiffres disent.

Mixtral 8x22B est 5.2× plus gros que Gemma 3 27B — plus de connaissances, mais 37 GB de VRAM contre 17 GB. Mixtral 8x22B est un MoE (39B actifs par token) — débit plus élevé sur serveur dédié, mais charge VRAM complète à charger.

Choisir Gemma 3 27B

Tu manques de VRAM, tu veux du débit token/s, ou tu déploies sur edge (laptop, mini-PC).

→ Fiche Gemma 3 27B
Choisir Mixtral 8x22B

Tu privilégies la qualité de raisonnement, tu as une grosse VRAM (48 GB+), tu acceptes un débit plus faible.

→ Fiche Mixtral 8x22B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.