face-à-face · LLM local

Gemma 3 27B vs Gemma 4 31B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

27B
params Gemma 3 27B
31B
params Gemma 4 31B
Gemma
famille A
Gemma
famille B
▲ Specs côte à côte

Les chiffres bruts.

Gemma · 27B

Gemma 3 27B

  • Total paramètres27B
  • Contexte max128k tokens
  • FamilleGemma
  • TypeDense
→ Fiche Gemma 3 27B
Gemma · 31B

Gemma 4 31B

  • Total paramètres31B
  • Contexte max128k tokens
  • FamilleGemma
  • TypeDense
→ Fiche Gemma 4 31B
▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantGemma 3 27BGemma 4 31BÉcart
Q313.2 GB15.2 GB2.0 GB
Q417 GB19.5 GB2.5 GB
Q520.8 GB23.9 GB3.1 GB
Q624.6 GB28.2 GB3.6 GB
Q830.2 GB34.7 GB4.5 GB
FP1660.5 GB69.4 GB8.9 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour Gemma 4 31B en Q4

RTX A4500

20 GB de VRAM — suffisant pour les 19.5 GB requis en Q4.

→ Fiche RTX A4500
▲ Verdict

Ce que les chiffres disent.

Gemma 3 27B et Gemma 4 31B sont de taille comparable (27B vs 31B), donc le choix se joue sur la famille, le contexte et le use case.

Choisir Gemma 3 27B

Google. Multimodal (vision + texte), contexte 128k, intégration native PyTorch/JAX.

→ Fiche Gemma 3 27B
Choisir Gemma 4 31B

Google. Multimodal (vision + texte), contexte 128k, intégration native PyTorch/JAX.

→ Fiche Gemma 4 31B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.