face-à-face · LLM local

Gemma 4 31B vs Qwen 3 32B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

31B
params Gemma 4 31B
32B
params Qwen 3 32B
Gemma
famille A
Qwen
famille B
▲ Specs côte à côte

Les chiffres bruts.

Gemma · 31B

Gemma 4 31B

  • Total paramètres31B
  • Contexte max128k tokens
  • FamilleGemma
  • TypeDense
→ Fiche Gemma 4 31B
Qwen · 32B

Qwen 3 32B

  • Total paramètres32B
  • Contexte max128k tokens
  • FamilleQwen
  • TypeDense
→ Fiche Qwen 3 32B
▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantGemma 4 31BQwen 3 32BÉcart
Q315.2 GB15.7 GB0.5 GB
Q419.5 GB20.2 GB0.7 GB
Q523.9 GB24.6 GB0.7 GB
Q628.2 GB29.1 GB0.9 GB
Q834.7 GB35.8 GB1.1 GB
FP1669.4 GB71.7 GB2.3 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour Gemma 4 31B en Q4

RTX A4500

20 GB de VRAM — suffisant pour les 19.5 GB requis en Q4.

→ Fiche RTX A4500
Pour Qwen 3 32B en Q4

TITAN RTX

24 GB de VRAM — suffisant pour les 20.2 GB requis en Q4.

→ Fiche TITAN RTX
▲ Verdict

Ce que les chiffres disent.

Gemma 4 31B et Qwen 3 32B sont de taille comparable (31B vs 32B), donc le choix se joue sur la famille, le contexte et le use case.

Choisir Gemma 4 31B

Google. Multimodal (vision + texte), contexte 128k, intégration native PyTorch/JAX.

→ Fiche Gemma 4 31B
Choisir Qwen 3 32B

Excellent en code et multilingue (zh/en), souvent en tête sur les benchs open source 2026.

→ Fiche Qwen 3 32B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.