face-à-face · LLM local

Gemma 4 31B vs Phi-4 14B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

31B
params Gemma 4 31B
14B
params Phi-4 14B
Gemma
famille A
Phi
famille B
▲ Specs côte à côte

Les chiffres bruts.

Gemma · 31B

Gemma 4 31B

  • Total paramètres31B
  • Contexte max128k tokens
  • FamilleGemma
  • TypeDense
→ Fiche Gemma 4 31B
Phi · 14B

Phi-4 14B

  • Total paramètres14B
  • Contexte max16k tokens
  • FamillePhi
  • TypeDense
→ Fiche Phi-4 14B
▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantGemma 4 31BPhi-4 14BÉcart
Q315.2 GB6.9 GB8.3 GB
Q419.5 GB8.8 GB10.7 GB
Q523.9 GB10.8 GB13.1 GB
Q628.2 GB12.7 GB15.5 GB
Q834.7 GB15.7 GB19.0 GB
FP1669.4 GB31.4 GB38.0 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour Gemma 4 31B en Q4

RTX A4500

20 GB de VRAM — suffisant pour les 19.5 GB requis en Q4.

→ Fiche RTX A4500
▲ Verdict

Ce que les chiffres disent.

Gemma 4 31B est 2.2× plus gros que Phi-4 14B — plus de connaissances, mais 20 GB de VRAM contre 9 GB.

Choisir Gemma 4 31B

Tu privilégies la qualité de raisonnement, tu as une grosse VRAM (48 GB+), tu acceptes un débit plus faible.

→ Fiche Gemma 4 31B
Choisir Phi-4 14B

Tu manques de VRAM, tu veux du débit token/s, ou tu déploies sur edge (laptop, mini-PC).

→ Fiche Phi-4 14B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.