face-à-face · LLM local

Phi-4 14B vs QwQ 32B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

14B
params Phi-4 14B
32B
params QwQ 32B
Phi
famille A
QwQ
famille B
▲ Specs côte à côte

Les chiffres bruts.

Phi · 14B

Phi-4 14B

  • Total paramètres14B
  • Contexte max16k tokens
  • FamillePhi
  • TypeDense
→ Fiche Phi-4 14B
QwQ · 32B

QwQ 32B

  • Total paramètres32B
  • Contexte max33k tokens
  • FamilleQwQ
  • TypeDense
→ Fiche QwQ 32B
▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantPhi-4 14BQwQ 32BÉcart
Q36.9 GB15.7 GB8.8 GB
Q48.8 GB20.2 GB11.4 GB
Q510.8 GB24.6 GB13.8 GB
Q612.7 GB29.1 GB16.4 GB
Q815.7 GB35.8 GB20.1 GB
FP1631.4 GB71.7 GB40.3 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour QwQ 32B en Q4

TITAN RTX

24 GB de VRAM — suffisant pour les 20.2 GB requis en Q4.

→ Fiche TITAN RTX
▲ Verdict

Ce que les chiffres disent.

QwQ 32B est 2.3× plus gros que Phi-4 14B — plus de connaissances, mais 20 GB de VRAM contre 9 GB.

Choisir Phi-4 14B

Tu manques de VRAM, tu veux du débit token/s, ou tu déploies sur edge (laptop, mini-PC).

→ Fiche Phi-4 14B
Choisir QwQ 32B

Tu privilégies la qualité de raisonnement, tu as une grosse VRAM (48 GB+), tu acceptes un débit plus faible.

→ Fiche QwQ 32B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.