face-à-face · LLM local

Phi-3.5 Mini 3.8B vs Qwen 2.5 7B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

3.8B
params Phi-3.5 Mini 3.8B
7B
params Qwen 2.5 7B
Phi
famille A
Qwen
famille B
▲ Specs côte à côte

Les chiffres bruts.

▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantPhi-3.5 Mini 3.8BQwen 2.5 7BÉcart
Q31.9 GB3.4 GB1.5 GB
Q42.4 GB4.4 GB2.0 GB
Q52.9 GB5.4 GB2.5 GB
Q63.5 GB6.4 GB2.9 GB
Q84.3 GB7.8 GB3.5 GB
FP168.5 GB15.7 GB7.2 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour Phi-3.5 Mini 3.8B en Q4

GTX 1650

4 GB de VRAM — suffisant pour les 2.4 GB requis en Q4.

→ Fiche GTX 1650
Pour Qwen 2.5 7B en Q4

GTX 1060 6GB

6 GB de VRAM — suffisant pour les 4.4 GB requis en Q4.

→ Fiche GTX 1060 6GB
▲ Verdict

Ce que les chiffres disent.

Qwen 2.5 7B est 1.8× plus gros que Phi-3.5 Mini 3.8B — plus de connaissances, mais 4 GB de VRAM contre 2 GB.

Choisir Phi-3.5 Mini 3.8B

Tu manques de VRAM, tu veux du débit token/s, ou tu déploies sur edge (laptop, mini-PC).

→ Fiche Phi-3.5 Mini 3.8B
Choisir Qwen 2.5 7B

Tu privilégies la qualité de raisonnement, tu as une grosse VRAM (48 GB+), tu acceptes un débit plus faible.

→ Fiche Qwen 2.5 7B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.