face-à-face · LLM local

Gemma 4 E4B (Efficient) vs Phi-3.5 Mini 3.8B

Comparatif chiffré : VRAM requise par quantization, GPUs compatibles pour faire tourner chacun en local, et verdict construit depuis les specs réelles. Pas de bench truqué, juste les chiffres.

4B
params Gemma 4 E4B (Efficient)
3.8B
params Phi-3.5 Mini 3.8B
Gemma
famille A
Phi
famille B
▲ Specs côte à côte

Les chiffres bruts.

▲ VRAM par quantization

Combien de VRAM il te faut.

Estimation incluant l'overhead (KV cache + activations) ×1.12. Pour un MoE, on prend les paramètres totaux car le modèle complet doit être chargé en mémoire (les experts inactifs aussi).

QuantGemma 4 E4B (Efficient)Phi-3.5 Mini 3.8BÉcart
Q32 GB1.9 GB0.1 GB
Q42.5 GB2.4 GB0.1 GB
Q53.1 GB2.9 GB0.2 GB
Q63.6 GB3.5 GB0.1 GB
Q84.5 GB4.3 GB0.2 GB
FP169 GB8.5 GB0.5 GB
▲ GPU minimum pour chacun en Q4

Quel GPU suffit pour quoi.

Pour Gemma 4 E4B (Efficient) en Q4

GTX 1650

4 GB de VRAM — suffisant pour les 2.5 GB requis en Q4.

→ Fiche GTX 1650
Pour Phi-3.5 Mini 3.8B en Q4

GTX 1650

4 GB de VRAM — suffisant pour les 2.4 GB requis en Q4.

→ Fiche GTX 1650
▲ Verdict

Ce que les chiffres disent.

Gemma 4 E4B (Efficient) et Phi-3.5 Mini 3.8B sont de taille comparable (4B vs 3.8B), donc le choix se joue sur la famille, le contexte et le use case.

Choisir Phi-3.5 Mini 3.8B

Microsoft. Petit format mais champion en raisonnement vs sa taille, idéal pour rig modeste.

→ Fiche Phi-3.5 Mini 3.8B

Tester avec ton GPU ?

Le calculateur croise ces 2 modèles avec 200+ GPUs et te donne tok/s estimés, €/Mtok et break-even cloud.