NVIDIAconsumerGTX 16

GTX 1650 pour l'IA locale

Le GTX 1650 est un GPU limité pour l'IA (4 GB de VRAM) destiné aux configurations grand public et workstations. Sur les 242 modèles open source de notre catalogue, 76 tournent confortablement dessus en mono-carte.

VRAM
4GB
Catégorie
Consumer
Série
GTX 16
Vendor
NVIDIA

Modèles qui tournent confortablement

Ces modèles tiennent dans 4GB avec marge pour le contexte long et l'inférence stable. Triés du plus gros au plus petit.

Qwen 3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB
Gemma 3 4Bgemma3.1 GBcompatibleQ5 · / 4 GB
Nemotron Mini 4Bnemotron3.1 GBcompatibleQ5 · / 4 GB
Gemma 4 E4B (Efficient)gemma3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Instruct 2507qwen3.1 GBcompatibleQ5 · / 4 GB
NVIDIA Nemotron 3 Nano 4B BF16nemotron3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Baseqwen3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Thinking 2507qwen3.1 GBcompatibleQ5 · / 4 GB
Nemotron Mini 4B Instructnemotron3.1 GBcompatibleQ5 · / 4 GB
Phi-3 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-3.5 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-4 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-4 Mini Instruct 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi Tiny MoE 3.8Bphi · MoE2.9 GBcompatibleQ5 · / 4 GB
Granite 3 3B A800Mgranite · MoE2.5 GBcompatibleQ5 · / 4 GB
Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB
Ministral 3Bmistral3.4 GBcompatibleQ8 · / 4 GB
Qwen 2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
Falcon 3 3Bfalcon3.4 GBcompatibleQ8 · / 4 GB
StarCoder 2 3Bstarcoder3.4 GBcompatibleQ8 · / 4 GB
Qwen 2.5 VL 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
SmolLM 3 3Bsmollm3.4 GBcompatibleQ8 · / 4 GB
Granite 4 Micro 3Bgranite3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 3B Instructqwen3.4 GBcompatibleQ8 · / 4 GB
Llama 3.2 3B Instructllama3.4 GBcompatibleQ8 · / 4 GB
Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB
SmolLM3 3Bsmollm3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
granite 4.1 3bgranite3.4 GBcompatibleQ8 · / 4 GB

+ 46 autres — voir le calculateur complet →

Modèles serrés (possibles mais lents)

Ces modèles tiennent tout juste. Tournent mais le contexte disponible est limité, et l'inférence peut être lente si on dépasse la VRAM (offload CPU).

Yi 1.5 6Byi3.8 GBserréQ4 · / 4 GB
Phi-4 Multimodal 5.6Bphi3.5 GBserréQ4 · / 4 GB

Débloqués en rig 2×

Avec 2 cartes en parallèle (8 GB total), vous accédez à des modèles plus gros et à des quantizations plus hautes.

Mistral Nemo 12Bmistral7.5 GBserréQ4 · / 8 GB
Gemma 3 12Bgemma7.5 GBserréQ4 · / 8 GB
StableLM 2 12Bstable7.5 GBserréQ4 · / 8 GB
Solar 10.7Bsolar6.7 GBcompatibleQ4 · / 8 GB
Falcon 3 10Bfalcon6.3 GBcompatibleQ4 · / 8 GB
Gemma 2 9Bgemma5.7 GBcompatibleQ4 · / 8 GB
Yi 1.5 9Byi5.7 GBcompatibleQ4 · / 8 GB
Qwen 3.5 9Bqwen5.7 GBcompatibleQ4 · / 8 GB
GLM-4 9Bglm5.7 GBcompatibleQ4 · / 8 GB
GLM-4.7 Flashglm5.7 GBcompatibleQ4 · / 8 GB
GLM-4.1V 9B Thinkingglm5.7 GBcompatibleQ4 · / 8 GB
NVIDIA Nemotron Nano 9Bnemotron5.7 GBcompatibleQ4 · / 8 GB
gemma 2 9b itgemma5.7 GBcompatibleQ4 · / 8 GB
Llama 3 8Bllama6.1 GBcompatibleQ5 · / 8 GB
Llama 3.1 8Bllama6.1 GBcompatibleQ5 · / 8 GB

Débloqués en rig 4×

Configuration entreprise / serveur (16 GB total) : vous accédez aux flagships open source 70B+ et aux MoE moyens.

Mistral Small 3 24Bmistral15.1 GBserréQ4 · / 16 GB
Mistral Small 3.1 24Bmistral15.1 GBserréQ4 · / 16 GB
Mistral Small 3.2 24Bmistral15.1 GBserréQ4 · / 16 GB
Devstral Small 2 24Bdevstral15.1 GBserréQ4 · / 16 GB
Mistral Small 22Bmistral13.8 GBserréQ4 · / 16 GB
Codestral 22Bcodestral13.8 GBserréQ4 · / 16 GB
Reka Flash 3 21Breka13.2 GBcompatibleQ4 · / 16 GB
InternLM 2.5 20Binternlm12.6 GBcompatibleQ4 · / 16 GB
DeepSeek V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB
DeepSeek Coder V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB

// données mises à jour le 2026-06-27 via HuggingFace API.
// estimations VRAM : (params × bits/8) × overhead 20 %.