NVIDIAconsumerGTX 16

GTX 1650 pour l'IA locale

Le GTX 1650 est un GPU limité pour l'IA (4 GB de VRAM) destiné aux configurations grand public et workstations. Sur les 242 modèles open source de notre catalogue, 76 tournent confortablement dessus en mono-carte.

VRAM
4GB
Catégorie
Consumer
Série
GTX 16
Vendor
NVIDIA

Modèles qui tournent confortablement

Ces modèles tiennent dans 4GB avec marge pour le contexte long et l'inférence stable. Triés du plus gros au plus petit.

Qwen 3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB
Gemma 3 4Bgemma3.1 GBcompatibleQ5 · / 4 GB
Nemotron Mini 4Bnemotron3.1 GBcompatibleQ5 · / 4 GB
Gemma 4 E4B (Efficient)gemma3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Instruct 2507qwen3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Baseqwen3.1 GBcompatibleQ5 · / 4 GB
Qwen3 4B Thinking 2507qwen3.1 GBcompatibleQ5 · / 4 GB
Phi-3 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-3.5 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-4 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi-4 Mini Instruct 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB
Phi Tiny MoE 3.8Bphi · MoE2.9 GBcompatibleQ5 · / 4 GB
Granite 3 3B A800Mgranite · MoE2.5 GBcompatibleQ5 · / 4 GB
Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB
Ministral 3Bmistral3.4 GBcompatibleQ8 · / 4 GB
Qwen 2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
Falcon 3 3Bfalcon3.4 GBcompatibleQ8 · / 4 GB
StarCoder 2 3Bstarcoder3.4 GBcompatibleQ8 · / 4 GB
Qwen 2.5 VL 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
SmolLM 3 3Bsmollm3.4 GBcompatibleQ8 · / 4 GB
Granite 4 Micro 3Bgranite3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 3B Instructqwen3.4 GBcompatibleQ8 · / 4 GB
Llama 3.2 3B Instructllama3.4 GBcompatibleQ8 · / 4 GB
Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 Coder 3B Instructqwen3.4 GBcompatibleQ8 · / 4 GB
Qwen2.5 Coder 3Bqwen3.4 GBcompatibleQ8 · / 4 GB
Gemma 2 2Bgemma2.2 GBcompatibleQ8 · / 4 GB
CodeGemma 2Bgemma2.2 GBcompatibleQ8 · / 4 GB

+ 46 autres — voir le calculateur complet →

Modèles serrés (possibles mais lents)

Ces modèles tiennent tout juste. Tournent mais le contexte disponible est limité, et l'inférence peut être lente si on dépasse la VRAM (offload CPU).

Yi 1.5 6Byi3.8 GBserréQ4 · / 4 GB
Phi-4 Multimodal 5.6Bphi3.5 GBserréQ4 · / 4 GB

Débloqués en rig 2×

Avec 2 cartes en parallèle (8 GB total), vous accédez à des modèles plus gros et à des quantizations plus hautes.

Mistral Nemo 12Bmistral7.5 GBserréQ4 · / 8 GB
Gemma 3 12Bgemma7.5 GBserréQ4 · / 8 GB
StableLM 2 12Bstable7.5 GBserréQ4 · / 8 GB
Solar 10.7Bsolar6.7 GBcompatibleQ4 · / 8 GB
Falcon 3 10Bfalcon6.3 GBcompatibleQ4 · / 8 GB
Gemma 2 9Bgemma5.7 GBcompatibleQ4 · / 8 GB
Yi 1.5 9Byi5.7 GBcompatibleQ4 · / 8 GB
Qwen 3.5 9Bqwen5.7 GBcompatibleQ4 · / 8 GB
GLM-4 9Bglm5.7 GBcompatibleQ4 · / 8 GB
GLM-4.7 Flashglm5.7 GBcompatibleQ4 · / 8 GB
GLM-4.1V 9B Thinkingglm5.7 GBcompatibleQ4 · / 8 GB
NVIDIA Nemotron Nano 9Bnemotron5.7 GBcompatibleQ4 · / 8 GB
gemma 2 9b itgemma5.7 GBcompatibleQ4 · / 8 GB
Llama 3 8Bllama6.1 GBcompatibleQ5 · / 8 GB
Llama 3.1 8Bllama6.1 GBcompatibleQ5 · / 8 GB

Débloqués en rig 4×

Configuration entreprise / serveur (16 GB total) : vous accédez aux flagships open source 70B+ et aux MoE moyens.

Mistral Small 3 24Bmistral15.1 GBserréQ4 · / 16 GB
Mistral Small 3.1 24Bmistral15.1 GBserréQ4 · / 16 GB
Mistral Small 3.2 24Bmistral15.1 GBserréQ4 · / 16 GB
Devstral Small 2 24Bdevstral15.1 GBserréQ4 · / 16 GB
Mistral Small 22Bmistral13.8 GBserréQ4 · / 16 GB
Codestral 22Bcodestral13.8 GBserréQ4 · / 16 GB
Reka Flash 3 21Breka13.2 GBcompatibleQ4 · / 16 GB
InternLM 2.5 20Binternlm12.6 GBcompatibleQ4 · / 16 GB
DeepSeek V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB
DeepSeek Coder V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB

// données mises à jour le 2026-05-12 via HuggingFace API.
// estimations VRAM : (params × bits/8) × overhead 20 %.