NVIDIAconsumerGTX 16

GTX 1650 pour l'IA locale

Le GTX 1650 est un GPU limité pour l'IA (4 GB de VRAM) destiné aux configurations grand public et workstations. Sur les 242 modèles open source de notre catalogue, 76 tournent confortablement dessus en mono-carte.

Voir tous les modèles compatibles →Rig autour du 1650 ↗

VRAM

4GB

Catégorie

Consumer

Série

GTX 16

Vendor

NVIDIA

Modèles qui tournent confortablement

76 modèles · trié VRAM ↓

Ces modèles tiennent dans 4GB avec marge pour le contexte long et l'inférence stable. Triés du plus gros au plus petit.

01Qwen 3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB

02★Gemma 3 4Bgemma3.1 GBcompatibleQ5 · / 4 GB

03Nemotron Mini 4Bnemotron3.1 GBcompatibleQ5 · / 4 GB

04★Gemma 4 E4B (Efficient)gemma3.1 GBcompatibleQ5 · / 4 GB

05★Qwen3 4B Instruct 2507qwen3.1 GBcompatibleQ5 · / 4 GB

06★Qwen3 4Bqwen3.1 GBcompatibleQ5 · / 4 GB

07★Qwen3 4B Baseqwen3.1 GBcompatibleQ5 · / 4 GB

08★Qwen3 4B Thinking 2507qwen3.1 GBcompatibleQ5 · / 4 GB

09Phi-3 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB

10★Phi-3.5 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB

11Phi-4 Mini 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB

12★Phi-4 Mini Instruct 3.8Bphi2.9 GBcompatibleQ5 · / 4 GB

13Phi Tiny MoE 3.8Bphi · MoE2.9 GBcompatibleQ5 · / 4 GB

14Granite 3 3B A800Mgranite · MoE2.5 GBcompatibleQ5 · / 4 GB

15★Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB

16Ministral 3Bmistral3.4 GBcompatibleQ8 · / 4 GB

17★Qwen 2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB

18Falcon 3 3Bfalcon3.4 GBcompatibleQ8 · / 4 GB

19StarCoder 2 3Bstarcoder3.4 GBcompatibleQ8 · / 4 GB

20Qwen 2.5 VL 3Bqwen3.4 GBcompatibleQ8 · / 4 GB

21★SmolLM 3 3Bsmollm3.4 GBcompatibleQ8 · / 4 GB

22★Granite 4 Micro 3Bgranite3.4 GBcompatibleQ8 · / 4 GB

23★Qwen2.5 3B Instructqwen3.4 GBcompatibleQ8 · / 4 GB

24★Llama 3.2 3B Instructllama3.4 GBcompatibleQ8 · / 4 GB

25★Llama 3.2 3Bllama3.4 GBcompatibleQ8 · / 4 GB

26★Qwen2.5 3Bqwen3.4 GBcompatibleQ8 · / 4 GB

27★Qwen2.5 Coder 3B Instructqwen3.4 GBcompatibleQ8 · / 4 GB

28★Qwen2.5 Coder 3Bqwen3.4 GBcompatibleQ8 · / 4 GB

29Gemma 2 2Bgemma2.2 GBcompatibleQ8 · / 4 GB

30CodeGemma 2Bgemma2.2 GBcompatibleQ8 · / 4 GB

+ 46 autres — voir le calculateur complet →

Modèles serrés (possibles mais lents)

2 modèles tendus

Ces modèles tiennent tout juste. Tournent mais le contexte disponible est limité, et l'inférence peut être lente si on dépasse la VRAM (offload CPU).

01Yi 1.5 6Byi3.8 GBserréQ4 · / 4 GB

02★Phi-4 Multimodal 5.6Bphi3.5 GBserréQ4 · / 4 GB

Débloqués en rig 2×

8 GB total

Avec 2 cartes en parallèle (8 GB total), vous accédez à des modèles plus gros et à des quantizations plus hautes.

01★Mistral Nemo 12Bmistral7.5 GBserréQ4 · / 8 GB

02★Gemma 3 12Bgemma7.5 GBserréQ4 · / 8 GB

03StableLM 2 12Bstable7.5 GBserréQ4 · / 8 GB

04Solar 10.7Bsolar6.7 GBcompatibleQ4 · / 8 GB

05Falcon 3 10Bfalcon6.3 GBcompatibleQ4 · / 8 GB

06★Gemma 2 9Bgemma5.7 GBcompatibleQ4 · / 8 GB

07Yi 1.5 9Byi5.7 GBcompatibleQ4 · / 8 GB

08★Qwen 3.5 9Bqwen5.7 GBcompatibleQ4 · / 8 GB

09★GLM-4 9Bglm5.7 GBcompatibleQ4 · / 8 GB

10★GLM-4.7 Flashglm5.7 GBcompatibleQ4 · / 8 GB

11GLM-4.1V 9B Thinkingglm5.7 GBcompatibleQ4 · / 8 GB

12★NVIDIA Nemotron Nano 9Bnemotron5.7 GBcompatibleQ4 · / 8 GB

13★gemma 2 9b itgemma5.7 GBcompatibleQ4 · / 8 GB

14Llama 3 8Bllama6.1 GBcompatibleQ5 · / 8 GB

15★Llama 3.1 8Bllama6.1 GBcompatibleQ5 · / 8 GB

Débloqués en rig 4×

16 GB total

Configuration entreprise / serveur (16 GB total) : vous accédez aux flagships open source 70B+ et aux MoE moyens.

01★Mistral Small 3 24Bmistral15.1 GBserréQ4 · / 16 GB

02★Mistral Small 3.1 24Bmistral15.1 GBserréQ4 · / 16 GB

03★Mistral Small 3.2 24Bmistral15.1 GBserréQ4 · / 16 GB

04★Devstral Small 2 24Bdevstral15.1 GBserréQ4 · / 16 GB

05Mistral Small 22Bmistral13.8 GBserréQ4 · / 16 GB

06★Codestral 22Bcodestral13.8 GBserréQ4 · / 16 GB

07Reka Flash 3 21Breka13.2 GBcompatibleQ4 · / 16 GB

08InternLM 2.5 20Binternlm12.6 GBcompatibleQ4 · / 16 GB

09DeepSeek V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB

10DeepSeek Coder V2 Litedeepseek · MoE12.3 GBcompatibleQ5 · / 16 GB

// données mises à jour le 2026-05-12 via HuggingFace API.
// estimations VRAM : (params × bits/8) × overhead 20 %.