GPU · 7 min de lecture

Quels LLM tournent sur un GPU à petit budget (RTX 3060, 3070) en 2026 ?

DO
Damien · LocalIA
Publié 2026-06-07

Pas besoin d'une RTX 5090 pour débuter en IA locale. Les meilleurs GPU par budget (RTX 3060 12 Go, 4060 Ti 16 Go, 3090 24 Go), ce qui tient selon la VRAM, et le roi du rapport VRAM/prix d'occasion.

Rig IA LocalIA détouré
TL;DR.Pas besoin d'une RTX 5090 pour commencer. Une RTX 3060 12 Go d'occasion(~250 €) fait tourner des modèles 7-14B confortablement, et une RTX 3090 24 Go (~650 €) reste le roi du rapport VRAM/prixpour aller jusqu'à du 32B. La règle est toujours la même : la VRAM décide de ce qui rentre, le reste décide de la vitesse.

C'est la question la plus saine quand on débute en IA locale : quel est le GPU le moins cher qui fait vraiment le job ? Voici les bons choix par budget en 2026, du point de vue qui compte : quels LLM tournent, et à quelle vitesse.

Le sweet spot : RTX 3060 12 Go

À ~250-300 € d'occasion, la RTX 3060 12 Go est le meilleur point d'entrée. Ses 12 Go de VRAM (plus que la 3070 !) lui permettent de tenir des modèles jusqu'à 14B en Q4 :

  • Mistral 7B, Llama 3.1 8B en Q5/Q8 : confortable.
  • Qwen 2.5 14B, Phi-4 14B en Q4 : ça rentre.
  • Qwen 2.5-Coder 7B (assistant de code) : excellent, ~25-35 tok/s.

Ce qui tient selon la VRAM

VRAMGPU budget typiqueCe qui tourne bien
8 GoRTX 3070 / 2070 / GTX 10707-8B en Q4 (contexte court)
12 GoRTX 3060 12 Go7-8B confort, 14B en Q4
16 GoRTX 4060 Ti 16 Go14B en Q5, 22B en Q4
24 GoRTX 3090 (occasion)32B en Q4, 70B en Q3 serré

Les cartes 8 Go (RTX 3070, 2070, GTX 1070)

8 Go suffisent pour le segment 7-8B, qui couvre déjà énormément d'usages : chat, résumé, et surtout les assistants de code 7Bcomme Qwen 2.5-Coder 7B. Attention au contexte : sur 8 Go, garder une fenêtre raisonnable (4-8k tokens) pour ne pas saturer.

Le roi du budget pour les gros modèles : RTX 3090 24 Go

Si tu veux dépasser le 14B sans exploser le budget, la RTX 3090 d'occasion(~600-700 €) est imbattable : 24 Go de VRAM, soit autant qu'une RTX 4090 neuve à moitié prix. Elle avale du Qwen 2.5 32B en Q4et s'approche du Llama 70B en Q3. C'est ~27 €/Go de VRAM, le meilleur ratio du marché d'occasion.

Et deux 3090 ?

2× RTX 3090 = 48 Go (et elles supportent le NVLink, contrairement aux 4090). C'est la config « maison » préférée pour faire tourner du 70B en Q4 sans passer au matériel pro. À ~1 300 € le duo d'occasion, c'est redoutable.

Le verdict par budget

BudgetNotre choixPour quoi faire
~250 €RTX 3060 12 GoDébuter, 7-14B, coding 7B
~450 €RTX 4060 Ti 16 Go16 Go neufs, jusqu'à 22B
~650 €RTX 3090 24 Go32B, le meilleur €/Go
~1 300 €2× RTX 3090 NVLink70B en Q4 à la maison

Questions fréquentes

Quel GPU pas cher pour faire tourner un LLM en local ?+
La RTX 3060 12 Go d'occasion (~250 €) est le meilleur point d'entrée : ses 12 Go tiennent des modèles 7-14B en Q4. Pour aller jusqu'au 32B, la RTX 3090 24 Go d'occasion (~650 €) reste imbattable en rapport VRAM/prix.
Une RTX 3060 12 Go suffit-elle pour un LLM ?+
Oui pour les modèles 7-14B. Elle fait tourner Mistral 7B et Llama 8B en Q5/Q8 confortablement, Qwen 2.5 14B en Q4, et Qwen 2.5-Coder 7B à ~25-35 tok/s. Ses 12 Go sont d'ailleurs plus que les 8 Go d'une RTX 3070.
Quel GPU d'occasion offre le meilleur rapport VRAM/prix ?+
La RTX 3090 24 Go (~600-700 €) : autant de VRAM qu'une RTX 4090 neuve pour moitié prix, soit ~27 €/Go. Elle tient Qwen 2.5 32B en Q4. Deux 3090 en NVLink (48 Go, ~1 300 €) permettent même du 70B en Q4.
Peut-on faire tourner un LLM sur une RTX 3070 8 Go ?+
Oui, sur le segment 7-8B en Q4 (chat, résumé, assistant de code 7B). Garde un contexte raisonnable (4-8k tokens) pour ne pas saturer les 8 Go. Pour des modèles plus gros, il faut 12 Go (3060) ou 24 Go (3090).
Quel GPU budget pour un assistant de code en local ?+
Une RTX 3060 12 Go suffit pour Qwen 2.5-Coder 7B (~25-35 tok/s), le meilleur modèle de code 7B. Une RTX 3070 8 Go marche aussi avec un contexte plus court. Pour Qwen 2.5-Coder 32B, vise une RTX 3090 24 Go.
GPUBudgetGuide