RTX 5090 vs RTX 4090 pour l'IA en local : lequel choisir en 2026 ?
Le match posé du point de vue qui compte : quels modèles tournent, à quel débit, pour quel prix. VRAM (32 vs 24 Go), bande passante GDDR7, tableau modèles, et le verdict par profil.

TL;DR. Pour l'IA locale en 2026, la RTX 5090 (32 Go) bat la RTX 4090 (24 Go)sur le seul critère qui compte vraiment : +8 Go de VRAM, ce qui débloque des modèles que la 4090 ne tient pas (Llama 70B en Q3, gros MoE). Si vos modèles tiennent déjà sur 24 Go, la RTX 4090 d'occasion reste le meilleur rapport €/perf. La règle : la VRAM d'abord, la puissance ensuite.
C'est le match le plus posé en 2026 quand on veut faire tourner un LLM chez soi. Voici le comparatif sans détour, du point de vue qui compte : quels modèles tournent, à quelle vitesse, pour quel prix.
Les chiffres clés
| RTX 4090 | RTX 5090 | |
|---|---|---|
| VRAM | 24 Go GDDR6X | 32 Go GDDR7 |
| Bande passante mémoire | ~1 008 Go/s | ~1 792 Go/s |
| TDP | 450 W | 575 W |
| Prix neuf indicatif 2026 | ~1 600-1 900 € | ~2 200-2 700 € |
| Prix occasion indicatif | ~1 100-1 400 € | rare en occasion |
Quels modèles tournent sur chacune ?
La VRAM décide de ce qui rentre. Voici les modèles populaires et leur sort sur 24 vs 32 Go (avec marge de contexte raisonnable) :
| Modèle | RTX 4090 (24 Go) | RTX 5090 (32 Go) |
|---|---|---|
| Mistral 7B / Llama 3.1 8B | FP16 ✅ | FP16 ✅ |
| Qwen 2.5 32B / Gemma 4 31B | Q4 ✅ · Q5 juste | Q5 ✅ · Q6 ✅ |
| Llama 3.3 70B / Qwen 2.5 72B | Q3 serré ⚠️ | Q3 ✅ (Q4 hors limite) |
| DeepSeek R1 Distill 70B | Q3 difficile | Q3 ✅ |
| Llama 4 Scout 109B (MoE) | ❌ trop gros | ❌ (besoin 2 cartes) |
Conclusion : la 5090 ne change pas la donne sur les petits modèles (les deux les avalent), mais elle débloque le palier 70B en Q3et donne plus d'air pour le contexte. Pour les modèles 100B+, il faut de toute façon passer en multi-GPU.
Débit (tokens/seconde)
En ordre de grandeur, sur un même modèle qui tient sur les deux cartes, la RTX 5090 délivre ~40 à 70 % de tokens/seconde en plus grâce à la GDDR7. Sur un 8B en FP16, on passe par exemple d'un confortable à un très confortable ; l'écart se ressent surtout en usage multi-requêtes ou contexte long.
Le rapport €/perf : quand la 4090 reste imbattable
La RTX 4090 d'occasion (~1 100-1 400 €) reste le meilleur rapport coût/performancesi :
- vos modèles tiennent sur 24 Go (jusqu'à ~32B confortable) ;
- vous visez un usage solo ou petite équipe ;
- vous n'avez pas besoin du palier 70B.
La RTX 5090 se justifie si : vous voulez le 70B sur une seule carte, beaucoup de contexte, ou plus de débit pour servir plusieurs utilisateurs.
Et deux 4090 plutôt qu'une 5090 ?
2× RTX 4090 = 48 Go de VRAM cumulée, plus que la 5090. Sur le papier, séduisant pour les gros modèles. Mais : les 4090 n'ont pas de NVLink, donc le multi-GPU passe par le PCIe, plus lent sur les très gros modèles. Pour du 70B, une seule 5090 (ou 2× cartes avec NVLink type A6000) est souvent plus fluide. À chiffrer selon votre cas.
Le verdict par profil
| Profil | Notre conseil |
|---|---|
| Solo dev, modèles ≤ 32B | RTX 4090 d'occasion — rapport €/perf imbattable |
| Vous voulez du Llama 70B sur 1 carte | RTX 5090 (32 Go) — la 4090 ne suit pas |
| Usage multi-utilisateurs / contexte long | RTX 5090 — la bande passante GDDR7 paie |
| Gros modèles 100B+ | Multi-GPU (NVLink) — ni l'une ni l'autre seule |