Instinct MI300X
- VRAM192 GB
- Bande passante mémoire5300 GB/s
- TDP nominal750 W
- Catégoriedatacenter
- Mémoire unifiéenon
Quel GPU pour faire tourner quel modèle en local. Comparatif sur VRAM, bande passante mémoire, consommation, et les modèles populaires que chacun peut charger en Q4 single-GPU.
Liste des modèles populaires (Llama 70B, Qwen 72B, Mistral Large…) qui passent en VRAM single-GPU en quantization Q4. Pour les multi-GPU ou les quants moins agressifs, ouvrir le calculateur.
★ = exclusivité (ne tourne pas sur l'autre GPU en single-GPU Q4)
Mac Studio M3 Ultra (256GB) a 64 GB de VRAM en plus, ce qui débloque 0 modèle au-dessus du seuil 192 GB. Côté débit, Instinct MI300X a 5300 GB/s contre 819 GB/s pour Mac Studio M3 Ultra (256GB) — soit ~547% plus de tok/s en inférence quantization-bound. Consommation : Instinct MI300X 750 W vs Mac Studio M3 Ultra (256GB) 65 W — écart significatif pour le coût énergétique long terme.
Tu vises du serveur 24/7, multi-tenant, avec FP8 / sparsity hardware et NVLink à pleine vitesse.
→ Fiche Instinct MI300XTu veux une consommation faible (60 W), unified memory énorme, et un setup macOS silencieux.
→ Fiche Mac Studio M3 Ultra (256GB)Le calculateur estime tok/s, €/Mtok et break-even cloud pour ces GPUs avec le modèle de ton choix.