Journal · 14 articles

Notes du banc d'essai.

Benchmarks réels, configurations testées, retours terrain. Pas de listicles, pas de SEO-bait.

Rig IA LocalIA détouré
Banc d'essai · à la une

Quels LLM tournent sur un GPU à petit budget (RTX 3060, 3070) en 2026 ?

Pas besoin d'une RTX 5090 pour débuter en IA locale. Les meilleurs GPU par budget (RTX 3060 12 Go, 4060 Ti 16 Go, 3090 24 Go), ce qui tient selon la VRAM, et le roi du rapport VRAM/prix d'occasion.

· 7 min
Apple

Peut-on faire tourner un LLM en local sur un Mac Mini M4 ? (2026)

Le Mac Mini M4 fait tourner des LLM en local étonnamment bien grâce à sa mémoire unifiée (jusqu'à 64 Go = VRAM). Quels modèles tiennent par config, le débit réel en tokens/seconde, et Mac vs GPU dédié.

· 7 min
GPU

RTX 5090 vs RTX 4090 pour l'IA en local : lequel choisir en 2026 ?

Le match posé du point de vue qui compte : quels modèles tournent, à quel débit, pour quel prix. VRAM (32 vs 24 Go), bande passante GDDR7, tableau modèles, et le verdict par profil.

· 7 min
VRAM

Combien de VRAM pour faire tourner un LLM en local ? (formule + tableau 2026)

La méthode exacte pour estimer la VRAM d'un LLM : poids du modèle × octets par paramètre, cache KV, overhead. Tableau prêt à l'emploi (7B à 123B × Q4/Q5/Q8) et la carte minimale par modèle.

· 8 min
RAG

Construire un RAG local en 2026 : la stack Ollama + Qdrant + LlamaIndex

Architecture en 4 briques, choix techniques (vLLM, Qdrant, LlamaIndex, Open WebUI), sizing GPU par nombre d'utilisateurs et TCO comparé à GPT-4o sur 24 mois.

· 9 min
Quantization

Q4 vs Q5 vs Q8 : quelle quantization pour Llama 70B en 2026 ?

Tableau VRAM par quant (Q3 à FP16), perte de qualité mesurée (Δ perplexity), recommandations par GPU et débit tok/s par configuration. Sans bullshit.

· 8 min
Llama

Llama 4 en local en 2026 : VRAM, GPUs et alternatives réalistes

Llama 4 Scout, Maverick, Behemoth : ce qui tient vraiment chez toi en 2026. VRAM par version, GPUs minimum, et les 5 alternatives 70-123B qui rivalisent.

· 8 min
Mistral

Mistral Large 123B en local : quel rig, quel coût réel en 2026

Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

· 9 min
vLLM

vLLM vs Ollama en production : le benchmark 2026 (single user, batching, multi-user)

Bench réel des deux runtimes d'inférence sur RTX 5090 et 2× RTX 5090 NVLink. Single user, 4 users simultanés, 10 users en charge : qui gagne quand, et pourquoi le continuous batching change tout.

· 8 min
RAG

RAG souverain avec Qwen 3 30B MoE : la stack complète 2026

Pourquoi Qwen 3 30B-A3B (MoE, 3B actifs/token) est le sweet spot 2026 pour un RAG souverain d'équipe. Stack : vLLM + Qdrant + nomic-embed + LlamaIndex, sur rig Pro (11 990 €). Tout open-weight, tout self-hosted.

· 9 min
Prix

Combien coûte un serveur IA pour PME en 2026 ?

Décomposition du vrai coût d'un rig IA local en 2026 : matériel, software, électricité, support. 3 paliers chiffrés (Starter / Pro / Entreprise) et comparatif vs API cloud.

· 8 min
Stratégie

Cloud vs on-prem IA : le break-even arrive entre 4 et 18 mois

Calcul honnête du point d'équilibre entre API OpenAI / Anthropic et un rig IA local. Trois cas réels (cabinet, agence, PME industrielle) avec courbes de TCO sur 24 mois.

· 9 min
GPU

RTX 5090 vs Mac Studio M3 Ultra : pour faire tourner un LLM en local

Deux philosophies, deux gagnants par cas d'usage. VRAM dédiée vs mémoire unifiée, débit, multi-utilisateurs, € par GB de VRAM, et notre conseil par profil.

· 8 min
GPU

Quel GPU pour faire tourner Llama 3.3 70B en local en 2026 ?

VRAM requise par quantization, GPUs compatibles (consumer / pro / datacenter), comparatif RTX 5090 vs A6000 vs H100, et le rapport coût/perf vs API OpenAI à l'échelle.

· 9 min