Journal · 10 articles

Notes du banc d'essai.

Benchmarks réels, configurations testées, retours terrain. Pas de listicles, pas de SEO-bait.

Construire un RAG local en 2026 : la stack Ollama + Qdrant + LlamaIndex

Architecture en 4 briques, choix techniques (vLLM, Qdrant, LlamaIndex, Open WebUI), sizing GPU par nombre d'utilisateurs et TCO comparé à GPT-4o sur 24 mois.

· 9 min2026-05-12

Quantization

Q4 vs Q5 vs Q8 : quelle quantization pour Llama 70B en 2026 ?

Tableau VRAM par quant (Q3 à FP16), perte de qualité mesurée (Δ perplexity), recommandations par GPU et débit tok/s par configuration. Sans bullshit.

· 8 min2026-05-12

Llama

Llama 4 en local en 2026 : VRAM, GPUs et alternatives réalistes

Llama 4 Scout, Maverick, Behemoth : ce qui tient vraiment chez toi en 2026. VRAM par version, GPUs minimum, et les 5 alternatives 70-123B qui rivalisent.

· 8 min2026-05-12

Mistral

Mistral Large 123B en local : quel rig, quel coût réel en 2026

Mistral Large 123B open-weight chez vous : VRAM par quantization (Q3 à FP16), rig minimum (2× A6000 NVLink), ROI vs Mistral API selon le volume mensuel, et quand préférer Llama 3.3 70B.

· 9 min2026-05-12

vLLM

vLLM vs Ollama en production : le benchmark 2026 (single user, batching, multi-user)

Bench réel des deux runtimes d'inférence sur RTX 5090 et 2× RTX 5090 NVLink. Single user, 4 users simultanés, 10 users en charge : qui gagne quand, et pourquoi le continuous batching change tout.

· 8 min2026-05-12

RAG

RAG souverain avec Qwen 3 30B MoE : la stack complète 2026

Pourquoi Qwen 3 30B-A3B (MoE, 3B actifs/token) est le sweet spot 2026 pour un RAG souverain d'équipe. Stack : vLLM + Qdrant + nomic-embed + LlamaIndex, sur rig Pro (11 990 €). Tout open-weight, tout self-hosted.

· 9 min2026-05-12

Prix

Combien coûte un serveur IA pour PME en 2026 ?

Décomposition du vrai coût d'un rig IA local en 2026 : matériel, software, électricité, support. 3 paliers chiffrés (Starter / Pro / Entreprise) et comparatif vs API cloud.

· 8 min2026-05-08

Stratégie

Cloud vs on-prem IA : le break-even arrive entre 4 et 18 mois

Calcul honnête du point d'équilibre entre API OpenAI / Anthropic et un rig IA local. Trois cas réels (cabinet, agence, PME industrielle) avec courbes de TCO sur 24 mois.

· 9 min2026-05-08

GPU

RTX 5090 vs Mac Studio M3 Ultra : pour faire tourner un LLM en local

Deux philosophies, deux gagnants par cas d'usage. VRAM dédiée vs mémoire unifiée, débit, multi-utilisateurs, € par GB de VRAM, et notre conseil par profil.

· 8 min2026-05-08

GPU

Quel GPU pour faire tourner Llama 3.3 70B en local en 2026 ?

VRAM requise par quantization, GPUs compatibles (consumer / pro / datacenter), comparatif RTX 5090 vs A6000 vs H100, et le rapport coût/perf vs API OpenAI à l'échelle.

· 9 min2026-05-07