RAG · 9 min de lecture

RAG souverain avec Qwen 3 30B MoE : la stack complète 2026

Damien · LocalIA

Publié 2026-05-12

Pourquoi Qwen 3 30B-A3B (MoE, 3B actifs/token) est le sweet spot 2026 pour un RAG souverain d'équipe. Stack : vLLM + Qdrant + nomic-embed + LlamaIndex, sur rig Pro (11 990 €). Tout open-weight, tout self-hosted.

Qwen 3 30B-A3B est un modèle MoE chinois open-weight sorti début 2026. Il a une particularité qui change tout pour un usage RAG : 30 milliards de paramètres au total, mais seulement 3 milliards actifs par token. Résultat : qualité d'un 30B, vitesse d'un 3B. C'est le sweet spot 2026 pour faire du RAG souverain sur un rig modeste.

Pourquoi un MoE est-il parfait pour le RAG ?

Un Mixture of Experts comme Qwen 3 30B-A3B contient 128 « experts » spécialisés. À chaque token généré, un router décide quels 8 experts activer. Tu as donc :

Mémoire : il faut tout charger en VRAM (30B params au total).
Compute: tu ne calcules que sur 3B params actifs par token. C'est 10× plus rapidequ'un 30B dense.

Pour le RAG, où la majorité des requêtes sont du « réponds en t'appuyant sur ce contexte », un MoE excelle : les experts spécialisés en synthèse / extraction sont activés, le reste reste dormant. Tu obtiens un débit serveur impressionnant sans sacrifier la qualité.

La VRAM requise

Quant	VRAM totale	Qualité	Rig minimum
FP16	~62 GB	Parfait	1× A6000 (48 GB) + offload, ou 2× RTX 5090
Q8_0	~33 GB	Quasi-FP16	1× RTX 5090 (32 GB) — tendu
Q5_K_M	~22 GB	Indiscernable RAG	1× RTX 4090 (24 GB) — confortable
Q4_K_M	~18 GB	Sweet spot	1× RTX 5090 32 GB — large marge
Q3_K_M	~14 GB	Dégradé sur raisonnement	1× RTX 4080 / 3090

La stack RAG complète

1. Génération — Qwen 3 30B-A3B via vLLM

Le modèle LLM lui-même, servi via vLLM (pas Ollama : on veut le batching pour scaler aux multi-users). Configuration type :

vllm serve Qwen/Qwen3-30B-A3B \
  --quantization awq \
  --tensor-parallel-size 1 \
  --gpu-memory-utilization 0.85 \
  --max-model-len 32768 \
  --enable-prefix-caching

2. Embeddings — nomic-embed v2 (open-weight)

Pour vectoriser tes documents avant le retrieval. nomic-embed v2 est sorti fin 2025 : 768 dimensions, multilingue, performant sur les benchmarks MTEB. Ouvert, sans appel API.

Taille: ~250 MB en FP16, tient sur n'importe quel GPU.
Débit : ~5 000 embeddings/sec sur RTX 5090.
Alternative : bge-m3 (BAAI), un peu plus lent mais excellent en français.

3. Vector DB — Qdrant

Qdrant est un vector store écrit en Rust (donc rapide et économe), sous Apache 2.0. Souverain (les données restent chez toi) et marche en self-hosted en 1 commande Docker.

docker run -d -p 6333:6333 \
  -v $(pwd)/qdrant_storage:/qdrant/storage \
  qdrant/qdrant:latest

Pour 100 000 documents (~500 Mo de PDF), Qdrant indexe en ~3 minutes sur un Threadripper et répond aux queries en <20 ms.

4. Orchestration — LlamaIndex ou LangChain

Le glue code qui relie embedding → retrieval → reranking → LLM. Recommandation 2026 :

LlamaIndex : meilleur pour les use cases RAG structurés (cabinets juridiques, recherche dans des bases métier). Plus orienté data.
LangChain : plus flexible pour les agents et workflows complexes. Plus orienté ops.
Haystack 2.0 : alternative open-source européenne, excellente pour les pipelines de production.

5. Reranking — Cohere Rerank 3 (ou local)

Optionnel mais recommandé. Après le retrieval top-20 par embedding, un reranker re-score les chunks selon la pertinence sémantique précise. Boost typique de 15-25 % sur la qualité finale.

Pour rester 100 % souverain : bge-reranker-v2-m3 (open-weight, ~600 MB) au lieu de Cohere API.

Performance attendue sur rig Pro LocalIA

Métrique	Valeur	Notes
Latence query (top-5 retrieval)	~80 ms	Qdrant + embedding
Time to first token	~250 ms	vLLM cold path, ~100 ms si prefix cache hit
Génération	55-65 tok/s	Single user, Qwen 3 30B Q4_K_M
Throughput batching	~280 tok/s	5 users simultanés, prefix cache actif
Coût électricité / 1M tokens	~0,28 €	650 W moyens × 0,25 €/kWh

Souveraineté : pourquoi cette stack est différente

Tout ce qui est listé ci-dessus est :

Open-weight ou open-source : tu peux auditer le code, modifier les poids, fork.
Self-hostable: pas d'appel sortant obligatoire. Tu peux couper le wifi pendant l'inférence.
Conforme RGPD : aucun transfert hors-UE. Aucun contrat DPA à signer.
Conforme AI Act : tu contrôles le modèle, donc tu maîtrises sa transparence (cartes de modèle, biais documentés).

Quand préférer un autre modèle ?

Tu veux du raisonnement profond (math, code complexe) → DeepSeek R1 Distill 70B sur rig Pro.
Tu fais du multilingue européen pro → Mistral Large 123B sur rig Entreprise (cf notre article dédié).
Tu fais du multimodal (texte + image) → Gemma 4 ou Llama 4 Scout.
Tu as 24 GB VRAM max → Qwen 3 14B dense (pas le 30B MoE qui ne tient pas confortablement).

Le verdict

Qwen 3 30B-A3B + Qdrant + nomic-embed + vLLM est la stack RAG souveraine la plus efficace de 2026 pour une équipe de 5 à 30 personnes. Elle tient sur un rig Pro (11 990 € HT), elle scale en batching, et chaque composant est open-weight ou open-source.

RAGQwenSouverainetéMoE

↗ HN ↗ X ↗ Reddit ↗ LinkedIn