RAG souverain avec Qwen 3 30B MoE : la stack complète 2026
Pourquoi Qwen 3 30B-A3B (MoE, 3B actifs/token) est le sweet spot 2026 pour un RAG souverain d'équipe. Stack : vLLM + Qdrant + nomic-embed + LlamaIndex, sur rig Pro (11 990 €). Tout open-weight, tout self-hosted.

Qwen 3 30B-A3B est un modèle MoE chinois open-weight sorti début 2026. Il a une particularité qui change tout pour un usage RAG : 30 milliards de paramètres au total, mais seulement 3 milliards actifs par token. Résultat : qualité d'un 30B, vitesse d'un 3B. C'est le sweet spot 2026 pour faire du RAG souverain sur un rig modeste.
Pourquoi un MoE est-il parfait pour le RAG ?
Un Mixture of Experts comme Qwen 3 30B-A3B contient 128 « experts » spécialisés. À chaque token généré, un router décide quels 8 experts activer. Tu as donc :
- Mémoire : il faut tout charger en VRAM (30B params au total).
- Compute: tu ne calcules que sur 3B params actifs par token. C'est 10× plus rapidequ'un 30B dense.
Pour le RAG, où la majorité des requêtes sont du « réponds en t'appuyant sur ce contexte », un MoE excelle : les experts spécialisés en synthèse / extraction sont activés, le reste reste dormant. Tu obtiens un débit serveur impressionnant sans sacrifier la qualité.
La VRAM requise
| Quant | VRAM totale | Qualité | Rig minimum |
|---|---|---|---|
| FP16 | ~62 GB | Parfait | 1× A6000 (48 GB) + offload, ou 2× RTX 5090 |
| Q8_0 | ~33 GB | Quasi-FP16 | 1× RTX 5090 (32 GB) — tendu |
| Q5_K_M | ~22 GB | Indiscernable RAG | 1× RTX 4090 (24 GB) — confortable |
| Q4_K_M | ~18 GB | Sweet spot | 1× RTX 5090 32 GB — large marge |
| Q3_K_M | ~14 GB | Dégradé sur raisonnement | 1× RTX 4080 / 3090 |
La stack RAG complète
1. Génération — Qwen 3 30B-A3B via vLLM
Le modèle LLM lui-même, servi via vLLM (pas Ollama : on veut le batching pour scaler aux multi-users). Configuration type :
vllm serve Qwen/Qwen3-30B-A3B \ --quantization awq \ --tensor-parallel-size 1 \ --gpu-memory-utilization 0.85 \ --max-model-len 32768 \ --enable-prefix-caching
2. Embeddings — nomic-embed v2 (open-weight)
Pour vectoriser tes documents avant le retrieval. nomic-embed v2 est sorti fin 2025 : 768 dimensions, multilingue, performant sur les benchmarks MTEB. Ouvert, sans appel API.
- Taille: ~250 MB en FP16, tient sur n'importe quel GPU.
- Débit : ~5 000 embeddings/sec sur RTX 5090.
- Alternative : bge-m3 (BAAI), un peu plus lent mais excellent en français.
3. Vector DB — Qdrant
Qdrant est un vector store écrit en Rust (donc rapide et économe), sous Apache 2.0. Souverain (les données restent chez toi) et marche en self-hosted en 1 commande Docker.
docker run -d -p 6333:6333 \ -v $(pwd)/qdrant_storage:/qdrant/storage \ qdrant/qdrant:latest
Pour 100 000 documents (~500 Mo de PDF), Qdrant indexe en ~3 minutes sur un Threadripper et répond aux queries en <20 ms.
4. Orchestration — LlamaIndex ou LangChain
Le glue code qui relie embedding → retrieval → reranking → LLM. Recommandation 2026 :
- LlamaIndex : meilleur pour les use cases RAG structurés (cabinets juridiques, recherche dans des bases métier). Plus orienté data.
- LangChain : plus flexible pour les agents et workflows complexes. Plus orienté ops.
- Haystack 2.0 : alternative open-source européenne, excellente pour les pipelines de production.
5. Reranking — Cohere Rerank 3 (ou local)
Optionnel mais recommandé. Après le retrieval top-20 par embedding, un reranker re-score les chunks selon la pertinence sémantique précise. Boost typique de 15-25 % sur la qualité finale.
Pour rester 100 % souverain : bge-reranker-v2-m3 (open-weight, ~600 MB) au lieu de Cohere API.
Performance attendue sur rig Pro LocalIA
| Métrique | Valeur | Notes |
|---|---|---|
| Latence query (top-5 retrieval) | ~80 ms | Qdrant + embedding |
| Time to first token | ~250 ms | vLLM cold path, ~100 ms si prefix cache hit |
| Génération | 55-65 tok/s | Single user, Qwen 3 30B Q4_K_M |
| Throughput batching | ~280 tok/s | 5 users simultanés, prefix cache actif |
| Coût électricité / 1M tokens | ~0,28 € | 650 W moyens × 0,25 €/kWh |
Souveraineté : pourquoi cette stack est différente
Tout ce qui est listé ci-dessus est :
- Open-weight ou open-source : tu peux auditer le code, modifier les poids, fork.
- Self-hostable: pas d'appel sortant obligatoire. Tu peux couper le wifi pendant l'inférence.
- Conforme RGPD : aucun transfert hors-UE. Aucun contrat DPA à signer.
- Conforme AI Act : tu contrôles le modèle, donc tu maîtrises sa transparence (cartes de modèle, biais documentés).
Quand préférer un autre modèle ?
- Tu veux du raisonnement profond (math, code complexe) → DeepSeek R1 Distill 70B sur rig Pro.
- Tu fais du multilingue européen pro → Mistral Large 123B sur rig Entreprise (cf notre article dédié).
- Tu fais du multimodal (texte + image) → Gemma 4 ou Llama 4 Scout.
- Tu as 24 GB VRAM max → Qwen 3 14B dense (pas le 30B MoE qui ne tient pas confortablement).
Le verdict
Qwen 3 30B-A3B + Qdrant + nomic-embed + vLLM est la stack RAG souveraine la plus efficace de 2026 pour une équipe de 5 à 30 personnes. Elle tient sur un rig Pro (11 990 € HT), elle scale en batching, et chaque composant est open-weight ou open-source.