wizard · 3 questions

Quel rig
pour votre besoin ?

30 secondes. Pas de budget demandé, pas de jargon. On vous oriente vers Starter, Pro ou Entreprise selon votre cas d'usage réel — avec le coût de build indicatif.

01
02
03
étape 1/3
01 · CAS D'USAGE

Pourquoi voulez-vous un rig IA ?

On adapte la config à votre usage réel, pas à votre budget — tout le monde dit « budget serré » par réflexe.

▲ méthodologie

Comment fonctionne notre recommandation

Le wizard repose sur trois critères techniques qui déterminent quel rig IA correspond à un usage donné. Ce n'est pas du marketing : ce sont les seuils physiques qui décident si un modèle tourne ou non sur une configuration.

01 · VRAM disponible

La mémoire vidéo limite la taille du modèle

Chaque LLM open source a une taille fixe : Llama 3.3 70B en quantization Q4 occupe environ 40 GB de VRAM. Si votre GPU n'a que 24 GB, le modèle ne tient pas. Le wizard identifie d'abord le palier VRAM minimum pour votre choix de modèle.

02 · Débit tokens/seconde

Le débit doit suivre votre usage

Un usage solo (chatbot perso, expérimentation) tolère 15-25 tok/s. Un usage équipe RAG sur documents en concurrence demande 50-100 tok/s. Au-delà de 5 utilisateurs simultanés, il faut passer en multi-GPU avec vLLM en tensor parallel.

03 · Budget & ROI

Le break-even change tout

Un rig à 12 000 € n'a de sens que s'il remplace au moins 800 € / mois d'API (break-even 15 mois). Pour un volume inférieur, l'API cloud reste rentable. Le wizard intègre cette logique et oriente vers la configuration de référence dont l'amortissement matche votre profil.

▲ configurations de référence

Les 3 configurations de référence en 1 minute

Trois configurations de référence pour trois usages distincts. Elles sont définies pour faire tourner correctement les LLM open source les plus utiles en 2026, sans sur-dimensionner ni rogner sur l'essentiel.

coût de build indicatif ~4 990 € — Solo

Starter

1× RTX 5090 · 32 GB VRAM

Pour un dev solo, un chercheur, ou une équipe qui veut expérimenter sans engager 12 000 €. Fait tourner Llama 3.3 70B en Q3, Qwen 2.5 32B en Q5, Mistral 7B en FP16. Pas adapté aux usages production multi-utilisateurs.

Voir la config Starter →
coût de build indicatif ~11 990 € — Équipe

Pro

2× RTX 5090 · 64 GB VRAM · stack vLLM & RAG à installer

Le sweet spot pour une agence, un cabinet, ou une équipe data de 5-20 personnes. Fait tourner Llama 3.3 70B en Q8, Mistral Large 123B en Q4. Stack RAG recommandée (LlamaIndex + Qdrant) à installer sur vos documents internes. Break-even ~7 mois face à GPT-4o à 1 000 req/jour.

Voir la config Pro →
coût de build indicatif ~25 990 € — PME / Public

Entreprise

2× RTX A6000 NVLink · 96 GB VRAM · OIDC ready

Pour une PME, un cabinet d'avocats, un service de santé, une ETI ou une collectivité. Fait tourner Llama 3.3 70B en FP16, Mistral Large 123B en Q5, multi-GPU tensor parallel via NVLink. Open WebUI multi-utilisateurs avec OIDC (Entra / Google / Okta). Conformité RGPD / AI Act documentée.

Voir la config Entreprise →
▲ cas d'usage

Cas d'usage typiques

Quatre profils types fréquents. Si le vôtre ressemble à l'un d'eux, vous avez déjà 80 % de la réponse — le wizard confirme et estime le coût de build du reste.

PME — RAG sur documentation interne

Recherche dans les manuels techniques, procédures qualité, ou base juridique interne. 5-20 collaborateurs en lecture. Config de référence Pro pensée pour une stack RAG. Llama 3.3 70B Q8 + Qdrant.

Agence créative — génération de copy

Briefs, variations marketing, traductions, rédaction produit. ~1 000 requêtes/jour. Données client confidentielles à ne pas envoyer chez OpenAI. Rig Pro ou Starter selon volume. Break-even 3-7 mois face à GPT-4o.

Cabinet d'avocats — RAG souverain

Recherche jurisprudence + analyse dossiers internes sous secret professionnel. Données juridiquement non-exportables (art. 226-13 CP). Config de référence Entreprise avec conformité RGPD / AI Act documentée. Multi-utilisateurs OIDC.

Collectivité / mairie — IA générative interne

Retranscription des conseils municipaux, rédaction de délibérations, analyse de marchés publics, chatbot citoyen. Sensibilité forte aux cyberattaques et à la souveraineté. Rig Entreprise pour les villes > 30 000 habitants. Rig Pro pour les communes plus petites.

Pas sûr ? Lecalculateur GPU → LLM permet de simuler n'importe quelle combinaison GPU + modèle précisément, avec estimation VRAM, débit tokens/seconde et comparaison break-even vs API cloud. C'est un complément au wizard pour les profils techniques.