✦ on-prem rentable
PME — 100 req/jour
3k tokens input + 1k output
- Coût API/an
- 3 564 €
- Rig amorti/an
- 250 € (élec)
- Break-even
- 1 an 7 mois
QwQ 32B fait du raisonnement type o1 dans un rig Starter. o1 est facturé 13,95 €/Mtok input — la math est vite faite.
| Axe | o1 | QwQ 32B local |
|---|---|---|
| Qualité | Légèrement en dessous d'o1 sur AIME, comparable sur math et logique. Excellent ratio capacité/prix local. | |
| Coût | 13.95 €/Mtok input · 55.80 €/Mtok output | Rig Starter 4 990 € HT + ~250 €/an élec |
| RGPD / juridiction | Région : US Transit USA. Prix x10 vs GPT-4o, dégrade vite le ROI cloud. | FR / LAN Données ne quittent jamais le réseau. Pas de sous-traitant. |
| Latence 1ʳᵉ token | 200-800 ms (RTT internet + queue provider) | 50-200 ms (LAN, prévisible, sans rate limit) |
Volumes typiques observés en PME française. Hypothèses : rig Starter (4 990 € HT), 250€/an d'électricité, amortissement linéaire. Prix API au tarif public OpenAI 2026.
3k tokens input + 1k output
4k tokens input + 2k output
4k tokens input + 1k output
Analyse logique de contrats, raisonnement métier, problèmes de planification.
Si ce comparatif vous parle, deux portes selon votre profil. Aucune ne déclenche d'appel automatique.