Stratégie · 9 min de lecture

Cloud vs on-prem IA : le break-even arrive entre 4 et 18 mois

DO
Damien · LocalIA
Publié 2026-05-08· Mis à jour 2026-05-12

Calcul honnête du point d'équilibre entre API OpenAI / Anthropic et un rig IA local. Trois cas réels (cabinet, agence, PME industrielle) avec courbes de TCO sur 24 mois.

Rig IA LocalIA détouré

Depuis trois ans, la promesse du cloud IA tient en un argument : « vous payez à l'usage, vous n'avez pas à investir ». En 2026, cette promesse craque. Pour beaucoup de cas d'usage PME / cabinet / agence, l'équipement local s'amortit en moins de 12 mois, et souvent en 9. Voici comment faire le calcul honnête, des deux côtés.

Le mythe du « cloud forcément moins cher »

L'équation que les revendeurs cloud vous montrent, c'est celle d'une équipe qui fait 50 requêtes manuelles par jour. À ce régime, oui, payer 0,015 $ pour 1k tokens est négligeable. Mais l'IA en 2026, ce n'est plus ça. C'est de l'agentic (un agent qui pilote des outils en boucle), du RAG sur 10k documents appelé en sub-seconde, ou de la génération massive (résumés, classifications, embeddings).

À ce régime, vos volumes ne sont plus calibrés en milliers de tokens par jour, mais en millions. Et là, le compteur API tourne très vite. Faisons le calcul.

Trois cas d'usage, trois courbes

Cas A — Cabinet juridique de 10 personnes (RAG)

500 requêtes/jour × 2k tokens/requête × 22 j/mois = ~22 M tokens/mois.

SolutionMois 1Mois 12Mois 24
GPT-4o API750 €9 000 €18 000 €
Claude Sonnet API900 €10 800 €21 600 €
Rig Pro 2× RTX 5090 (11 990 € HT)12 040 €12 640 €13 240 €

Break-even avec GPT-4o : mois 16. Avec Claude : mois 13.

Cas B — Agence créative (génération + agentic)

2 agents qui tournent 6 h/jour, ~80 appels/h × 3k tokens chacun = ~63 M tokens/mois. Plus 30 utilisateurs interactifs → ~12 M tokens/mois. Total ~75 M tokens/mois.

SolutionMois 1Mois 9Mois 18
GPT-4o API2 800 €25 200 €50 400 €
Rig Pro 2× RTX 509012 040 €12 440 €12 840 €

Break-even : 4 mois. Au-delà, le rig devient gratuit en marginal vs cloud.

Cas C — PME industrielle (classifications massives)

Pipeline qui passe 50 000 emails / fiches techniques par jour pour classification → ~150 M tokens/mois.

SolutionMois 1Mois 6Mois 12
GPT-4o-mini API (modèle low-cost)1 500 €9 000 €18 000 €
Rig Entreprise 2× A6000 (25 990 € HT)26 040 €26 290 €26 540 €

Break-even : mois 17. Pour ce type de volume, l'A6000 donne du débit batché que la 5090 ne saturerait pas.

Les coûts cachés du cloud que personne ne montre

  1. Le contexte facturé deux fois.Les API facturent input + output. Un prompt de 10k tokens (RAG) plus une réponse de 1k → 11k tokens facturés à chaque appel. Sur 500 appels/jour, c'est 110k tokens/jour juste pour le contexte. Le cache partiel d'Anthropic ou OpenAI réduit, mais ne supprime pas.
  2. Les retries silencieux. En production, ~5-10 % des appels API échouent (rate limit, timeout, schema invalide). Vos retries sont refacturés. Sur 1 M appels/mois, c'est 50k à 100k appels payés deux fois.
  3. Les ZDR / contrats enterprise.Pour ne pas que vos données soient utilisées en entraînement, il faut un contrat ZDR. OpenAI : minimum 25k$/an d'engagement. Anthropic : contrat dédié, à négocier. En dessous, vos prompts peuvent finir dans le prochain modèle.
  4. Les modèles dépréciés.OpenAI a déprécié GPT-4-turbo, GPT-4-32k, et plusieurs modèles d'embeddings en 18 mois. À chaque dépréciation : ré-évaluation, re-prompting, re-test. Un modèle local que vous figez tourne 5 ans sans bouger.
  5. Les pénalités RGPD. Si vos données passent par les US sans contrat ZDR + DPA + CCT en règle, vous êtes en infraction. La CNIL a sanctionné en 2025 plusieurs entreprises pour ce motif. Le coût « cloud » devient subitement + 10 à 50k€.

Les coûts cachés de l'on-prem (oui, il y en a)

Honnêteté oblige, l'on-prem n'est pas magique non plus.

  • L'intégration.Plug-and-play oui pour l'inférence, mais l'intégrer à vos workflows (Slack, ticketing, CRM, Office) prend du temps interne. Comptez 2-5 jours de dev junior, plus si vous voulez du RAG sophistiqué.
  • La maintenance.Un GPU peut tomber. Notre garantie couvre 3-5 ans pièces & MO sur les rigs Pro/Entreprise, mais en cas d'échange c'est ~3-5 jours d'indispo. Solution si critique : rig de secours ou bascule API ponctuelle.
  • L'obsolescence.Les LLM open source progressent vite. Une RTX 5090 achetée en 2026 fera tourner Llama 5 70B en 2028 sans souci, mais peut-être pas Llama 6 maxi. La règle : prévoir un cycle de remplacement à 4-5 ans, comme un serveur classique.
  • L'électricité.2× RTX 5090 en charge = ~900 W consommés. Sur 4 h/jour effectives, c'est ~13 €/mois. Pas de quoi changer le calcul.

Quand le cloud reste pertinent

On ne vend pas une religion. Le cloud reste le bon choix quand :

  • Vous testez encore — vous ne savez pas quels modèles vous allez utiliser dans 6 mois
  • Vous avez besoin de modèles propriétaires non-disponibles en open source (GPT-4 Vision avancé, Claude Computer Use, o3 reasoning poussé)
  • Vous avez des pics énormes (1 jour de Black Friday qui multiplie x100 le volume) et un quotidien faible — le cloud absorbe la pointe
  • Votre volume reste sous 10 M tokens/moiset n'a pas vocation à monter
Le bon réflexe en 2026 n'est pas « cloud ou on-prem », c'est « cloud pour explorer, on-prem pour industrialiser ». Vous prototypez sur API, vous validez l'usage, et dès que vous tournez régulier, vous basculez en local.

Le tipping point en 2026

Trois choses ont changé en un an et rendent l'équation on-prem nettement plus favorable :

  1. Llama 3.3 70B rivalise avec GPT-4o sur la plupart des benchmarks pratiques (RAG, classification, code, raisonnement court). Le vieux contre-argument « mais l'open source est en retard » ne tient plus.
  2. RTX 5090 à 1 800 €rend le rig Pro à 11 990 € HT accessible aux PME, alors qu'il fallait 15 000 €+ il y a 2 ans pour la même perf.
  3. vLLM et llama.cppsont devenus production-ready : batching dynamique, quantization intelligente, OpenAI-compatible API. Plus besoin d'équipe MLOps dédiée pour servir un LLM.

Faire le calcul vous-même

Notre calculateur GPU → LLMvous dit quel modèle tourne sur quel matériel. Pour le calcul de break-even appliqué à votre cas :

  1. Estimez votre consommation mensuelle en tokens (input + output, x nombre d'appels par jour x 22 jours)
  2. Multipliez par le tarif de votre fournisseur ($0,015 / 1k tokens pour GPT-4o input, $0,06 pour output)
  3. Divisez le prix du rig adapté par votre coût mensuel cloud → vous obtenez le nombre de mois de break-even
StratégieCoûtSouveraineté