Model routing : réduire sa facture IA sans sacrifier la qualité

Les entreprises dépensent trop en IA. Pas parce que l'IA coûte cher — mais parce qu'elles utilisent les modèles les plus puissants pour des tâches qui n'en ont pas besoin.

Le phénomène a un nom : le model routing. Il consiste à aiguiller chaque requête vers le modèle le plus adapté. Les questions complexes vers les modèles frontière. Les tâches simples vers des alternatives moins coûteuses.

Le principe est simple. L'appliquer change la donne budgétaire.

La fin du « tout-frontière »

Pendant deux ans, la règle implicite était claire : tout faire passer par le modèle le plus puissant disponible. GPT-4, puis GPT-5. Claude Opus. Les derniers modèles Gemini. Peu importe la complexité de la tâche.

Cette approche a un coût. Et il explose.

Uber a consommé la totalité de son budget IA annuel en quatre mois, a révélé son directeur technique Praveen Neppalli Naga en avril 2026. L'entreprise a depuis instauré des plafonds de dépenses : 1 500 $ par mois et par employé en niveau de base.

Cisco a dépassé son propre budget de manière significative. Jeetu Patel, directeur produit, a posé le calcul devant CNBC : à 200 $ de tokens par employé et par semaine, une entreprise de 90 000 personnes atteint 900 millions de dollars par an. Cisco a dû réallouer des ressources, en priorisant les tokens sur d'autres dépenses.

Ces cas ne sont pas marginaux. Eric Glyman, co-PDG de Ramp, une plateforme de gestion des dépenses, résume : « La plupart des directeurs financiers n'avaient pas prévu cette croissance dans leurs plans annuels — et n'ont pas les outils pour la gérer. »

Pourquoi les entreprises serrent la vis maintenant

Trois facteurs se conjuguent.

D'abord, la fin de l'IA subventionnée. Pendant deux ans, les grands fournisseurs ont pratiqué des prix agressifs pour favoriser l'adoption. Cette ère touche à sa fin. Les tarifs remontent vers le coût réel des infrastructures — des infrastructures sous tension, où data centers et fabricants de puces peinent à suivre la demande.

Ensuite, l'arrivée des agents IA autonomes. Une étude du Stanford Digital Economy Lab publiée en 2026 montre que les tâches agentiques consomment jusqu'à 1 000 fois plus de tokens qu'une simple requête de chat. Même pour des tâches plus modestes, le facteur multiplicateur reste élevé — un agent qui planifie, vérifie et itère génère mécaniquement plus de requêtes qu'un humain qui pose une question unique. La facture grimpe sans que la valeur produite suive la même courbe.

Enfin, l'arrivée d'alternatives crédibles et moins chères. DeepSeek, les modèles open source chinois, Gemini 3.5 Flash de Google — tous proposent des performances solides à une fraction du prix des modèles frontière. Microsoft a lancé en juin 2026 une suite de modèles à bas coût, et GitHub Copilot aiguille désormais automatiquement les utilisateurs vers le modèle le plus adapté à leur tâche.

Le marché se structure. La question n'est plus « quel est le meilleur modèle ? » mais « quel est le bon modèle pour cette tâche précise ? »

Le model routing en pratique

Le concept est simple : un aiguilleur analyse chaque requête entrante et la dirige vers le modèle approprié. Une question factuelle simple — « quelle est la capitale du Burkina Faso ? » — ne justifie pas un modèle à 15 $ le million de tokens. Un modèle léger à 0,50 $ le million de tokens répondra aussi bien.

Scott Wu, PDG de Cognition (l'éditeur de l'agent de code Devin), parle d'un gain d'efficacité de cinq à dix fois sur les tâches routinières en utilisant des modèles « encore assez bons pour le travail ».

Le chiffre qui frappe vient d'Arvind Jain, PDG de Glean : environ 95 % de l'utilisation de l'IA en entreprise passe encore par les modèles frontière les plus chers — même pour des tâches que des alternatives moins coûteuses pourraient traiter.

Autrement dit, la quasi-totalité des entreprises paie le prix fort pour 100 % de leurs requêtes, alors que 60 à 80 % d'entre elles pourraient être traitées par des modèles cinq à dix fois moins chers.

Par où commencer : trois étapes

Pas besoin d'attendre un outil de routage automatique. Une PME peut commencer par une approche manuelle simple.

Première étape : auditez votre utilisation. Listez les cas d'usage réels de l'IA dans votre entreprise. Rédaction de courriels ? Synthèse de documents longs ? Analyse de données complexes ? Génération de code ? Chaque usage a un niveau de complexité différent.

Deuxième étape : classez par niveau d'exigence. Les tâches se répartissent en trois catégories. Les tâches simples — reformulation, résumé court, réponse factuelle — peuvent utiliser un modèle léger (Gemini Flash, GPT-5.5 Instant, Claude Haiku). Les tâches moyennes — rédaction structurée, analyse de document, traduction — justifient un modèle intermédiaire. Les tâches complexes — raisonnement multi-étapes, analyse juridique, génération de code — appellent le modèle le plus performant.

Troisième étape : appliquez la règle des 30 secondes. Si un humain compétent peut accomplir la tâche en moins de 30 secondes, elle ne justifie pas un modèle frontière. Cette règle simple évite la surqualité systématique.

Pour les équipes techniques, des outils comme OpenRouter ou les API multi-modèles permettent déjà de router automatiquement les requêtes. Microsoft, Google et d'autres intègrent progressivement cette logique dans leurs produits. GitHub Copilot le fait déjà. Google Workspace Skills l'intègre partiellement. Mais même sans outil dédié, une règle manuelle simple réduit la facture de 30 à 50 % en quelques jours.

Les angles morts

Le model routing n'est pas sans risque.

D'abord, la dépendance aux alternatives. Si vous routez une partie de vos requêtes vers DeepSeek ou d'autres modèles open source, vous introduisez un nouveau fournisseur dans votre chaîne. Avec des questions de souveraineté des données et de conformité réglementaire qui se posent — particulièrement au Québec avec la Loi 25.

Ensuite, le risque de dégradation silencieuse. Un modèle moins cher peut produire des résultats suffisants dans 95 % des cas, mais échouer subtilement dans les 5 % restants. Sans contrôle qualité, ces échecs passent inaperçus jusqu'à ce qu'un client ou un décideur les remarque.

Enfin, la complexité de gestion. Multiplier les modèles, c'est multiplier les interfaces, les clés API, les suivis de performance et les mises à jour. Pour une PME sans équipe technique dédiée, cette complexité peut annuler les économies réalisées.

Ce qu'il faut retenir

Le marché de l'IA entre dans une phase de rationalisation des coûts. Les entreprises qui continuent à tout faire passer par le modèle le plus cher paient une prime qui n'a plus de justification économique.

Voici l'essentiel :

95 % des requêtes d'entreprise utilisent encore les modèles les plus chers — pour des tâches simples qui n'en ont pas besoin.
Un routage manuel simple (classer les tâches par exigence) peut réduire la facture de 30 à 50 %.
Les grands fournisseurs intègrent le routage automatique : le marché va dans cette direction.
La règle des 30 secondes : si un humain ferait la tâche en moins de 30 secondes, utilisez un modèle léger.

Le model routing n'est pas une mode. C'est la suite logique d'un marché qui mûrit — et d'entreprises qui apprennent à acheter l'IA au bon prix.

Sources consultées

Stanford Digital Economy Lab, « How Do AI Agents Spend Your Money? », 2026
CNBC, « OpenAI and Anthropic face new AI reality as users shift from 'tokenmaxxing' to efficiency », 26 juin 2026
CNBC, « Model routing is a fix for AI overspending. That's a problem for OpenAI and Anthropic », 5 juin 2026
The Information, « Uber CTO shows Claude Code can blow AI budgets », avril 2026
GitHub Blog, « Auto model selection now routes based on your task in VS Code », 20 mai 2026
Microsoft, Satya Nadella, essai publié sur X, juin 2026
Ramp, déclaration d'Eric Glyman, co-PDG, à CNBC, juin 2026
Cognition, déclaration de Scott Wu, PDG, à CNBC, juin 2026
Cisco, déclaration de Jeetu Patel, directeur produit, à CNBC, juin 2026

Cet article a été rédigé avec l'assistance d'un outil d'intelligence artificielle et relu par un humain.