Il n’y a pas si longtemps, les DSI se disputaient sur les licences SAP, les contrats Oracle ou la négociation avec leur fournisseurs de Cloud.
Aujourd’hui, c’est le token qui cristallise les tensions. Chaque requête adressée à un modèle d’IA générative, un résumé, une analyse ou une ligne de code générée, consomme des tokens. Et ce compteur tourne en permanence, pour chaque collaborateur, chaque agent automatisé, chaque processus numérisé.
La nouveauté, c’est que cette consommation est directement corrélée à l’activité humaine. Contrairement au cloud classique, où l’on payait pour une capacité de calcul souvent sous-utilisée, l’IA générative facture de la cognition à la demande.
Résultat : les budgets deviennent plus imprévisibles et les directions financières s’affolent.
C’est dans ce contexte qu’une prise de position a fait mouche lors du sommet Mistral AI, début juin à Paris. Charles Holive, Chief AI Officer de BNP Paribas CIB, y a prononcé une phrase qui a immédiatement circulé dans les cercles IA : « Tokenmaxxing is a vanity metric. »
Traduction : consommer toujours plus de tokens pour prouver que l’IA « travaille » serait, selon lui, aussi trompeur que de mesurer la productivité d’une équipe au nombre de réunions tenues. Ce « tokenmaxxing », cette tendance à maximiser la consommation comme indicateur de succès, serait en réalité un écran de fumée masquant l’absence de résultats tangibles.
PromptOps : l’optimisation comme nouvelle discipline
Sa position est sans ambiguïté. Les seuls indicateurs qui vaillent sont les gains de productivité mesurables, l’amélioration des processus et la création de nouvelles capacités opérationnelles. Le reste n’est que bruit.
Dans les grandes entreprises, cette vision a donné naissance à une. nouvelle. approche: le PromptOps. Son principe ? Appliquer à l’IA les mêmes logiques de rationalisation que celles qui ont transformé la gestion du cloud il y a dix ans.
Concrètement, laisser tourner une fenêtre de contexte démesurée ou envoyer des historiques de conversation complets à chaque requête, c’est selon les praticiens du secteur l’équivalent de laisser des serveurs allumés le week-end pour rien.
L’enjeu du PromptOps est donc d’optimiser la structure même des requêtes, d’attribuer les coûts par équipe, de traquer les dépenses liées aux outils comme Claude Code ou GitHub Copilot. L’objectif final est de s’assurer que chaque euro dépensé en tokens produit un impact mesurable.
Le token comme preuve de la transformation
Mais tous ne partagent pas cette vision. Pour certaines directions métiers et équipes produit, une lecture radicalement différente prévaut. Pour eux, le vrai problème des entreprises françaises n’est pas la surconsommation d’IA mais son adoption encore anémique.
Les outils sont disponibles. Les licences sont payées. Mais les collaborateurs ne les utilisent pas…ou pas assez.
Dans ce contexte, une forte consommation de tokens n’apparait pas comme un gaspillage. C’est la preuve que les équipes s’approprient enfin les outils, explorent de nouveaux usages et font évoluer leurs pratiques.
Les retours terrain des programmes d’adoption vont dans ce sens. Les utilisateurs les plus actifs sont généralement ceux qui tirent le plus de valeur de l’IA. La répétition des usages crée un effet d’apprentissage organisationnel. Et les premières phases de déploiement, par nature peu optimisées, correspondent davantage à une phase d’exploration qu’à un gaspillage structurel.
Le débat dépasse aussi les frontières de la finance pour toucher la salle des machines.
FLOPS, tokens, ROI : la révolution des métriques
Les directions techniques l’ont compris. Les anciennes métriques matérielles ( la puissance brute des serveurs mesurée en FLOPS) ne permettent plus de raisonner sur le ROI d’une application IA.
L’enjeu pour un CTO n’est plus la taille de sa ferme de GPU mais le coût par million de tokens générés. Une révolution conceptuelle qui rebat les cartes de la comparaison entre fournisseurs et de l’architecture des systèmes.
C’est de cette tension entre optimisation et adoption qu’émerge une troisième approche, plus mature : la Value per Token (VPT). Ni maximiser, ni brider ; mais comprendre ce que chaque token produit réellement.
La formule est simple dans sa logique :
VPT = Valeur Métier / Tokens Consommés
Mais sa mise en œuvre est stratégique. Pour un service client, la valeur se mesure en tickets résolus sans escalade humaine. Pour une équipe juridique, en contrats analysés. Pour le marketing, en contenus personnalisés générés. Pour les développeurs, en fonctionnalités livrées ou en bugs corrigés.
Ce cadre, que certains appellent déjà les AI Unit Economics, permet de relier directement les dépenses IA aux résultats opérationnels. Et de sortir enfin de la guerre stérile entre ceux qui veulent couper les budgets et ceux qui veulent accélérer l’adoption.
Un débat sur la maturité IA des entreprises
La controverse sur le tokenmaxxing n’est pas un débat technique. C’est le révélateur d’une fracture dans le cycle de maturité de l’IA en entreprise.
Les partisans de la gouvernance parlent depuis une phase d’optimisation. Les défenseurs de l’adoption parlent depuis une phase d’expérimentation. Ils ont tous les deux raison ; mais pas au même stade.
La vraie question n’est donc pas de savoir s’il faut consommer plus ou moins de tokens. C’est de savoir à quelle étape se trouve l’organisation et quel signal le compteur de tokens est censé envoyer.
The post Tokenmaxxing : gaspillage ou moteur de la transformation IA ? appeared first on Silicon.fr.