AI与能源：数据证实了什么，又揭示了哪些细微差别

IA et énergie : ce que les chiffres confirment et ce qu’ils nuancent

Silicon.fr by Philippe Leroy 2026-05-25 09:56 Original

摘要
法国数字监管专家中心（PEReN）与Arcep的研究发现，AI模型的能耗并不单纯取决于参数规模，采用“专家混合”架构可平均节能45%，而推理模式可能使能耗增加92%以上且性能提升有限。测试涵盖阿里巴巴、谷歌、Meta、Mistral等23个模型，结论显示高性能与低能耗可以兼得，为AI选型提供了新视角。

PEReN联合Arcep发布的一项技术研究揭示了AI模型能耗的真相，打破多项常见认知。研究针对23款来自阿里、谷歌、Meta、Mistral等厂商的开放权重模型，在六项覆盖通用知识、医疗推理、代码生成、创意写作、图像理解和物理推理的基准上进行了测试，总实验产生0.229吨二氧化碳当量。

首要发现是，模型参数规模不可靠作为能耗指标。能量消耗最高的模型确实参数众多，但反之不然——某些大模型能耗与小得多的模型持平甚至更低。关键在混合专家架构（MoE）：此类模型每次请求仅激活神经网络的一部分，实测平均比同参数规模的密集模型节能45%。此外，8位量化能带来约39%的能效提升，数据来自GENCI的Jean Zay超算平台。

模型推理模式代价高昂。激活推理功能平均会增加92%的能耗，在代码生成基准HumanEval上能耗涨幅甚至高达849%，即近十倍的电力开销。然而收益并不对等：在SimpleQA短事实问答基准上，性能提升41%的同时能耗也增加41%。报告建议用户应事先评估推理模式是否适配任务，或直接关闭该功能。

专用模型同样未达预期。以医学、法律、编程等领域训练的专有版本，在开放权重模型中并未展现出领域内性能优势。原因有二：过度专精的训练任务限制了泛化能力；通用模型迭代迅速，专用模型更新频率低，很快被新版通用模型超越。因此，寻求开源模型的用户反而更适合选用最新的通用版本。

多模态模型在纯文本任务上的能耗和性能与纯文本模型相当，额外负担仅在提交图像处理时出现，此时能耗可能翻倍。

研究最关键的结论是：模型性能与能耗并无正比关系。更高能耗不保证更强性能，更节能的模型未必能力更差。测试中，能效最高与最低模型在相同硬件上的能耗差距可达4至5倍，这与同一模型在两种不同GPU设施上运行的差异相当。

局限方面，研究仅覆盖开放权重模型，GPT、Gemini等闭源旗舰模型仍是黑箱；仅纳入三款专用模型，数量不足以定论；基准测试未必反映日常对话实况。同时，研究未涉及芯片制造、数据中心修建、用水及模型初始训练等环节，而这些阶段往往占据AI环境足迹的大头。

Summary
A study by French regulators PEReN and Arcep reveals that Mixture of Experts models cut energy use by 45%, while reasoning modes can spike consumption by over 800% with little gain, challenging assumptions about AI efficiency. Testing 23 models from Alibaba, Google, Meta, Mistral, and others showed a 4-5x consumption gap between models, proving performance and energy sobriety aren't linked. The findings urge careful model selection to reduce environmental impact without sacrificing quality.

With a quarter of French adults now using generative AI daily and three-quarters at least weekly, the energy cost of this rapid adoption has drawn scrutiny. A new technical study by France’s Digital Regulation Expertise Hub (PEReN), in partnership with telecom regulator Arcep and released as part of its 2025 work programme, upends several common assumptions about AI’s energy appetite.

The first myth debunked: model size is not a reliable energy indicator. While the largest models are indeed the most energy-intensive, some large models consume as much as, or less than, much smaller ones. The key differentiator is the Mixture of Experts (MoE) architecture, which activates only a fraction of the neural network per query. On the Jean Zay supercomputer, MoE models used on average 45% less energy than dense models with the same total parameter count. Quantization to 8‑bit mode yielded another 39% average saving.

Reasoning models—those that break down complex problems step by step—are central to the commercial strategies of major AI players, but they exact a heavy energy toll. Activating reasoning mode increased consumption by 92% on average, and by a staggering 849% on code generation tasks (HumanEval benchmark). Yet the energy premium doesn’t always buy commensurate performance. On short factual questions (SimpleQA), a 41% performance gain came with a 41% consumption hike. The report advises users to first check whether a reasoning model fits their use case, or to disable the reasoning mode.

Domain-specific models (for medicine, law, programming) fared poorly. Among open-weight models tested, specialization did not guarantee stronger performance in their own fields. Narrow training can limit generalization, and fast-iterating generalist models quickly outpace their specialized counterparts. For open-source users, picking the most recent generalist model is often the better bet.

Multimodal models that handle both text and images perform on par with text-only versions on text tasks; only when images are actually processed do energy costs roughly double.

The study’s most counterintuitive finding: performance and energy consumption are not linked. Testing 23 models from over five providers (Alibaba, Google, Meta, Mistral, Z.ai, among others) on six benchmarks covering general knowledge, medical reasoning, code generation, creative writing, image understanding, and physical reasoning, researchers found the most energy-frugal models consumed four to five times less than the hungriest on constant hardware—a gap comparable to running the same model on two different GPU infrastructures. The entire experiment generated just 0.229 tCO2e.

The study has caveats. It only covered open-weight models; proprietary systems like GPT‑4 or Gemini remain black boxes. Only three specialized models were included, too few for definitive conclusions. Benchmarks don’t fully capture real-world interactions. Crucially, the analysis excludes lifecycle impacts—chip fabrication, data center construction, water use, and initial training—which can dominate overall environmental cost.

Résumé
Une étude du PEReN et de l’Arcep montre que l’architecture Mixture of Experts (MoE) et la quantification 8 bits réduisent la consommation énergétique des IA génératives jusqu’à 45 %, tandis que les modèles de raisonnement l’augmentent en moyenne de 92 % sans gain de performance proportionnel. Les tests, menés sur 23 modèles d’Alibaba, Google, Meta, Mistral ou Z.ai avec le supercalculateur Jean Zay, prouvent qu’un modèle sobre peut être aussi performant qu’un modèle énergivore. Ces conclusions bousculent les idées reçues et incitent à repenser le choix des modèles en entreprise pour allier efficacité et moindre impact.

Un quart des Français de plus de 18 ans utilisent désormais l’intelligence artificielle générative chaque jour. Les trois quarts y ont recours au moins une fois par semaine.

Derrière cette adoption fulgurante se pose la question du coût énergétique, assez doctement documentée, mais aussi sur le rapport avec la performance.

C’est précisément à cette question que s’est attaqué le Pôle d’Expertise de la Régulation Numérique (PEReN), dans une étude technique réalisée en partenariat avec l’Arcep et publiée dans le cadre de son programme de travail 2025.

Résultat : les idées reçues sur la consommation des modèles d’IA sont bousculées.

Première croyance déboulonnée : la taille d’un modèle d’IA n’est pas un indicateur fiable de sa consommation énergétique. Certes, les modèles les plus énergivores sont bien ceux qui comptent le plus grand nombre de paramètres. Mais l’inverse n’est pas vrai : certains modèles consomment autant, voire moins, que des modèles bien plus « petits ».

La clé réside dans l’architecture Mixture of Experts (MoE). Ces modèles sont conçus pour n’activer, lors de chaque requête, qu’une fraction de leur réseau neuronal total. Résultat spectaculaire mesuré par le PEReN : les modèles MoE consomment en moyenne 45 % de moins que des modèles classiques (dits « denses ») ayant le même nombre de paramètres total. Un levier d’efficacité considérable, encore largement sous-exploité dans le débat sur l’empreinte de l’IA.

La quantification s’avère également significative : le passage en mode 8 bits permet un gain moyen de 39 % sur la consommation, selon les mesures réalisées sur le supercalculateur Jean Zay du GENCI.

Le raisonnement se paie cher

L’autre enseignement majeur de l’étude concerne les modèles dits « de raisonnement », entraînés pour décomposer les problèmes complexes en plusieurs étapes avant de répondre. Ces modèles sont aujourd’hui au cœur de la stratégie commerciale des grands acteurs de l’IA. Mais leur coût énergétique est lourd.

Le PEReN a mesuré qu’en moyenne, activer le mode raisonnement augmente la consommation de 92 %. Et parfois bien davantage : sur des tâches de génération de code (benchmark HumanEval), l’effet moyen observé grimpe à +849 % par rapport à un modèle classique. En clair, demander à un modèle de « réfléchir » avant de répondre peut multiplier sa facture énergétique par près de dix.

Le problème est que ce surcroît de consommation ne se traduit pas toujours par un gain de qualité équivalent. Sur des questions factuelles courtes, le bénéfice du raisonnement est limité : + 41 % d’amélioration de performance pour + 41 % de consommation supplémentaire sur le benchmark SimpleQA. « Un utilisateur de LLM devrait s’assurer au préalable qu’un tel modèle est adapté à son cas d’usage, ou que le mode raisonnement est désactivé avant de l’utiliser », conclut le rapport.

La spécialisation, fausse bonne idée ?

L’étude se penche également sur les modèles spécialisés ; ces versions entraînées spécifiquement pour la médecine, le droit ou la programmation. La conclusion est cinglante : les modèles spécialisés étudiés ne garantissent pas de meilleures performances sur les tâches de leur domaine, du moins parmi les modèles open-weights disponibles aujourd’hui.

Deux facteurs expliquent ce paradoxe. D’abord, un modèle spécialisé peut être entraîné sur une tâche trop précise pour bien généraliser à l’ensemble de son domaine de spécialité.

Ensuite, et c’est là l’argument massue, le rythme d’innovation dans les modèles généralistes est tel que les versions spécialisées, publiées moins fréquemment, se retrouvent rapidement dépassées par des généralistes plus récents. Pour un utilisateur cherchant un modèle open-source, il peut donc être préférable d’opter pour le généraliste le plus récent.

Bonne nouvelle pour les utilisateurs de modèles capables de traiter à la fois du texte et des images. Sur des tâches purement textuelles, les modèles multimodaux affichent une consommation et des performances comparables à leurs homologues 100 % textuels. Le surcoût n’apparaît que lorsqu’on leur soumet effectivement des images. Et là, la consommation peut doubler.

Performance et sobriété ne s’opposent pas

C’est peut-être la conclusion la plus contre-intuitive et la plus prometteuse de l’étude.

Indépendamment de la spécialisation, de la multimodalité ou de l’activation d’un mode raisonnement, la performance d’un modèle n’est pas une fonction croissante de sa consommation énergétique. Dit autrement : un modèle plus sobre n’est pas forcément un modèle moins bon. Et un modèle très consommateur n’est pas forcément le plus performant.

Les chercheurs du PEReN ont ainsi testé 23 modèles développés par plus de cinq fournisseurs différents ( Alibaba, Google, Meta, Mistral, Z.ai notamment) sur six benchmarks couvrant des usages représentatifs du grand public (1). Au total, l’ensemble des expériences a généré 0,229 tCO2e en coûts CPU et GPU combinés.

Sur les critères comparés, l’écart de consommation entre les modèles les plus sobres et les plus énergivores atteint un facteur quatre à cinq à matériel constant. Un écart comparable, notent les auteurs, à ce que l’on peut observer en faisant tourner un même modèle sur deux infrastructures GPU différentes.

Ce que cette étude ne dit pas encore

Le PEReN est le premier à reconnaître les limites de ses travaux. L’étude se restreint aux modèles à poids ouverts quand les grands modèles propriétaires comme GPT ou Gemini en version complète restent une boîte noire.

Par ailleurs, seuls trois modèles spécialisés ont pu être inclus, nombre insuffisant pour tirer des conclusions définitives. Enfin, les benchmarks, aussi rigoureux soient-ils, ne reflètent pas toujours la réalité des interactions quotidiennes avec un LLM.

L’étude fait également l’impasse sur l’ensemble du cycle de vie de l’IA : fabrication des puces, construction des data centers, consommation d’eau, entraînement initial des modèles. Des postes qui, dans certains cas, représentent l’essentiel de l’empreinte environnementale globale.

(1) Questions de culture générale, raisonnement médical, génération de code, écriture créative, compréhension d’images, raisonnement physique.

The post IA et énergie : ce que les chiffres confirment et ce qu’ils nuancent appeared first on Silicon.fr.

AI Insight

中文 EN

Core Point

PEReN研究推翻AI能耗迷思：模型大小非能耗可靠指标，MoE架构节能45%，量化节能39%，但推理模式能耗骤增92%起，性能与能耗无必然正比。

Key Players

PEReN — 法国数字监管专家中心，开展AI能耗技术研究，巴黎。
Arcep — 法国电子通信与邮政监管局，合作发布研究，巴黎。
GENCI — 法国国家超级计算机构，提供Jean Zay超算进行实测，巴黎。

Industry Impact

Computing/AI: 高 — 揭示架构选择（MoE）与量化是节能关键，可能推动模型设计转向能效优先。
ICT: 高 — 直接影响数据中心能效评估与绿色云服务策略，推理模式的“天价”能耗冲击商业化算力成本。
Energy: 中 — 为AI用电负荷预测提供新基准，削弱“越强越耗电”的简单关联，但推理模式可能抵消节能收益。

Tracking

强烈追踪 — Arcep背书的监管视角研究或催化欧盟AI能效政策，且结论与行业叙事相悖，需监测企业战略与用户实践转向。

Highlights

Local Research

Related Companies

No companies linked yet

AI Processing

2026-05-25 10:52

deepseek / deepseek-v4-pro