互联网正在慢慢接纳那些旨在向人工智能开放的基础构件。

Le web s’approprie lentement les briques censées l’ouvrir aux IA

Silicon.fr by Clément Bohic 2026-05-05 08:00 Original
摘要
根据Cloudflare数据,目前超过52%的爬虫专门用于训练人工智能模型,这一比例在过去一年持续上升,GPTBot是各网站 robots.txt 中最常被屏蔽但也常被部分授权的机器人。Cloudflare对十万多个域名的分析显示,仅有17%的网站集成了AI相关规则,而Markdown协商、内容信号等新技术采用率极低,表明全球网站对AI智能体的适应进程仍十分缓慢。

根据Cloudflare网络数据,如今超过一半的爬虫流量专用于AI模型训练。最近7天,这类“训练专用”机器人的占比已突破52%,远高于搜索类(8%)和混合目的(37%)的份额。这一比例还在持续攀升:过去3个月平均约49%,6个月降至44%,12个月前尚不足40%。

在Cloudflare可分析的“Top 10 000”域名中,4 094份robots.txt文件揭示了网站对AI爬虫的明确立场。GPTBot成为最常被部分或完全拦截的爬虫,紧随其后的是Common Crawl的CCBot、ClaudeBot、Google-Extended以及字节跳动的Bytespider。有趣的是,GPTBot同时也是第三常被放行的机器人,仅次于PerplexityBot和用于响应用户实时请求的ChatGPT-User。

不同行业网站的偏好差异明显:科技类网站最常拦截GPTBot(70次出现),却最常授权PerplexityBot(58次)。商业类网站主要阻挡GPTBot(55次)和Amazonbot(51次),却也给予GPTBot最高频的许可(46次)。电商类中,Googlebot被封锁频次最高(44次),但获准次数同样最高(35次)。新闻媒体类对CCBot(81次)、GPTBot(76次)和ClaudeBot(71次)的抵御尤为强烈,整体授权数量稀少且多为部分许可。

为适应智能代理时代,网站正缓慢却坚定地引入新技术栈。Cloudflare针对109,415个主流域名(取样自前20万)的评估显示:78%已部署robots.txt,63%拥有站点地图;17%在robots.txt中嵌入了专门的AI规则,9%利用Link标头序列化元数据链接,6%实现了源端HTML到Markdown的协商式转换(利于AI解析),另有约6%支持OAuth发现机制。Google力推的“通用商务协议”采用率刚过5%,Cloudflare自家的“内容信号”技术(通过扩充robots.txt,以三个信号分别声明内容可否用于搜索索引、实时生成及模型训练)则占4.5%。而API目录、OAuth受保护资源、MCP服务器卡片、Web Bot Auth、技能代理、A2A代理卡片、WebMCP以及x402支付协议等更前沿的组件,采纳率几乎为零(<0.1%)。

分行业看,科技领域在AI规则(4.6%)和Link标头(5.2%)方面走在前列;购物拍卖类在内容信号(4.2%)、Markdown协商(4.1%)和通用商务协议(4.1%)上领先;电商则对通用商务协议和OAuth发现各有4%的部署。新闻媒体在多项技术上仍明显滞后。

ChatGPT的影响已直抵基础网络设施:根据1.1.1.1 DNS解析流量,chatgpt.com曾在4月中旬短暂跻身全球域名前十;OpenAI整体服务自2月中旬起持续入列全球及法国前十,维持约两个月。与此同时,.ai顶级域在过去12个月成为第13大流行的TLD,这个归属人口不足2万的加勒比岛屿安圭拉的国别域名,在今年3月注册量已突破百万大关。

Summary
Cloudflare reports that over 52% of bots on its network in the past week are dedicated to AI training, with GPTBot being the most blocked bot in robots.txt files. Adoption of AI-readiness technologies—like AI-specific robots.txt rules, Content Signals, and Markdown negotiation—remains in the low single digits among top domains, while ChatGPT briefly ranked among the top 10 most popular DNS queries. This highlights a growing dominance of AI crawlers amid the web’s sluggish adaptation to agentic traffic.

Over half of the bots crawling the web from Cloudflare’s network are now dedicated to training AI models, a sharp shift that underscores the escalating demands of machine learning on web infrastructure. In the past week, bots built specifically for model training accounted for more than 52% of all automated traffic observed, compared to 8% focused on search indexing and 37% serving mixed purposes. The trend is accelerating: the three-month average stands at 49%, the six-month at 44%, and the twelve-month below 40%. These figures, drawn from Cloudflare’s global network—which the company says touches roughly 20% of all websites—signal a fundamental change in why and how the web is being scraped.

An analysis of 4,094 robots.txt files on the top 10,000 domains connected to Cloudflare reveals the tension between site owners and AI crawlers. GPTBot (OpenAI) is the most frequently blocked bot, appearing in restrictions at least partial; it is followed by CCBot (Common Crawl), ClaudeBot (Anthropic), Google-Extended, and Bytespider (ByteDance). Yet GPTBot also ranks as the third most often permitted bot, behind PerplexityBot and ChatGPT-User, which act on direct user requests rather than background crawling. The blocking patterns vary by industry. On technology sites (926 files), GPTBot is the most blocked, followed by CCBot and ClaudeBot, while PerplexityBot is the most authorized. In business (797 files), Amazonbot joins GPTBot and ClaudeBot as top blocks, and GPTBot remains the most allowed. E-commerce (291 files) is unusual: Googlebot is both the most blocked and the most permitted, reflecting the sector’s conflicting interest in search visibility versus content scraping. News and media outlets (183 files) overwhelmingly block CCBot, GPTBot, and ClaudeBot, and they grant few permissions—often partial—to any bot.

Websites are slowly adopting technical standards designed to govern AI access, but adoption remains modest outside basic mechanisms. Among a sample of 109,415 domains from the top 200,000, 78% have a robots.txt file and 63% provide a sitemap. Only 17% have integrated AI-specific rules within robots.txt. More advanced building blocks see even lower uptake: 9% use Link headers to point to resource metadata, 6% support Markdown negotiation (a Cloudflare-originated method to serve HTML as Markdown via content negotiation headers), and 6% have implemented OAuth discovery metadata. Google’s Universal Commerce Protocol, aimed at agentic shopping, is present on just over 5% of sites, while Cloudflare’s Content Signals—a robots.txt extension to specify whether content may be indexed, used for real-time responses, or employed for training—sits at 4.5%. A cluster of other emerging technologies—API catalogs, Model Context Protocol (MCP) server cards, Agent-to-Agent (A2A) cards, WebMCP, the x402 payment protocol, and bot authentication via signatures—each holds an adoption rate below 0.1%.

Sector-level breakdowns show the Technology category leads in implementing AI rules (4.6%), Link headers (5.2%), Content Signals (1.6%), and Markdown negotiation (1.5%). Entertainment sites adopt AI rules at 5.8%, but other figures are lower. Shopping/auctions and e-commerce show modest adoption of Commerce Protocol (around 4%) and Markdown negotiation (4.1% each), while education, society, and automotive sites lag near or below 2% across all measures. News/media, despite blocking many bots, has only 2.2% AI rule penetration.

Meanwhile, ChatGPT’s consumer footprint briefly rivalled the web’s most popular destinations. Based on DNS resolver traffic to 1.1.1.1, chatgpt.com entered the global top 10 domains around mid-April. The broader ChatGPT/OpenAI service first appeared in the top 10 worldwide in mid-February and stayed there until mid-April, a pattern mirrored in France. Separately, the .ai top-level domain—originally assigned to Anguilla—ranked as the 13th most popular TLD by unique clients over the past year, reaching one million registered domains in March.

The data paint a picture of a web in transition: AI crawlers are flooding sites, yet the protocols meant to manage them remain niche, and even basic robots.txt rules are slow to catch up. The implication is that while awareness of AI’s impact on web traffic is growing, deliberate technical adoption lags far behind.

Résumé
Selon Cloudflare, plus de 52 % des bots détectés sur son réseau sont désormais dédiés à l’entraînement d’IA, et GPTBot est à la fois le plus bloqué et l’un des plus autorisés dans les fichiers robots.txt des grands sites. Malgré cette pression, l’adoption de technologies facilitant l’accès des agents IA (négociation Markdown, Content Signals,Universal Commerce Protocol…) reste marginale, avec des taux souvent inférieurs à 10 %, tandis que chatgpt.com a brièvement figuré parmi les dix domaines les plus fréquentés au monde.

Désormais, plus de la moitié des bots sont spécifiquement destinés à entraîner des IA.

Cette statistique ne vaut peut-être pas pour le web dans son entièreté. Elle vaut en tout cas pour le réseau Cloudflare*. Sur les 7 derniers jours, le taux de bots « spécial entraînement » a dépassé les 52 %, contre 8 % dédiés à la recherche et 37 % ayant des finalités mixtes.

Cette part est en progression. Si on étend la fenêtre aux 3 derniers mois, elle avoisine 49 %. En élargissant sur les 6 derniers mois, elle tombe autour de 44 %. Et sur les 12 derniers mois, sous les 40 %.

GPTBot, plus bloqué que les autres dans robots.txt

Sur le « top 10 000 » des domaines connectés à son réseau, Cloudflare a pu analyser 4094 fichiers robots.txt.

GPTBot y est le bot le plus souvent bloqué (au moins partiellement). Suivent CCBot (de Common Crawl), ClaudeBot, Google-Extended et Bytespider (de ByteDance, éditeur de TikTok).

GPTBot est, en même temps, le troisième bot le plus souvent autorisé (au moins partiellement), devant PerplexityBot et ChatGPT-User (qui visitent tous deux des pages web en réponse à des requêtes d’utilisateurs).

Perplexity, assez souvent autorisé à crawler

Sur les sites étiquetés « Technologie » (926 fichiers robots.txt), on bloque surtout GPTBot (70 occurrences), CCBot (67) et ClaudeBot (59).

On autorise avant tout PerplexityBot (58), GPTBot (57) et Googlebot (52).

En catégorie « Business » (797 fichiers), on bloque avant tout GPTBot (55), Amazonbot (51) et ClaudeBot (50).

On autorise essentiellement GPTBot (46), Googlebot (42) et PerplexityBot (41).

En catégorie « E-commerce » (291 fichiers), les plus bloqués sont Googlebot (44), ClaudeBot (40) et GPTBot (40).

Les plus autorisés sont Googlebot (35), bingbot (20) et OAI-SearchBot (20 ; dédié à l’indexation de contenus pour ChatGPT).

En catégorie « Actualités/Médias » (183 fichiers), les blocages portent principalement sur CCBot (81), GPTBot (76) et ClaudeBot (71). Les autorisations, bien moins nombreuses, sur Googlebot (22), OAI-SearchBot (19) et GPTBot (19). Elles sont souvent partielles.

Les sites web s’adaptent – doucement – aux IA

Cloudflare propose un outil pour évaluer si un site est « prêt pour les agents ». Parmi les « 200 000 principaux domaines » testés, il en a retenu un échantillon de 109 415 et y a mesuré le niveau d’implémentation de diverses technologies.

78 % de ces domaines ont un fichier robots.txt ; 63 %, un sitemap.

Ils sont 17 % à avoir intégré des règles IA dans robots.txt. 9 % exploitent les en-têtes Link, qui permettent de sérialiser plusieurs liens – et ainsi, typiquement, de pointer vers des métadonnées relatives à la ressource demandée.

On tombe à 6 % pour la négociation Markdown. Il s’agit d’une initiative de Cloudflare. Le principe : exploiter les en-têtes de négociation de contenu pour effectuer, à la source, une conversion du HTML en Markdown, format plus adapté aux IA.

On est également autour de 6 % pour la découverte OAuth. La spec sous-jacente (RFC 8414, Authorization Server Metadata) permet au client de rechercher les informations nécessaires pour interagir avec un serveur OAuth.

L’Universal Commerce Protocol, que Google propose pour encadrer le commerce agentique, a un taux d’adhésion d’un peu plus de 5 %. On en est à 4,5 % pour une autre techno made in Cloudflare : Content Signals. Cette extension de robots.txt implémente un mécanisme pour expliquer aux systèmes automatisés comment utiliser du contenu. Elle s’appuie sur trois signaux pour autoriser respectivement la construction d’un index de recherche, l’exploitation du contenu en tant qu’input pour des réponses générées en temps réel et son utilisation pour l’entraînement ou le fine-tuning.

Skills, cartes A2A et MCP, catalogues d’API… Une adoption marginale

L’adhésion est quasi nulle (< 0,1 %) pour les briques suivantes :

Catalogues d’API

OAuth Protected Resource (RFC 9728, qui permet d’obtenir les infos nécessaires pour interagir avec une ressource protégée)

Cartes de serveur MCP

Web Bot Auth (origine Cloudflare ; méthode d’authentification des bots par signature)

Skills pour agents

Cartes d’agents A2A

WebMCP (bibliothèque JavaScript pour exposer les fonctionnalités de pages web aux agents IA directement dans les navigateurs)

x402 (protocole de paiement s’appuyant sur le code HTTP 402)

Cloudflare a catégorisé les 109 415 domaines en attribuant à chacun une ou plusieurs étiquettes sectorielles. Ci-dessous, un aperçu de l’adoption des différentes technologies dans les dix catégories les plus fournies. Nous nous limitons à celles pour lesquelles le taux atteint au moins 1 %.

Règles IA

En-têtes Link

Content Signals

Négociation Markdown

Universal Commece Protocol

Découverte OAuth

Technologie

(46 239 domaines)

4,6 %

5,2 %

1,6 %

1,5 %

Business/économie (25 257)

2,5 %

3,3 %

1, 2%

Divertissement (23 747)

5,8 %

1,9 %

1,2 %

Business (19 768)

1,9 %

2,8 %

1,1 %

Shopping/enchères (18 530)

3,1 %

4,2 %

4,1 %

4,1 %

E-commerce (15 964)

2,5 %

4,1 %

4,1 %

4 %

Éducation (14 829)

2,4 %

1,1 %

Société/lifestyle (13 716)

2,2 %

3,2 %

3,2 %

3,3 %

Automobile (7834)

1,8 %

Actualités/médias (6951)

2,2 %

ChatGPT, un temps dans le top 10 des services les plus fréquentés

Sur la base du trafic vers le résolveur DNS 1.1.1.1, chatgpt.com a brièvement fait partie des 10 domaines les plus populaires, vers la mi-avril.

Si on trie par services, ChatGPT/OpenAI est apparu dans le top mondial 10 mi-février. Il s’y est globalement maintenu jusqu’à mi-avril. La situation est similaire sur le périmètre France.

Si on mesure le nombre de clients uniques connectés, le .ai a été, sur les 12 derniers mois, le 13e TLD le plus populaire. Créé en 1995, il est rattaché à Anguila, territoire britannique des Caraïbes de moins de 20 000 habitants. En mars, il a atteint le million de domaines enregistrés.

* Cloudflare affirme qu’environ 20 % du web est connecté à son réseau.

Illustration principale générée par IA

The post Le web s’approprie lentement les briques censées l’ouvrir aux IA appeared first on Silicon.fr.

AI Insight
Core Point

Over half of bot traffic now targets AI training, but adoption of AI-friendly web standards (like robots.txt AI rules) remains below 20% on top domains, exposing slow infrastructure adaptation amid rising crawling pressure.

Key Players
  • Cloudflare — CDN and internet security firm, US; analyzed bot traffic and standard adoption across its network.
  • OpenAI — AI lab, US; its GPTBot is the most blocked and third-most allowed crawler on top sites.
  • Anthropic — AI safety company, US; ClaudeBot heavily blocked, especially on tech and news sites.
  • Perplexity — AI‑powered answer engine, US; PerplexityBot frequently allowed on tech and business domains.
  • Google — multinational tech company, US; Googlebot and Google‑Extended widely managed, often blocked on e‑commerce.
  • ByteDance — Chinese internet conglomerate; Bytespider (TikTok parent crawler) among top blocked on key domains.
  • Common Crawl — non‑profit web archive, US; CCBot frequently blocked by news and media sites.
Industry Impact
  • ICT: High — shift in bot traffic composition and slow uptake of AI‑enabling protocols reshape web infrastructure norms.
  • Computing/AI: High — blocking patterns directly control training data access for leading AI models.
  • Media: Medium — news sites aggressively block AI crawlers, impacting real‑time data availability for models.
Tracking

[Strongly track] — Rapid rise of AI training bots and hesitant standard adoption signal an unfolding tug‑of‑war that could redraw web accessibility and AI data sourcing.

Related Companies

No companies linked yet

Categories
人工智能 软件 网络安全
AI Processing
2026-05-05 13:28
deepseek / deepseek-v4-pro