迪卡侬利用LLM技术丰富其媒体库元数据

Decathlon peuple les métadonnées de sa médiathèque à base de LLM

Silicon.fr by Clément Bohic 2026-04-14 14:25 Original
摘要
迪卡侬使用AWS Bedrock的Claude和Nova大语言模型,以批量推理方式为约200万张产品图片自动生成描述和SEO关键词,旨在提升数字资产管理效率并满足欧盟无障碍指令要求。该项目采用异步处理流程,将图片压缩至300像素以控制成本,预计每年可节省120万欧元内容制作开支,而处理全部图片的LLM成本仅为3229欧元。

迪卡侬利用LLM批量生成图像元数据,优化数字资产管理

迪卡侬近期完成了“图像元数据生成”项目,自2025年底投入生产,旨在为其包含近2000万资产的媒体库(涵盖传播、品牌标识和产品展示三类内容)丰富元数据。该项目重点处理了约200万张产品图片,自动生成描述、标签和SEO关键词,以提升内容利用效率并满足欧盟无障碍访问指令要求。

技术挑战与批量推理方案

由于团队共享AWS配额(每分钟请求数和令牌数),若实时处理200万张图像将导致系统饱和。ML工程师Lévi Bernadine指出,同步单次调用的原型验证在规模化时几乎成为“反模式”,即使并行处理也会因共享配额产生队列堵塞、超时和拒绝等问题。此外,还需管理状态以避免单点错误影响整批任务,并控制成本——图像输入消耗的令牌数与其尺寸成正比。

为此,迪卡侬转向异步批量推理方案:将图像统一调整为300像素高或宽(保持比例),并以85%质量进行JPEG压缩,使文件平均体积减少96%。该方案避免占用其他团队系统资源,成本比实时处理降低一半,且具备原生错误处理能力,但需接受任务执行时间的不确定性。

优化提示词与工作流设计

初期尝试为描述和关键词分别设计提示词,但因结果不一致而改用单一提示词,既提升一致性又减少API调用。提示词根据图像类型分为两版:产品静物图侧重物体描述;运动场景图则聚焦动作、氛围与情感。

系统采用双工作流架构:

  • 预处理流程每日执行一次,与数据湖表更新周期同步。包括从数字资产管理系统中定位新增或更新资产、通过CDN下载原图、为Anthropic的Claude和亚马逊的Nova模型准备提示词、压缩图像,并将基础64编码图像与提示词存入JSONL文件,同时用DynamoDB记录状态。
  • 处理流程每小时并行执行,从状态库中提取标记为“待处理”的图像,分批打包(每批500-2000张)发送至Bedrock。通过IAM桥接,Batch API将结果(英法双语描述与关键词)输出至S3。Airflow每半小时检查任务状态(超时设为48小时),完成后触发后处理并更新数字资产管理系统。

成本效益与扩展应用

该无服务器系统日均处理2.5万张图像,验证通过率可达93%。项目显著提升了数字资产管理系统内的搜索效率(减少图像重复)、优化搜索引擎索引,并加强无障碍合规。迪卡侬估算,相比每年约700万欧元的传统内容创建、修正与翻译固定成本,该项目有望实现120万欧元的年节约。

成本方面,使用Nova Pro模型批量处理200万张图像总计花费3229欧元(输入令牌23.1亿,占85%图像像素数据,计2125欧元;输出令牌3亿,计1104欧元)。若使用Claude Sonnet 4.5,成本将升至约1.8万欧元;而若采用1200像素全分辨率实时处理,成本将飙升至3万欧元(Nova Pro)或16万欧元(Claude Sonnet)。

迪卡侬正在探索更多应用场景,包括识别可辨认的模特肖像,以及与电商团队协作进行图像和描述的A/B测试。

Summary
Decathlon developed a batch processing system using AWS Bedrock and Anthropic's Claude/Amazon's Nova LLMs to generate SEO metadata and accessibility descriptions for 2 million product images, overcoming shared account quota limitations. The serverless pipeline processes 25,000 images daily, cutting costs by half compared to on-demand processing and potentially saving €1.2 million annually versus manual metadata creation. The solution involved resizing images to 300px, using unified prompts, and cost €3,229 with Nova Pro versus an estimated €30,000 for on-demand processing.

Decathlon has deployed a large-scale LLM-powered system to automatically generate metadata for its digital asset library, achieving significant cost savings and operational efficiencies. The "Image Metadata Generation" project, in production since late 2025, processes product photos to create SEO tags, keywords, and descriptions, enhancing both content discoverability and compliance with European accessibility directives.

The initiative targeted approximately 2 million product images within Decathlon's broader media library of nearly 20 million assets, which includes communication materials, brand identity content, and product presentation visuals.

Overcoming Scale and Cost Challenges with Batch Inference

Faced with shared AWS quotas for inference (requests and tokens per minute), a synchronous, on-demand processing approach was deemed unfeasible, risking system saturation. Lévi Bernadine, ML Engineer at Decathlon Digital, noted that even with parallelization, this method created bottlenecks with queues, timeouts, and rejections.

The solution was an asynchronous, batch inference pipeline. This approach halved costs compared to on-demand processing, avoided blocking shared system resources, and provided native error handling, albeit without execution time guarantees. To optimize further, images were resized to a maximum of 300 pixels in height or width (maintaining aspect ratio) and compressed to JPEG quality 85, resulting in files that were on average 96% lighter than the originals.

A Streamlined Two-Variant Prompt Strategy

Initially testing separate prompts for descriptions and keywords, the team found results were inconsistent. They consolidated into a single prompt per image, which also reduced API calls. Two prompt variants were developed: one for product packshots and another for contextual sport practice photos, which aim to describe action, atmosphere, and emotion.

The Processing Workflow: Daily Prep, Hourly Batches

The system operates on two serverless workflows:

1. A daily preprocessing job aligns with data lake updates. It identifies new or updated assets in the Digital Asset Management (DAM) system, downloads originals, prepares prompts for Anthropic's Claude and Amazon's Nova models, resizes/compresses images, and stores them alongside JSONL input files in S3. A DynamoDB registry tracks state.

2. An hourly batch processing job groups 500-2,000 "staging" images into batches. These are sent via IAM bridge to Amazon Bedrock's Batch API, with results (descriptions and keywords in English and French) pushed to S3. Airflow monitors job status every 30 minutes with a 48-hour timeout. Upon completion, a post-processing workflow updates the DAM.

Substantial Savings and Future Use Cases

The system can process 25,000 images daily, with validation rates reported as high as 93% across different evaluators and tool categories. Decathlon estimates the project could generate annual savings of €1.2 million, compared to roughly €7 million in fixed annual costs previously spent on creating, correcting, and translating this content.

The LLM cost for processing all 2 million images was €3,229 using Amazon Nova Pro in batch mode at 300px. This broke down to €2,125 for input (2.31 billion tokens, 85% of which were image pixels) and €1,104 for output (300 million tokens). Using Claude Sonnet 4.5 would have cost approximately €18,000. On-demand processing at full 1200px resolution was projected to cost €30,000 with Nova Pro and €160,000 with Claude Sonnet.

Beyond metadata generation, Decathlon is exploring additional use cases, including identifying the presence of recognizable models in images and conducting A/B tests on images and descriptions in collaboration with e-commerce teams.

Résumé
Decathlon a déployé un système d'enrichissement automatisé des métadonnées pour sa médiathèque de 20 millions d'assets, en traitant par lots 2 millions d'images via des LLM (Claude d'Anthropic et Nova d'Amazon) sur AWS Bedrock. Ce traitement asynchrone et optimisé (images redimensionnées à 300px) a permis de réduire les coûts à 3 229€ et d'éviter la saturation des quotas AWS partagés, tout en générant des descriptions et mots-clés pour améliorer la recherche et l'accessibilité. Le projet, piloté par l'ingénieur ML Lévi Bernadine, pourrait générer 1,2 million d'euros d'économies annuelles par rapport aux coûts manuels existants.

Avoir un seul compte AWS pour l’industrialisation implique des quotas mutualisés, notamment pour l’inférence.

Decathlon a dû faire avec dans le cadre de son projet Image Metadata Generation. En production depuis fin 2025, il contribue à enrichir la médiathèque de l’entreprise. Celle-ci contient près de 20 millions d’assets, de 3 types : communication, identité de marque et présentation des produits.

Image Metadata Generation a englobé les photos de produits (environ 2 millions). Il s’agissait de générer des descriptions ainsi que des balises et des mots-clés SEO. Tant pour favoriser l’exploitation de ces contenus que la conformité à la directive européenne sur l’accessibilité.

Inférence par lots à 300 pixels

Avec les quotas partagés entre équipes (requêtes et tokens par minute), traiter 2 millions d’images à la demande aurait créé une saturation.

Ce ne fut pas le seul défi. Le PoC, effectué avec une centaine d’images, avait permis de valider un traitement séquentiel. Mais à l’échelle, une invocation synchrone et unitaire « était presque un antipattern », explique Lévi Bernadine, ML engineer chez Decathlon Digital. Même en parallélisant, avec les quotas partagés, on créait des goulets d’étranglement : files d’attente, timeouts, rejets…

Il fallait aussi assurer une gestion d’état pour éviter qu’une erreur fasse planter tout un lot. Et maîtriser les coûts : une image en entrée consomment un nombre de tokens proportionnel à sa taille.

Dans ces conditions, Decathlon a opté pour un traitement asynchrone, avec de l’inférence par lots. Ce traitement en arrière-plan ne bloque pas les ressources système des autres équipes, réduit le coût de moitié par rapport au traitement à la demande et embarque une gestion native des erreurs. En contrepartie, il a fallu gérer l’absence de garantie sur le délai d’exécution des jobs.

Les images ont été redimensionnées à 300 pixels en hauteur ou en largeur (ratio conservé), avec une compression JPEG qualité 85. Les résultats étaient en moyenne 96 % plus légers que les fichiers d’origine.

Un prompt, deux variantes

Decathlon a expérimenté des prompts distincts pour les descriptions et les mots-clés. Constatant que les résultats étaient peu cohérents, il a finalement opté pour un prompt unique, qui avait aussi l’avantage de ne consommer qu’une requête API.

Ce prompt a deux variantes, assignés selon la nature de l’image. D’un côté, les packshots produits. De l’autre, les photos de pratiques sportives (images contextuelles : on cherche à décrire l’action, l’atmosphère, l’émotion…).

Prétraitement quotidien, traitement horaire

Le workflow de prétraitement s’enclenche une fois par jour. « Cela correspond à la période de mise à jour des tables dans nos data lakes », confie Lévi Bernadine à l’occasion de l’AWS Summit Paris. Ses principales composantes :

Localiser, dans le DAM, les assets pas encore passés dans le générateur ou mis à jour depuis

Les télécharger en qualité originale via le CDN Decathlon

Préparer les prompts pour les modèles Claude (Anthropic) et Nova (Amazon)

Redimensionner et compresser

Stocker les images, ainsi que les fichiers d’entrée (JSONL comprenant l’image compressée encodée en base64 et le prompt adapté)

Suivi d’état (registre DynamoDB)

Le workflow de traitement s’exécute en parallèle, toutes les heures. Il contrôle, dans le registre, les images prêtes à être traitées (statut « staging »). Elles sont groupées dans des lots de 500 à 2000 images. L’ensemble est transmis à Bedrock – avec un pont IAM – et l’API Batch pousse les résultats dans S3 (descriptions + mots-clés en anglais et en français). Airflow vérifie le statut toutes les demi-heures (timeout de 48 heures). Lorsqu’un job est terminé, le post-traitement s’enclenche et le DAM (Digital Asset Management) est mis à jour.

3200 € de coûts LLM… pour 1,2 M€ d’économies ?

Ce système serverless est capable de traiter 25 000 images par jour. En matière de performances, on nous annonce des taux de validation « jusqu’à 93 % à travers différents évaluateurs et catégories d’outils ».

Image Metadata Generation facilite la recherche dans le DAM (réduction de la duplication d’images), améliore l’indexation dans les moteurs de recherche et favorise la conformité en termes d’accessibilité. Decathlon estime que le projet a le potentiel d’engendrer 1,2 M€ d’économies annuelles. À comparer aux quelque 7 M€ de frais fixes annuels qu’il supporte pour créer, corriger et traduire ces contenus.

Lévi Bernadine évoque un autre cas d’usage, en cours d’exploration : l’identification de la présence de mannequins reconnaissables. Il mentionne aussi la possibilité d’A/B testing des images et des descriptions en lien avec les équipes e-commerce.

En batch à 300px avec Nova Pro, il en a coûté 3229 € pour traiter les 2 millions d’images. Plus précisément, 2125 € en entrée (2,31 milliards de tokens, dont 85 % représentant les pixels de l’image) et 1104 € en sortie (300 millions de tokens). Avec Claude Sonnet 4.5, la facture se serait élevée à environ 18 000 €.

À la demande et en pleine résolution (1200px), il aurait fallu compter 30 000 € avec Nova Pro et 160 000 € avec Claude Sonnet.

* Sur les 2,33 milliards de tokens en entrée, 85 % représentent les pixels des images.

Illustration principale générée par IA

The post Decathlon peuple les métadonnées de sa médiathèque à base de LLM appeared first on Silicon.fr.

AI Insight
Core Point

Decathlon automated metadata generation for 2 million product images using batch LLM inference, cutting costs by ~95% versus on-demand processing and enabling significant operational savings.

Key Players

Decathlon Digital — In-house tech division of the global sporting goods retailer, based in France.

Amazon Web Services (AWS) — Cloud provider (Bedrock, Batch, S3), based in the US.

Anthropic — AI company providing the Claude LLM, based in the US.

Industry Impact
  • Retail/E-commerce: High — Automates content tagging for SEO, accessibility, and asset management.
  • Computing/AI: Medium — Showcases scalable, cost-optimized batch inference patterns for enterprise AI.
Tracking

Monitor — Demonstrates a replicable, cost-effective blueprint for large-scale enterprise content automation using multimodal LLMs.

Related Companies
positive
Anthropic
startup
positive
positive
positive
positive
positive
neutral
positive
positive
Categories
人工智能 软件 云计算
AI Processing
2026-04-14 22:02
deepseek / deepseek-chat