在 Mistral AI,OCR 功能日益丰富,但这是有代价的。

Chez Mistral AI, l’OCR s’enrichit, mais cela a un prix

Silicon.fr by Clément Bohic 2026-06-24 12:20 Original
摘要
Mistral AI 的 OCR 服务价格随代际升级逐步上涨,最新第四代每千页收费 4 美元,而 Document AI 系列也提至 5 美元。新版本在功能上持续增强,引入块级提取、置信度评分及更多基准对比,旨在深化文档分析与 AI 代理集成。尽管成本增加,Mistral AI 正通过扩展标注能力与多模型对比,强化其文档智能方案的技术竞争力。

Mistral AI的OCR服务价格持续攀升,但其功能也在同步扩展。首代模型于2025年3月推出,定价为每千页1美元(不含批处理),2025年5月发布的第二代维持原价;但2025年12月到来的Mistral OCR 3价格翻倍至2美元,最新发布的Mistral OCR 4(已上线API)则进一步上调到4美元。

费用上涨背后,是能力的不断叠加。初代模型即强调多语言(十余种语言)、多模态(文本与图像)及多样格式支持(表格、数学公式等),并提供了基于JSON schema的结构化抽取系统。这套标注功能与基础OCR共同构成了Document AI的骨架,第二代发布时顺势推出这一品牌,主打与Mistral其他大语言模型的集成,实现自然语言问答式分析。2025年10月,整套方案被归入Mistral Studio体系。

自Mistral OCR 3起,用户可选择表格抽取格式(HTML或Markdown),并能单独提取页眉页脚。Mistral OCR 4新增了默认关闭的include_blocks参数,它会用边界框标定页面元素,并按类型分类(段落、标题、列表、表格、图像、公式、题注、代码块、引用、签名等)。该功能可处理输出模式,也支持自定义提示,旨在为AI智能体提供结构化原语。该特性依托Mistral Small等专用模型,属于Document AI家族,后者已单独定价——由原来的每千页3美元涨至5美元。

另一项新变化是逐页、逐词提供置信度评分。在性能指标上,Mistral AI首次公开提及第三方基准OlmOCRBench和OmniDocBench,同时指出这些基准容易将正确输出判错,原因可能包括公式切分、多栏文档的阅读顺序,甚至真实标注中的拼写错误、遗漏文本或遮罩区域转录错误等。

与初代对比的模型包括Google Document AI、Azure OCR、GPT-4o及多款Gemini模型。Mistral OCR 4则与更多专用模型进行了比较,如Chandra OCR 2、Mineru Pro、PaddleOCR VL、GLM OCR、DeepSeek OCR,并在12种语言上进行了人类偏好测试,对比对象涵盖Amazon Textract、Azure Document Intelligence、Gemini 3.1 Pro Preview、GPT-5.5 Pro和Databricks(未具体指明模型)。此外,自初代起就提供本地部署选项,最初承诺单GPU每分钟可处理多达2000页。

Summary
Mistral AI has launched Mistral OCR 4 at $4 per 1,000 pages, doubling the price of its previous version while adding block-level extraction, confidence scores, and integration with the Document AI suite (now $5 per 1,000 pages). The French startup now provides more detailed third-party benchmarks against competitors like Google, Azure, and specialized OCR models, signaling a push to monetize richer document understanding features.

Mistral AI has raised the price of its OCR service once again with the release of Mistral OCR 4, now costing $4 per 1,000 pages — double the rate introduced with Mistral OCR 3 in December 2025 and quadruple the original $1 pricing from the March 2025 launch. The trend reflects an expanding feature set that extends well beyond basic optical character recognition.

The first-generation model already supported a dozen languages, multimodal inputs (text and images), and structured extraction via JSON schemas. That annotation capability, paired with base OCR, became the foundation of Document AI, a brand introduced alongside the second generation in May 2025. The pitch deepened with Mistral Studio, announced in October 2025, which integrated OCR outputs with large language models for natural-language Q&A over extracted content.

Mistral OCR 3 added table extraction in HTML or Markdown and separate handling for headers and footers. Mistral OCR 4 introduces an optional `include_blocks` parameter that wraps page elements in bounding boxes and classifies them as paragraphs, titles, lists, tables, images, equations, captions, code blocks, quotes, signatures, and more. It accepts custom prompts and is designed to supply structural primitives to AI agents. These features draw on specialized models, including Mistral Small, and fall under Document AI, whose standalone pricing has also climbed — now $5 per 1,000 pages, up from $3 with the previous OCR generation.

The new release also delivers per-page and per-word confidence scores. For the first time, Mistral AI explicitly details its benchmarking methodology, referencing third-party suites OlmOCRBench and OmniDocBench while cautioning that they can unfairly penalize correct outputs due to equation segmentation, reading-order issues in multi-column documents, or errors in ground-truth data such as typos and missing text.

Earlier models were compared against Google Document AI, Azure OCR, GPT-4o, and various Gemini versions. Mistral OCR 4 faces a wider set of specialized rivals, including Chandra OCR 2, Mineru Pro, PaddleOCR VL, GLM OCR, and DeepSeek OCR. The company also conducted a human preference test across 12 languages, pitting its model against Amazon Textract, Azure Document Intelligence, Gemini 3.1 Pro Preview, GPT-5.5 Pro, and an unspecified “Databricks” model.

On-premise deployment remains an option, with the original promise of up to 2,000 pages per minute on a single GPU still standing from the first-generation launch.

Résumé
Mistral AI lance Mistral OCR 4 avec des fonctionnalités enrichies (extraction par blocs, scores de confiance), mais son prix double à 4 $ pour 1 000 pages. L’offre Document AI, intégrant des LLM pour l’analyse structurée, augmente également ses tarifs, impactant le coût pour les entreprises.

Petit à petit, le coût de l’OCR augmente chez Mistral AI.

L’entreprise avait lancé son premier modèle spécialisé en mars 2025. Le tarif était de 1 $ pour 1000 pages, hors traitement par lots.

Ce prix avait été maintenu avec la deuxième génération, introduite en mai 2025. Il avait en revanche doublé (2 $ les 1000 pages) avec Mistral OCR 3, arrivé en décembre.

Rebelote avec Mistral OCR 4, fraîchement ajouté à l’API* : il en coûte désormais 4 $ pour 1000 pages.

Une base OCR étendue avec de l’annotation

Le coût facial a certes augmenté, mais l’offre est devenue fonctionnellement plus riche.

Avec la première génération, Mistral AI avait mis l’accent sur le multilinguisme (une dizaine de langues), la multimodalité (texte + images) et la variété des formats pris en charge (tableaux, expressions mathématiques…). Il proposait aussi un système d’extraction structurée à base de schémas JSON.

Ce système d’annotation, combiné à l’OCR de base, allait former l’ossature de Document AI. Sous cette marque, poussée concomitamment au lancement de la deuxième génération, l’entreprise prônait l’intégration avec le reste de ses solutions. En particulier ses autres LLM, pour une analyse des extractions en langage naturel (questions-réponses). L’ensemble serait placé sous l’ombrelle Mistral Studio à son annonce en octobre 2025.

Une extraction plus fine, au niveau des blocs

Depuis Mistral OCR 3, on peut choisir le format d’extraction des tableaux (HTML ou Markdown). On dispose aussi d’une option d’extraction séparée des en-têtes et des pieds de pages.

Avec Mistral OCR 4 arrive un paramètre include_blocks, non actif par défaut. Il délimite les éléments de chaque page par des boîtes englobantes et les classe selon leur nature (paragraphe, titre, liste, tableau, image, équation, légende, bloc de code, citation, signature…). Gérant les schémas d’output, il accepte aussi les prompts personnalisés. Il est censé favoriser, entre autres, l’apport de primitives structurelles à des agents IA.

Exploitant des modèles spécifiques dont Mistral Small, ces fonctionnalités entrent dans la famille Document AI, qui a sa propre tarification… elle aussi en augmentation (5 $ les 1000 pages, contre 3 $ avec Mistral OCR 3).

Mistral AI, plus précis sur ses benchmarks

Autre nouveauté de Mistral OCR 4 : des scores de confiance, par page et par mot.

En parallèle, Mistral AI se montre plus précis quant à la méthode de calcul des indicateurs de performance qu’il communique. C’est notamment la première fois qu’il mentionne des benchmarks tiers. En l’occurrence, OlmOCRBench et OmniDocBench. Il ne s’interdit pas de pointer leur tendance à pénaliser des outputs corrects, qu’elle découle de la segmentation des équations, de l’ordre de lecture dans les documents à plusieurs colonnes ou simplement d’erreurs dans la source de vérité (fautes de frappe, texte manquant, transcription de zones masquées…).

La première génération (mars 2025) avait été comparée à Google Document AI, Azure OCR, GPT-4o et plusieurs modèles Gemini (1.5 Flash, 1.5 Pro, 2.0 Flash).

La dernière a été opposée à davantage de modèles spécialisés, dont Chandra OCR 2, Mineru Pro, PaddleOCR VL, GLM OCR et DeepSeek OCR. Mistral AI a aussi effectué un test de préférence humaine en 12 langues contre Amazon Textract, Azure Document Intelligence, Gemini 3.1 Pro Preview, GPT-5.5 Pro et « Databricks » (modèle non spécifié).

* Mistral AI propose aussi, depuis la première génération, une option de déploiement sur site. Il promettait initialement jusqu’à 2000 pages par minute sur un GPU.

Illustration générée par IA

The post Chez Mistral AI, l’OCR s’enrichit, mais cela a un prix appeared first on Silicon.fr.

AI Insight
Core Point

Mistral AI 的 OCR 服务功能持续增强,但价格已从首发的 1 美元/千页翻倍至第四代的 4 美元,同时新增了块级提取、置信度评分和更透明的基准测试。

Key Players
  • Mistral AI — 法国 AI 初创公司,主攻大语言模型与文档 AI,总部位于巴黎。
Industry Impact
  • ICT: 中 — API 涨价可能影响中小企业的文档数字化预算,但功能深化可提升高价值场景的采用。
  • Computing/AI: 高 — 专用 OCR 模型迭代与结构化提取能力直接推动文档智能体发展,第三方基准引用也提升了行业评测可信度。
Tracking

Monitor — 作为欧洲顶尖 AI 模型商,其定价策略和功能演进对全球 OCR 市场竞争格局有指标意义,需观察客户迁移和垂直应用扩张。

Related Companies

No companies linked yet

Categories
人工智能 软件
AI Processing
2026-06-24 15:10
deepseek / deepseek-v4-pro