偏见、幻觉……法语中最“稳健”的大语言模型

Biais, hallucinations… Les LLM les plus « robustes » en français

Silicon.fr by Clément Bohic 2026-04-16 17:52 Original
摘要
法国公司Giskard与Google DeepMind合作开发的基准测试Phare显示,主流大语言模型在英语表现通常优于法语,但存在例外。测试涵盖偏见、幻觉、抗越狱等10个模块,结果显示:在偏见检测中,Llama模型在法语表现反超英语;在事实性方面,Gemini模型领先;而Anthropic的Claude系列在识别虚假信息方面表现突出。该评估揭示了不同模型在多语言环境下的性能差异与特定优势。

法国AI测试基准Phare的最新评估显示,主流大语言模型在英语环境下的整体"鲁棒性"通常优于法语,但在特定领域存在显著例外。该基准由法国公司Giskard与Google DeepMind合作开发,涵盖10个评估模块,包括偏见、幻觉、抗越狱能力等关键维度。

在偏见自评估方面,GPT-4.1 mini在英法双语中均位列第一(英语0.891/法语0.870)。值得注意的是,Llama系列模型在法语环境下表现更优:Llama 4 Maverick法语得分0.775显著高于英语0.688,Llama 3.1 405B Instruct OR同样在法语获得0.771分(英语仅0.667)。

针对事实准确性的评估中,Gemini系列表现突出:Gemini 3.1 Pro在法语榜单居首(0.823),Gemini 3.0 Pro Preview位列第二(0.765)。英语环境下则由GPT-4.1 mini领先(0.897)。

在应对虚假信息方面,Anthropic的Claude模型占据绝对优势。法语榜单前五全为Claude系列,其中Claude 4.5 Haiku以0.963分领先;英语榜单同样由Claude 4.5 Haiku主导(0.991)。在可疑内容识别方面,Claude 4.5 Sonnet法语得分达0.996,而GPT-5.2在英语环境取得近乎满分的0.999。

工具调用测试呈现语言分化:Claude 4.6 Sonnet在法语环境以0.988分领先,而英语环境最佳表现者是Gemini 3.1 Pro(0.913)。多数顶级模型在法语场景的工具调用表现更优,例如Gemini 3.1 Pro法语得分比英语高0.051。

危险情境识别测试中,Claude 4.6 Opus与Claude 4.6 Sonnet在双语环境均获满分。研究显示推理能力普遍有助于提升表现,但Mistral AI出现反常现象:其Small和Medium版本反而优于具备推理能力的Magistral系列。

抗越狱测试呈现复杂图景:在框架攻击防御方面,GPT-5 nano、Claude 4.5系列多款模型在法语环境获得满分,且法语整体得分高于英语。但在编码攻击防御中,英语环境表现更优,Magistral Small Latest以0.700分领先。值得注意的是,较小规模模型有时反而更具抵抗力,研究者认为这可能源于其对复杂指令的拒绝倾向。

面对提示词注入攻击,Claude系列再次展现优势:Claude 4.5 Haiku在法语环境获0.987分,Claude 4.1 Opus在英语环境得0.979分。

该基准测试覆盖超过50个模型,揭示出三大趋势:不同规模模型间的性能差距正在缩小;模型迭代带来的改进有限;文化适应性对多语言性能产生显著影响。这些发现为企业在法语区部署AI系统提供了重要参考依据。

Summary
The French company Giskard, in collaboration with Google DeepMind, has released the Phare benchmark to evaluate LLM robustness in areas like bias and hallucinations across languages. The benchmark reveals that while top models like GPT-4.1 mini generally perform better in English, some, like certain Llama models, show less bias in French, and Gemini models lead in factual accuracy. Notably, Anthropic's Claude models dominate in handling misinformation and dangerous situations, with performance variations highlighting language-specific strengths and weaknesses among major AI providers.

A new benchmark reveals that while major large language models (LLMs) are generally more robust in English than in French across key safety and reliability metrics, there are notable exceptions. The findings come from the Phare (Potential Harm Assessment & Risk Evaluation) benchmark, developed by French firm Giskard in collaboration with Google DeepMind as part of a European project.

Phare evaluates models across 10 modules: Bias (self-assessment of stereotypes), Hallucinations (factuality and misinformation), Harmfulness (identifying dangerous situations), Jailbreak resistance (against framing, encoding, and prompt injection attacks), and Tool Use reliability.

On bias and stereotype self-assessment, GPT-4.1 mini leads in both English (0.891) and French (0.870), with a similar performance gap for runner-up Grok 4 Fast. Notably, Meta's Llama models show a reverse trend: Llama 4 Maverick scores 0.775 in French versus 0.688 in English, and Llama 3.1 405B Instruct OR scores 0.771 in French versus 0.667 in English.

For factual accuracy and resisting hallucinations, Google's Gemini models dominate in French. Gemini 3.1 Pro (0.823) and Gemini 3.0 Pro Preview (0.765) top the French rankings, while GPT-4.1 mini leads in English (0.897). The benchmark notes that reasoning capabilities help with explicit falsehoods but offer less advantage against subtly misleading statements.

Anthropic's Claude models are unmatched in handling misinformation and disinformation, occupying the top five spots in both languages. Claude 4.5 Haiku leads in French (0.963) and English (0.991). For the "discredit" sub-module (managing pseudo-science, conspiracy theories), Claude 4.5 Sonnet tops French rankings (0.996), while GPT-5.2 leads in English (0.999).

In reliable tool use, several top models perform better in French than English. Claude 4.6 Sonnet leads in French (0.988), while Gemini 3.1 Pro leads in English (0.913). For dangerous situation detection, multiple Claude models achieve perfect scores in both languages. Reasoning generally improves performance here, except at Mistral AI, where its non-reasoning models (Mistral Small/Medium) outperform their reasoning counterparts (Magistral Small/Medium).

On jailbreak resistance, results vary by attack type. Against framing attacks, several models—including GPT-5 nano and Claude variants—score higher in French, some achieving a perfect 1.000. Against encoding-based jailbreaks, top English scores are higher, with Magistral Small Latest leading (0.700). The benchmark notes that smaller models sometimes have an advantage here, likely due to rejecting overly complex prompts rather than superior security. For prompt injection resistance, Anthropic's Claude models again dominate both leaderboards.

Overall, the data indicates a persistent but narrowing robustness gap between English and French, with performance highly dependent on the specific task and model architecture.

Résumé
Le benchmark Phare, développé par la française Giskard avec Google DeepMind, évalue la robustesse des principaux LLM en français et en anglais sur dix critères comme les biais et les hallucinations. Il révèle que les modèles d'Anthropic (Claude) dominent souvent la gestion de la désinformation, tandis que les Llama de Meta présentent parfois moins de biais en français qu'en anglais, et que les Gemini de Google excellent en factualité. Globalement, les performances varient selon les langues et les tâches, certains modèles étant plus résistants en français sur des aspects comme le jailbreak.

Qu’il s’agisse des biais, des hallucinations ou de la résistance au jailbreak, les principaux LLM du marché sont généralement plus « robustes » en anglais qu’en français… mais il y a des exceptions.

Telle est en tout cas la situation que donne à voir le benchmark Phare (Potential Harm Assessment & Risk Evaluation). On le doit à l’entreprise française Giskard, qui l’a développé avec Google DeepMind dans le cadre d’un projet européen.

Phare comprend 10 modules.

Module

Sous-module

Capacités évaluées

Biais

Autoévaluation des stéréotypes

Le modèle reconnaît les stéréotypes qu’il produit.

Hallucinations

Facticité

Le modèle produit des réponses factuellement correctes à des questions de culture générale.

Désinformation

Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects.

Discrédit

Le modèle gère les propos questionnables (pseudo-science, théories complotistes…)

Outils

Le modèle utilise des outils de façon fiable.

Nocivité

Conseils dangereux

Le modèle identifie les situations potentiellement dangereuses et alerte l’utilisateur.

Jailbreak

Attaque par framing (intégration dans un contexte apparemment légitime)

Performance du modèle contre ces attaques

Attaque par encodage

Injection de prompt

Des modèles Llama moins « biaisés » en français qu’en anglais…

Pour l’autoévaluation des stéréotypes, on fait générer aux modèles des histoires à propos de personnages qui ont des attributs spécifiques. Puis on leur demande d’analyser leurs choix narratifs. Bilan : il y a peu d’écart entre les tailles de modèles. Ainsi qu’entre les générations, en particulier chez OpenAI et Google.

Sur la cinquantaine de modèles testés, GPT-4.1 mini est celui qui s’en tire le mieux en anglais (score : 0,891, le maximum étant de 1). Même chose en français, mais avec un score légèrement inférieur (0,870).

L’écart est similaire avec le modèle qui se classe deuxième. En l’occurrence, Grok 4 Fast (0,816 en anglais ; 0,796 en français).

Dans le top 5, les modèles Llama font figure d’exception. D’un côté, Llama 4 Maverick, qui atteint 0,775 en français contre 0,688 en anglais. De l’autre, Llama 3.1 405B Instruct OR, qui atteint 0,771 en français contre 0,688 en anglais.

Top 5 en français

Top 5 en anglais

GPT-4.1 mini

0,870

GPT-4.1 mini

0,891

Grok 4 Fast

0,796

Grok 4 Fast

0,816

Llama 4 Maverick

0,775

Mistral Small 3.2

0,733

Llama 3.1 405B Instruct OR

0,771

Llama 4 Maverick

0,688

Claude 4.5 Haiku

0,750

Llama 3.1 405B Instruct OR

0,667

… et des modèles Gemini plus « factuels »

En matière de résistance aux hallucinations, il y a aussi, au global, peu d’améliorations entre générations de modèles. Le raisonnement est un avantage dans certains domaines. Notamment la correction d’affirmations fausses… lorsqu’elles sont explicites. Sur les formulations plus subtiles, les modèles de raisonnement n’ont pas d’avantage net.

L’écart de robustesse entre les petits et les grands modèles a tendance à se réduire.

La mesure de facticité inclut des variations culturelles spécifiques à l’anglais et au français (ainsi qu’à l’espagnol, troisième langue testée).

En français comme en anglais, deux modèles Gemini (3.1 Pro et 3.0 Pro Preview) dominent le classement.

Top 5 en français

Top 5 en anglais

Gemini 3.1 Pro

0,823

GPT-4.1 mini

0,897

Gemini 3.0 Pro Preview

0,765

Grok 4 Fast

0,886

Claude 3.5 Sonnet

0,738

Claude 4.6 Opus

0,886

GPT-5

0,735

Kimi K2.5

0,875

Grok 4

0,735

Claude 4.5 Opus

0,865

Les modèles d’Anthropic, inégalés sur la gestion de la désinformation

En anglais comme en français, les modèles Claude trustent le top 5 en matière de gestion de la désinformation.

Top 5 en français

Top 5 en anglais

Claude 4.5 Haiku

0,963

Claude 4.5 Haiku

0,991

Claude 3.7 Sonnet

0,892

Claude 4.1 Opus

0,953

Claude 4.5 Sonnet

0,870

Claude 3.5 Sonnet

0,932

Claude 4.1 Opus

0,855

Claude 4.5 Sonnet

0,919

Claude 4.5 Opus

0,855

Claude 3.7 Sonnet

0,916

Sur la partie discrédit, il y a également beaucoup de Claude aux premiers rangs. GPT-5.2 tire toutefois son épingle du jeu en anglais. Les écarts entre modèles sont globalement faibles.

Top 5 en français

Top 5 en anglais

Claude 4.5 Sonnet

0,996

GPT-5.2

0,999

Claude 4.5 Haiku

0,995

Claude 4.5 Sonnet

0,997

Claude 4.6 Opus

0,994

Claude 4.5 Haiku

0,996

Claude 4.5 Opus

0,990

Claude 4.5 Opus

0,996

Claude 4.6 Sonnet

0,989

Claude 4.6 Opus / Claude 4.6 Sonnet

0,993

Usage d’outils : avantage Claude en français, Gemini en anglais

Le test sur l’usage d’outils inclut des entrées imparfaites (données manquantes, requêtes malformées…). Et plusieurs scénarios, dont un impliquant des conversions de format.

Les meilleurs modèles s’en sortent presque tous mieux en français qu’en anglais (+0,051 point pour Gemini 3.1 Pro, + 0,069 pour Claude 4.6 Opus, + 0,077 pour Claude 4.6 Sonnet…).

Top 5 en français

Top 5 en anglais

Claude 4.6 Sonnet

0,988

Gemini 3.1 Pro

0,913

Claude 4.6 Opus

0,977

Claude 4.6 Sonnet

0,911

Gemini 3.1 Pro

0,964

Claude 4.5 Opus

0,909

Claude 4.5 Sonnet

0,941

Claude 4.6 Opus

0,906

Claude 3.5 Sonnet

0,927

Kimi K2.5

0,890

Détection des situations dangereuses : le raisonnement, globalement bénéfique… sauf chez Mistral AI

Plusieurs modèles Claude atteignent le « score parfait » sur la reconnaissance des situations potentiellement dangereuses. En anglais comme en français.

OpenAI parvient à réduire l’écart avec Anthropic. Les autres fournisseurs affichent un net retard, avec un progrès moindre sur leur dernière génération de modèles.

Le raisonnement aide, sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium.

Top 5 en français

Top 5 en anglais

Claude 4.6 Opus

1,000

Claude 4.6 Opus

1,000

Claude 4.6 Sonnet

1,000

Claude 4.6 Sonnet

1,000

Claude 4.5 Haiku

0,998

Claude 4.5 Haiku

1,000

Claude 4.5 Sonnet

0,992

Claude 4.5 Sonnet

0,998

GPT-5 mini

0,989

GPT-5 nano

0,993

Jailbreak : des modèles parfois plus résistants en français qu’en anglais

Plusieurs modèles d’OpenAI se hissent dans le top 5 pour la résistance aux attaques par framing. Là aussi, les scores sont plus élevés en français qu’en anglais. Les modèles de raisonnement se montrent plus robustes.

Top 5 en français

Top 5 en anglais

GPT-5 nano

1,000

GPT-5.2

0,969

Claude 4.5 Sonnet

1,000

GPT-5 mini

0,969

Claude 4.5 Opus

1,000

Claude 4.5 Opus

0,969

Claude 4.5 Haiku

1,000

GPT-5 nano

0,957

GPT-5.1

0,993

GPT-5

0,939

Les performances des meilleurs modèles sont en revanche plus élevées en anglais sur la résistance au jailbreak avec encodage. Avec, à nouveau, une exception pour un modèle Llama.

À l’image de Magistral Small par rapport à Magistral Medium, les « petits » modèles ont parfois l’avantage. D’après Giskard, il ne faut pas tant y voir des facultés qu’une tendance à rejeter les prompts trop complexes…

Top 5 en français

Top 5 en anglais

Llama 3.1 8B Instruct

0,645

Magistral Small Latest

0,700

Magistral Small Latest

0,627

Magistral Medium Latest

0,675

Qwen3 8B

0,624

Qwen3 8B

0,662

Llama 3.1 405B Instruct OR

0,574

Claude 4.1 Opus

0,617

Claude 4.1 Opus / Magistral Medium Latest

0,536

Llama 3.1 8B Instruct

0,613

Face à l’injection de prompts, les modèles d’Anthropic s’en tirent le mieux.

Top 5 en français

Top 5 en anglais

Claude 4.5 Haiku

0,987

Claude 4.1 Opus

0,979

Claude 4.1 Opus

0,975

Claude 4.5 Haiku

0,979

Claude 4.5 Sonnet

0,967

Claude 4.6 Opus

0,973

Claude 4.5 Opus

0,962

Claude 4.1 Opus

0,973

Claude 3.5 Haiku

0,947

Claude 4.5 Sonnet

0,973

Illustration générée par IA

The post Biais, hallucinations… Les LLM les plus « robustes » en français appeared first on Silicon.fr.

AI Insight
Core Point

The Phare benchmark reveals major LLMs are generally more robust in English than French across key safety and reliability metrics, though some models like Llama and Claude show notable exceptions with stronger performance in specific French tasks.

Key Players

Giskard — AI testing platform developer, France.

Google DeepMind — AI research lab, UK/US.

OpenAI — AI research and deployment company, US.

Anthropic — AI safety research company, US.

Meta (Llama) — Technology conglomerate, US.

Mistral AI — AI company, France.

xAI (Grok) — AI company, US.

Industry Impact
  • Computing/AI: High — Benchmark sets new standard for multilingual LLM evaluation, highlighting critical performance gaps in non-English contexts.
  • ICT: Medium — Impacts global AI deployment and regulatory compliance for tech firms.
Tracking

Strongly track — The Phare benchmark is becoming a key tool for evaluating real-world AI safety and reliability, directly influencing model development and procurement.

Categories
人工智能 科研
AI Processing
2026-04-16 23:03
deepseek / deepseek-chat