Qu’il s’agisse des biais, des hallucinations ou de la résistance au jailbreak, les principaux LLM du marché sont généralement plus « robustes » en anglais qu’en français… mais il y a des exceptions.
Telle est en tout cas la situation que donne à voir le benchmark Phare (Potential Harm Assessment & Risk Evaluation). On le doit à l’entreprise française Giskard, qui l’a développé avec Google DeepMind dans le cadre d’un projet européen.
Phare comprend 10 modules.
Module
Sous-module
Capacités évaluées
Biais
Autoévaluation des stéréotypes
Le modèle reconnaît les stéréotypes qu’il produit.
Hallucinations
Facticité
Le modèle produit des réponses factuellement correctes à des questions de culture générale.
Désinformation
Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects.
Discrédit
Le modèle gère les propos questionnables (pseudo-science, théories complotistes…)
Outils
Le modèle utilise des outils de façon fiable.
Nocivité
Conseils dangereux
Le modèle identifie les situations potentiellement dangereuses et alerte l’utilisateur.
Jailbreak
Attaque par framing (intégration dans un contexte apparemment légitime)
Performance du modèle contre ces attaques
Attaque par encodage
Injection de prompt
Des modèles Llama moins « biaisés » en français qu’en anglais…
Pour l’autoévaluation des stéréotypes, on fait générer aux modèles des histoires à propos de personnages qui ont des attributs spécifiques. Puis on leur demande d’analyser leurs choix narratifs. Bilan : il y a peu d’écart entre les tailles de modèles. Ainsi qu’entre les générations, en particulier chez OpenAI et Google.
Sur la cinquantaine de modèles testés, GPT-4.1 mini est celui qui s’en tire le mieux en anglais (score : 0,891, le maximum étant de 1). Même chose en français, mais avec un score légèrement inférieur (0,870).
L’écart est similaire avec le modèle qui se classe deuxième. En l’occurrence, Grok 4 Fast (0,816 en anglais ; 0,796 en français).
Dans le top 5, les modèles Llama font figure d’exception. D’un côté, Llama 4 Maverick, qui atteint 0,775 en français contre 0,688 en anglais. De l’autre, Llama 3.1 405B Instruct OR, qui atteint 0,771 en français contre 0,688 en anglais.
Top 5 en français
Top 5 en anglais
GPT-4.1 mini
0,870
GPT-4.1 mini
0,891
Grok 4 Fast
0,796
Grok 4 Fast
0,816
Llama 4 Maverick
0,775
Mistral Small 3.2
0,733
Llama 3.1 405B Instruct OR
0,771
Llama 4 Maverick
0,688
Claude 4.5 Haiku
0,750
Llama 3.1 405B Instruct OR
0,667
… et des modèles Gemini plus « factuels »
En matière de résistance aux hallucinations, il y a aussi, au global, peu d’améliorations entre générations de modèles. Le raisonnement est un avantage dans certains domaines. Notamment la correction d’affirmations fausses… lorsqu’elles sont explicites. Sur les formulations plus subtiles, les modèles de raisonnement n’ont pas d’avantage net.
L’écart de robustesse entre les petits et les grands modèles a tendance à se réduire.
La mesure de facticité inclut des variations culturelles spécifiques à l’anglais et au français (ainsi qu’à l’espagnol, troisième langue testée).
En français comme en anglais, deux modèles Gemini (3.1 Pro et 3.0 Pro Preview) dominent le classement.
Top 5 en français
Top 5 en anglais
Gemini 3.1 Pro
0,823
GPT-4.1 mini
0,897
Gemini 3.0 Pro Preview
0,765
Grok 4 Fast
0,886
Claude 3.5 Sonnet
0,738
Claude 4.6 Opus
0,886
GPT-5
0,735
Kimi K2.5
0,875
Grok 4
0,735
Claude 4.5 Opus
0,865
Les modèles d’Anthropic, inégalés sur la gestion de la désinformation
En anglais comme en français, les modèles Claude trustent le top 5 en matière de gestion de la désinformation.
Top 5 en français
Top 5 en anglais
Claude 4.5 Haiku
0,963
Claude 4.5 Haiku
0,991
Claude 3.7 Sonnet
0,892
Claude 4.1 Opus
0,953
Claude 4.5 Sonnet
0,870
Claude 3.5 Sonnet
0,932
Claude 4.1 Opus
0,855
Claude 4.5 Sonnet
0,919
Claude 4.5 Opus
0,855
Claude 3.7 Sonnet
0,916
Sur la partie discrédit, il y a également beaucoup de Claude aux premiers rangs. GPT-5.2 tire toutefois son épingle du jeu en anglais. Les écarts entre modèles sont globalement faibles.
Top 5 en français
Top 5 en anglais
Claude 4.5 Sonnet
0,996
GPT-5.2
0,999
Claude 4.5 Haiku
0,995
Claude 4.5 Sonnet
0,997
Claude 4.6 Opus
0,994
Claude 4.5 Haiku
0,996
Claude 4.5 Opus
0,990
Claude 4.5 Opus
0,996
Claude 4.6 Sonnet
0,989
Claude 4.6 Opus / Claude 4.6 Sonnet
0,993
Usage d’outils : avantage Claude en français, Gemini en anglais
Le test sur l’usage d’outils inclut des entrées imparfaites (données manquantes, requêtes malformées…). Et plusieurs scénarios, dont un impliquant des conversions de format.
Les meilleurs modèles s’en sortent presque tous mieux en français qu’en anglais (+0,051 point pour Gemini 3.1 Pro, + 0,069 pour Claude 4.6 Opus, + 0,077 pour Claude 4.6 Sonnet…).
Top 5 en français
Top 5 en anglais
Claude 4.6 Sonnet
0,988
Gemini 3.1 Pro
0,913
Claude 4.6 Opus
0,977
Claude 4.6 Sonnet
0,911
Gemini 3.1 Pro
0,964
Claude 4.5 Opus
0,909
Claude 4.5 Sonnet
0,941
Claude 4.6 Opus
0,906
Claude 3.5 Sonnet
0,927
Kimi K2.5
0,890
Détection des situations dangereuses : le raisonnement, globalement bénéfique… sauf chez Mistral AI
Plusieurs modèles Claude atteignent le « score parfait » sur la reconnaissance des situations potentiellement dangereuses. En anglais comme en français.
OpenAI parvient à réduire l’écart avec Anthropic. Les autres fournisseurs affichent un net retard, avec un progrès moindre sur leur dernière génération de modèles.
Le raisonnement aide, sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium.
Top 5 en français
Top 5 en anglais
Claude 4.6 Opus
1,000
Claude 4.6 Opus
1,000
Claude 4.6 Sonnet
1,000
Claude 4.6 Sonnet
1,000
Claude 4.5 Haiku
0,998
Claude 4.5 Haiku
1,000
Claude 4.5 Sonnet
0,992
Claude 4.5 Sonnet
0,998
GPT-5 mini
0,989
GPT-5 nano
0,993
Jailbreak : des modèles parfois plus résistants en français qu’en anglais
Plusieurs modèles d’OpenAI se hissent dans le top 5 pour la résistance aux attaques par framing. Là aussi, les scores sont plus élevés en français qu’en anglais. Les modèles de raisonnement se montrent plus robustes.
Top 5 en français
Top 5 en anglais
GPT-5 nano
1,000
GPT-5.2
0,969
Claude 4.5 Sonnet
1,000
GPT-5 mini
0,969
Claude 4.5 Opus
1,000
Claude 4.5 Opus
0,969
Claude 4.5 Haiku
1,000
GPT-5 nano
0,957
GPT-5.1
0,993
GPT-5
0,939
Les performances des meilleurs modèles sont en revanche plus élevées en anglais sur la résistance au jailbreak avec encodage. Avec, à nouveau, une exception pour un modèle Llama.
À l’image de Magistral Small par rapport à Magistral Medium, les « petits » modèles ont parfois l’avantage. D’après Giskard, il ne faut pas tant y voir des facultés qu’une tendance à rejeter les prompts trop complexes…
Top 5 en français
Top 5 en anglais
Llama 3.1 8B Instruct
0,645
Magistral Small Latest
0,700
Magistral Small Latest
0,627
Magistral Medium Latest
0,675
Qwen3 8B
0,624
Qwen3 8B
0,662
Llama 3.1 405B Instruct OR
0,574
Claude 4.1 Opus
0,617
Claude 4.1 Opus / Magistral Medium Latest
0,536
Llama 3.1 8B Instruct
0,613
Face à l’injection de prompts, les modèles d’Anthropic s’en tirent le mieux.
Top 5 en français
Top 5 en anglais
Claude 4.5 Haiku
0,987
Claude 4.1 Opus
0,979
Claude 4.1 Opus
0,975
Claude 4.5 Haiku
0,979
Claude 4.5 Sonnet
0,967
Claude 4.6 Opus
0,973
Claude 4.5 Opus
0,962
Claude 4.1 Opus
0,973
Claude 3.5 Haiku
0,947
Claude 4.5 Sonnet
0,973
Illustration générée par IA
The post Biais, hallucinations… Les LLM les plus « robustes » en français appeared first on Silicon.fr.