Globalement, plus un LLM est récent, plus il est résistant aux biais, aux hallucinations et aux usages indésirables. Mais l’écart avec les anciennes générations est parfois moindre. En particulier sur la gestion de la désinformation et des tentatives de jailbreak impliquant de l’encodage.
Ce constat ressort du benchmark Phare (Potential Harm Assessment & Risk Evaluation), qu’on doit à l’entreprise française Giskard et à Google DeepMind.
Les « petits » modèles, parfois moins exposés au jailbreak
Face aux tentatives de jailbreak, les modèles de raisonnement se montrent plus robustes… surtout lorsque les éléments malveillants sont intégrés dans des contextes qui semblent légitimes (exercices académiques, problèmes de maths…).
Les « petits » modèles sont quelquefois plus résistants que les grands. Notamment sur les attaques avec encodage. Mais c’est probablement parce que la complexité de ces attaques les rebute, d’après Giskard : leur incapacité à décoder les protège. Dans ce contexte, la taille du modèle ne prédit pas sa robustesse.
Les écarts entre fournisseurs sont importants. Sur l’ensemble des modules jailbreak de Phare (cf. tableau ci-dessous), tous les LLM d’Anthropic performent au-dessus de 75 %. Alors que tous ceux de Google sont sous les 50 % – sauf Gemini 3.0 Pro. Les résultats, qui couvrent une cinquantaine de LLM, sont d’autant plus inquiétants que le benchmark utilise des techniques de jailbreak bien connues et documentées, nous explique-t-on.
Le raisonnement, une défense limitée face aux hallucinations…
Les capacités de raisonnement constituent aussi un avantage pour résister aux hallucinations, mais seulement dans certains domaines. Parmi eux, la correction d’affirmations fausses… lorsqu’elles sont explicites. Quand la formulation est plus subtile, les modèles de raisonnement ne se montrent pas plus robustes.
Si les plus grands modèles ont un certain avantage, l’écart se réduit avec les plus petits. Tout particulièrement chez Google (peu de progrès entre Gemini 1.5 Pro et Gemini 3 Pro), OpenAI (GPT-5 vs GPT-4o) et Anthropic (Claude 4.5 Sonnet vs Claude 3.5 Sonnet).
Des écarts linguistiques persistent. Les modèles demeurent plus robustes en anglais. Valable sur l’essentiel des tests de Phare, ce constat l’est d’autant plus pour la résistance aux hallucinations, le benchmark employant des éléments spécifiques de contexte culturel (pour le français et l’espagnol).
L’ELO sur LM Arena apparaît fortement corrélé à certains aspects de la résistance aux hallucinations. Les modèles les mieux classés tendent en tout cas à être plus « factuellement corrects » dans leurs réponses. Il n’y a en revanche presque aucun lien pour ce qui est de la gestion de la désinformation. Peut-être les utilisateurs de LM Arena préfèrent-ils les modèles qui ne les contredisent pas, leur procurant par là même un ELO plus élevé, postule Giskard…
… aux biais…
Phare mesure aussi la capacité des LLM à détecter les biais qu’ils produisent.
Sur ce point, il y a peu, voire pas de progrès entre générations de modèles. Les modèles de DeepSeek se sont toutefois notablement améliorés. Comme ceux d’Anthropic (il faut dire que les anciennes générations catégorisaient toute association, même inoffensive, comme stéréotypique). On ne peut pas en dire autant de ceux de Google et d’OpenAI.
Une plus grande taille n’est globalement pas garante de meilleures performances. Même chose pour l’aptitude au raisonnement.
… et au mauvais usage des outils
Phare évalue également la capacité à identifier les situations potentiellement dangereuses et à alerter l’utilisateur en conséquence.
Sur ce point, les modèles s’avèrent globalement robustes. La dernière génération a un net avantage. L’écart entre les « petits » et les « grands » se réduit. Le raisonnement est un avantage… sauf chez Mistral AI, où Mistral Small et Medium sont plus performants que Magistral Small et Medium.
OpenAI rattrape Anthropic, dont plusieurs modèles atteignent le « score parfait ».
Phare comprend également plusieurs scénarios d’exploitation d’outils/API. Sur les LLM testés, les améliorations sont limitées entre générations. Sauf pour les modèles Gemini, qui partaient toutefois de loin. Les capacités de raisonnement ne sont pas d’une grande aide.
Le top 15 des modèles les plus « sûrs » au global
Modèle
Date de sortie
ELO LM Arena
Score Phare
Claude 4.5 Opus
Novembre 2025
1467
0,838
Claude 4.5 Haiku
Octobre 2025
1406
0,823
Claude 4.1 Opus
Août 2025
1446
0,810
Claude 4.5 Sonnet
Septembre 2025
1450
0,802
Claude 4.6 Opus
Février 2026
1503
0,789
Claude 4.6 Sonnet
Février 2026
1458
0,768
GPT-5 mini
Août 2025
1390
0,743
GPT-5.1
Novembre 2025
1437
0,743
Gemini 3.0 Pro Preview
Novembre 2025
1486
0,730
Claude 3.7 Sonnet
Février 2025
1371
0,734
Llama 3.1 405B Instruct OR
Juillet 2024
1335
0,734
GPT-5.2
Décembre 2025
1437
0,732
Gemini 3.1 Pro
Février 2026
1500
0,721
GPT-5 nano
Août 2025
1338
0,718
Claude 3.5 Haiku
Octobre 2024
1323
0,711
Composition du benchmark Phare
Module
Sous-module
Capacités évaluées
Biais
Autoévaluation des stéréotypes
Le modèle reconnaît les stéréotypes qu’il produit.
Hallucinations
Facticité
Le modèle produit des réponses factuellement correctes à des questions de culture générale.
Désinformation
Le modèle peut fournir des réponses correctes à des questions qui contiennent des éléments faux, trompeurs ou incorrects.
Discrédit
Le modèle gère les propos questionnables (pseudo-science, théories complotistes…)
Outils
Le modèle utilise des outils de façon fiable.
Nocivité
Conseils dangereux
Le modèle identifie les situations potentiellement dangereuses et alerte l’utilisateur.
Jailbreak
Attaque par framing (intégration dans un contexte apparemment légitime)
Performance du modèle contre ces attaques
Attaque par encodage
Injection de prompt
Illustration générée par IA
The post Face aux biais et aux hallucinations, le raisonnement ne rend pas les LLM plus robustes appeared first on Silicon.fr.