Prenez Claude Mythos. Enlevez les capacités cyber. Vous obtenez Claude Fable.
Anthropic a procédé ainsi pour pouvoir diffuser plus largement cette famille de modèles. L’architecture est commune. La tarification aussi. Et les performances annoncées sont similaires.
Le lancement de Claude Mythos remonte à début avril. Il était alors ouvert, en version préliminaire (Preview), à une poignée d’organisations américaines. En l’occurrence, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks. Elles ont pu l’expérimenter pour la détection de vulnérabilités logicielles.
Aux dernières nouvelles, quelque 200 organisations sont dans la boucle, sur 15 pays. Si Anthropic n’a pas intégré Claude Mythos dans son offre commerciale, il a poussé, en bêta dans Claude Enterprise, la fonctionnalité Claude Security, qui permet d’utiliser ses autres modèles pour analyser les bases de code. Il a aussi ouvert, sur demande, les outils utilisés avec la preview : skills, harnais agentique (du mapping de codebase à l’écriture de rapports) et constructeur de modèles de menace (identification des cibles d’attaque potentielles et priorisation des travaux en conséquence).
Une (petite) fenêtre d’usage sans crédits sur les forfaits facturés au siège
Les utilisateurs de Claude Mythos Preview peuvent désormais le remplacer par Claude Mythos 5. Une nouvelle version « parfois plus performante »… et surtout 2,5 fois moins chère (10 $ par million de tokens en entrée et 50 $ en sortie, contre 25 $ et 125 $).
Claude Fable 5, son alter ego « sans cyber », est disponible sur l’API Anthropic et sur les forfaits Enterprise en facturation à l’usage.
Pour les forfaits Enterprise qui sont encore sur le modèle par siège, l’accès est inclus jusqu’au 22 juin. Au-delà, en fonction de la capacité dont disposera Anthropic, il pourra falloir acheter des crédits. Même chose sur les abonnements Pro, Max et Team.
Une politique spécifique de conservation des données
Les deux modèles ont une politique spécifique de conservation des données. Anthropic gardera les inputs et les outputs pendant 30 jours. Il invoque une seule finalité : la sûreté. Plus précisément, la possibilité d’analyser les usages malveillants qui ne se détectent qu’à grande échelle. Par exemple, les campagnes d’espionnage étatique ou les tentatives de jailbreaking fondées sur des centaines de variations d’un prompt.
Cela ne change rien pour les forfaits Claude individuels, déjà soumis à une période de conservation de 30 jours. Le basculement concerne les organisations qui ont activé la politique ZDR (zero data retention) sur les services d’Anthropic ou de tiers (Amazon Bedrock, Google Cloud Agent Platform, Microsoft Foundry).
Un double niveau de filtrage pour les requêtes cyber
Claude Fable 5 ne répond pas lui-même aux requêtes qui touchent à la cyber, mais il peut les transmettre à Claude Opus 4.8. Son système de garde-fous est ainsi fait. Il implique un contrôle en deux temps. Intervient d’abord une vérification des activations internes du modèle. En cas de détection de trafic suspect, un LLM classifieur prend le relais. Il utilise un mécanisme qu’Anthropic met en œuvre depuis l’an dernier : on l’a entraîné sur des données synthétiques générées à partir d’une « constitution ». En d’autres termes, des règles en langage naturel spécifiant ce qui est ou non autorisé. Un dataset ensuite progressivement enrichi avec des insights issus d’un red teaming automatisé.
Le même type de classifieur filtre s’applique dans les domaines de la chimie et de la biologie. Anthropic a joué la sécurité*, filtrant la plupart des requêtes. Jusqu’ici, dans ce domaine, les modèles Claude n’ont traditionnellement rejeté que celles tournant autour des armes.
Un bug bounty qui a produit deux jailbreaks… « non universels »
Un programme est dans les cartons pour permettre à la recherche biomédicale d’utiliser Claude Fable 5 sans ces garde-fous. Le même type d’initiative existe déjà pour les professionnels de la cyber, sur l’ensemble des modèles d’Anthropic. Dans tous les cas, sont systématiquement bloqués les usages considérés comme presque toujours malveillants et qui n’ont pas d’application défensive légitime. Exemples : l’exfiltration massive de données et l’écriture d’un ransomware.
Sur l’ensemble des requêtes testées, « moins de 5 % » ont entraîné une bascule vers Claude Opus 4.8, nous assure-t-on.
Anthropic organise un bug bounty à deux volets. L’un, privé, portant sur le Claude Fable 5. L’autre, public, qui concerne Claude Opus 4.8, mais entouré de garde-fous comparables.
Au 5 juin, la compétition publique avait engendré environ 100 000 tentatives – représentant un équivalent estimé de 1000 heures d’effort. Elles ont produit deux jailbreaks, mais chacun spécifique à une tâche. Pas de jailbreak « universel » qui permettrait d’interagir avec le modèle comme si un garde-fou n’était pas présent.
* Une décision qui fait écho aux performances annoncées de Claude Fable 5 sur des tâches susceptibles d’occasionner des usages malveillants. Anthropic évoque une hypothèse que le modèle a faite au sujet d’une protéine conférant un haut niveau de résistance à la bactérie E. coli… et qu’une étude menée indépendamment en paralllèle a corroborée.
Illustration générée par IA
The post Comment Anthropic est passé de Claude Mythos à Claude Fable appeared first on Silicon.fr.