Anthropic 如何从 Claude Mythos 转向 Claude Fable

Comment Anthropic est passé de Claude Mythos à Claude Fable

Silicon.fr by Clément Bohic 2026-06-10 17:08 Original
摘要
Anthropic去除了Claude Mythos的网络能力推出Claude Fable 5,以更广泛分发,新模型API价格降低2.5倍至每百万输入token 10美元。此前包括AWS、苹果和英伟达在内的约200家组织参与了Mythos的预览测试。Claude Fable 5适用特定数据留存策略,并通过两级过滤将网络安全类请求转交Opus 4.8处理以防范恶意使用。

Anthropic 将 Claude Mythos 剥离网络能力后,得到了 Claude Fable 5,目的是以更低的门槛向更广泛的用户群分发这一模型家族。两个模型共享底层架构与定价模型,官方宣称性能也处于同一水平。

今年4月初,Claude Mythos 以预览版形式向 AWS、苹果、博通、思科、CrowdStrike、谷歌、摩根大通、Linux基金会、微软、英伟达及Palo Alto Networks等十余家美国机构开放,用于软件漏洞检测。目前该预览范围已扩展至15个国家约200家组织。Anthropic 尚未将 Mythos 纳入正式商业产品,但在 Claude Enterprise 中推出了测试版功能 Claude Security,允许使用其他 Claude 模型分析代码库;同时还按需开放预览阶段配套的工具,包括技能、智能体调度框架(从代码库映射到报告撰写)和威胁模型构建器(识别潜在攻击目标并确定修复优先级)。

Claude Mythos 预览用户现可切换至 Claude Mythos 5,新版本“有时性能更强”,且价格低至原来的四折——输入每百万Token 10美元、输出 50美元,而旧版分别定价 25美元和 125美元。其去除网络能力的对等模型 Claude Fable 5 已通过 Anthropic API 及按用量计费的 Enterprise 套餐提供。对于仍需按席位计费的 Enterprise 客户,6月22日前可直接使用;此后视 Anthropic 容量,可能需要购买额外配额,Pro、Max、Team 订阅亦同此安排。

两大模型均配套特殊的数据留存政策:Anthropic 会保留输入和输出数据30天,官方称此举仅为安全目的,用来检测只有通过大规模分析才能发现的恶意行为,例如国家级间谍活动或利用数百种提示变体的大规模越狱尝试。此前个人版 Claude 订阅就已默认保留30天,此次变化主要影响已启用零数据保留(ZDR)机制的组织,无论其调用的是 Anthropic 自身服务,还是亚马逊 Bedrock、谷歌 Cloud Agent Platform 或微软 Foundry 等第三方平台。

在内容过滤上,Claude Fable 5 不会直接响应涉网安请求,而是将其转交给 Claude Opus 4.8 处理。这背后是一套双重审核机制:先由模型内部激活自检,一旦发现可疑流量,便由基于“章程”的 LLM 分类器介入——该分类器基于自然语言规则生成的合成数据训练而成,并通过自动化红队测试持续丰富。类似过滤同样应用于化生领域;此前 Claude 模型只会拦截武器相关请求,现已全面收紧。据称在测试中,需要转交 Opus 4.8 的请求占比“不到5%”。

Anthropic 还发起了双轨漏洞赏金计划:一轨针对 Claude Fable 5,为非公开项目;另一轨公开测试 Claude Opus 4.8,但附带类似防护。截至6月5日,公开竞赛已产生约10万次尝试(估计耗时1000小时),仅发现两个越狱方法,且都针对特定任务,并未出现能绕过所有防护的“通用”越狱。

展望后续,Anthropic 计划为生物医学研究提供不设防的 Claude Fable 5 访问权,类似网络专业人士已有的特权,但对于数据大规模窃取、勒索软件编写等几乎注定恶意且无正当防御用途的行为,仍会一律封堵。此外,一个值得一提的细节是:Claude Fable 5 曾提出关于一种使大肠杆菌产生高度耐药性的蛋白假说,而一项独立完成的并行研究随后证实了这一假设,这也在一定程度上呼应了该模型在潜在恶意用途相关任务上的表现。

Summary
Anthropic launched Claude Fable 5, a version of its Claude Mythos model stripped of cybersecurity capabilities, to enable wider distribution via its API and enterprise plans, retaining the same architecture and pricing. The original Claude Mythos 5 is now cheaper by 2.5 times, and both models enforce a 30-day data retention for safety monitoring, with cyber-related queries in Fable filtered through a two-stage system that escalates to Claude Opus 4.8. Initially tested by organizations like AWS, Apple, and Google, the rollout includes temporary free access for per-seat enterprise customers until June 22, after which credits may be required, while Anthropic also plans to ease biomedical research restrictions.

Anthropic has quietly split its latest model family into two variants: Claude Mythos 5, a full-featured cybersecurity-capable version, and Claude Fable 5, which strips out those cyber capabilities to allow wider distribution. Both share a common architecture, identical pricing, and similar performance — but Fable is the safer, more broadly releasable twin.

The original Claude Mythos first appeared in early April as a limited preview available to just a handful of U.S. organizations, including AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, the Linux Foundation, Microsoft, NVIDIA, and Palo Alto Networks. Those early adopters tested it primarily for software vulnerability detection. Since then, roughly 200 organizations across 15 countries have gained access. Anthropic has not yet made Mythos a standard commercial product, but it did launch a beta feature called Claude Security inside Claude Enterprise, letting other models analyze codebases. The company also opened access, on request, to the tools used during the preview: “skills,” an agentic harness that spans codebase mapping to report generation, and a threat-model builder that identifies potential attack targets and prioritizes remediation.

Now, those preview users can switch to Claude Mythos 5, a “sometimes more performant” version that is 2.5 times cheaper — $10 per million input tokens and $50 per million output tokens, down from $25 and $125. Its cyber-free alter ego, Claude Fable 5, is available via the Anthropic API and on usage-based Enterprise plans. For enterprises still on per-seat billing, access is included until June 22; after that, depending on capacity, customers may need to purchase credits. The same holds for Pro, Max, and Team subscriptions.

Both models come with a specific data-retention policy: Anthropic will store inputs and outputs for 30 days, solely for safety monitoring. That enables analysis of malicious use that is only detectable at scale — state-sponsored espionage campaigns or jailbreaking attempts based on hundreds of prompt variations. Individual Claude plan users already operate under a 30-day retention window, so nothing changes for them. The shift affects organizations that had activated zero data retention (ZDR) on Anthropic’s platform or through third-party services like Amazon Bedrock, Google Cloud Agent Platform, or Microsoft Foundry.

Claude Fable 5 handles cybersecurity queries via a two-stage filtering system rather than responding directly. It first checks internal model activations; if it detects suspicious traffic, a classifier LLM takes over. This classifier was trained on synthetic data derived from a “constitution” — natural-language rules defining what is and isn’t permitted — and continuously refined with insights from automated red teaming. Anthropic has used this mechanism since last year. The same classifier now also filters requests in chemistry and biology, traditionally only blocking weapons-related queries. The company says it has taken a safety-first approach, filtering most such requests; fewer than 5% of tested queries were routed to Claude Opus 4.8 for handling.

Anthropic is running a two-pronged bug bounty: a private track for Claude Fable 5, and a public one for Claude Opus 4.8 with comparable guardrails. By June 5, the public competition had generated about 100,000 attempts — equivalent to roughly 1,000 hours of effort. Those yielded only two jailbreaks, each highly task-specific, with no universal bypass that would let users interact with the model as if no safeguards existed.

Looking ahead, Anthropic plans to launch a program that allows biomedical researchers to use Claude Fable 5 without these guardrails, similar to an existing initiative for cybersecurity professionals across all its models. Even so, the company will continue to block uses it deems almost always malicious and lacking legitimate defensive applications — such as mass data exfiltration and ransomware development.

The filtering in chemical and biological domains also reflects a potentially significant capability: Anthropic notes that Claude Fable 5 hypothesized a protein that could confer strong antibiotic resistance to E. coli, a conjecture later corroborated by an independent study — underscoring the dual-use risks these models carry.

Résumé
Anthropic lance Claude Mythos 5 et sa version sans capacités cyber, Claude Fable 5, à un prix 2,5 fois inférieur pour élargir leur diffusion. Les entreprises comme AWS, Apple, Google ou NVIDIA bénéficient d’un accès jusqu’au 22 juin dans les forfaits Enterprise, avec un filtrage automatique des requêtes malveillantes redirigées vers Claude Opus 4.8. Une conservation des données de 30 jours est imposée pour détecter les abus, tandis qu’un bug bounty n’a révélé que des jailbreaks limités.

Prenez Claude Mythos. Enlevez les capacités cyber. Vous obtenez Claude Fable.

Anthropic a procédé ainsi pour pouvoir diffuser plus largement cette famille de modèles. L’architecture est commune. La tarification aussi. Et les performances annoncées sont similaires.

Le lancement de Claude Mythos remonte à début avril. Il était alors ouvert, en version préliminaire (Preview), à une poignée d’organisations américaines. En l’occurrence, AWS, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorganChase, la Linux Foundation, Microsoft, NVIDIA et Palo Alto Networks. Elles ont pu l’expérimenter pour la détection de vulnérabilités logicielles.

Aux dernières nouvelles, quelque 200 organisations sont dans la boucle, sur 15 pays. Si Anthropic n’a pas intégré Claude Mythos dans son offre commerciale, il a poussé, en bêta dans Claude Enterprise, la fonctionnalité Claude Security, qui permet d’utiliser ses autres modèles pour analyser les bases de code. Il a aussi ouvert, sur demande, les outils utilisés avec la preview : skills, harnais agentique (du mapping de codebase à l’écriture de rapports) et constructeur de modèles de menace (identification des cibles d’attaque potentielles et priorisation des travaux en conséquence).

Une (petite) fenêtre d’usage sans crédits sur les forfaits facturés au siège

Les utilisateurs de Claude Mythos Preview peuvent désormais le remplacer par Claude Mythos 5. Une nouvelle version « parfois plus performante »… et surtout 2,5 fois moins chère (10 $ par million de tokens en entrée et 50 $ en sortie, contre 25 $ et 125 $).

Claude Fable 5, son alter ego « sans cyber », est disponible sur l’API Anthropic et sur les forfaits Enterprise en facturation à l’usage.

Pour les forfaits Enterprise qui sont encore sur le modèle par siège, l’accès est inclus jusqu’au 22 juin. Au-delà, en fonction de la capacité dont disposera Anthropic, il pourra falloir acheter des crédits. Même chose sur les abonnements Pro, Max et Team.

Une politique spécifique de conservation des données

Les deux modèles ont une politique spécifique de conservation des données. Anthropic gardera les inputs et les outputs pendant 30 jours. Il invoque une seule finalité : la sûreté. Plus précisément, la possibilité d’analyser les usages malveillants qui ne se détectent qu’à grande échelle. Par exemple, les campagnes d’espionnage étatique ou les tentatives de jailbreaking fondées sur des centaines de variations d’un prompt.

Cela ne change rien pour les forfaits Claude individuels, déjà soumis à une période de conservation de 30 jours. Le basculement concerne les organisations qui ont activé la politique ZDR (zero data retention) sur les services d’Anthropic ou de tiers (Amazon Bedrock, Google Cloud Agent Platform, Microsoft Foundry).

Un double niveau de filtrage pour les requêtes cyber

Claude Fable 5 ne répond pas lui-même aux requêtes qui touchent à la cyber, mais il peut les transmettre à Claude Opus 4.8. Son système de garde-fous est ainsi fait. Il implique un contrôle en deux temps. Intervient d’abord une vérification des activations internes du modèle. En cas de détection de trafic suspect, un LLM classifieur prend le relais. Il utilise un mécanisme qu’Anthropic met en œuvre depuis l’an dernier : on l’a entraîné sur des données synthétiques générées à partir d’une « constitution ». En d’autres termes, des règles en langage naturel spécifiant ce qui est ou non autorisé. Un dataset ensuite progressivement enrichi avec des insights issus d’un red teaming automatisé.

Le même type de classifieur filtre s’applique dans les domaines de la chimie et de la biologie. Anthropic a joué la sécurité*, filtrant la plupart des requêtes. Jusqu’ici, dans ce domaine, les modèles Claude n’ont traditionnellement rejeté que celles tournant autour des armes.

Un bug bounty qui a produit deux jailbreaks… « non universels »

Un programme est dans les cartons pour permettre à la recherche biomédicale d’utiliser Claude Fable 5 sans ces garde-fous. Le même type d’initiative existe déjà pour les professionnels de la cyber, sur l’ensemble des modèles d’Anthropic. Dans tous les cas, sont systématiquement bloqués les usages considérés comme presque toujours malveillants et qui n’ont pas d’application défensive légitime. Exemples : l’exfiltration massive de données et l’écriture d’un ransomware.

Sur l’ensemble des requêtes testées, « moins de 5 % » ont entraîné une bascule vers Claude Opus 4.8, nous assure-t-on.

Anthropic organise un bug bounty à deux volets. L’un, privé, portant sur le Claude Fable 5. L’autre, public, qui concerne Claude Opus 4.8, mais entouré de garde-fous comparables.

Au 5 juin, la compétition publique avait engendré environ 100 000 tentatives – représentant un équivalent estimé de 1000 heures d’effort. Elles ont produit deux jailbreaks, mais chacun spécifique à une tâche. Pas de jailbreak « universel » qui permettrait d’interagir avec le modèle comme si un garde-fou n’était pas présent.

* Une décision qui fait écho aux performances annoncées de Claude Fable 5 sur des tâches susceptibles d’occasionner des usages malveillants. Anthropic évoque une hypothèse que le modèle a faite au sujet d’une protéine conférant un haut niveau de résistance à la bactérie E. coli… et qu’une étude menée indépendamment en paralllèle a corroborée.

Illustration générée par IA

The post Comment Anthropic est passé de Claude Mythos à Claude Fable appeared first on Silicon.fr.

AI Insight
Core Point

Anthropic 移除 Claude Mythos 的网络安全能力,推出无安全限制的 Claude Fable,以扩大分发并缓解恶意使用风险,影响 AI 安全部署模式。

Key Players
  • Anthropic — AI 模型开发商,总部美国旧金山。
Industry Impact
  • ICT: 高 — 引入两级过滤与数据保留政策,改变企业将 AI 用于网络安全分析的方式。
  • Computing/AI: 高 — 能力剥离加安全层的设计可能成为负责任 AI 部署的参考模板。
Tracking

监控 — 商业策略与安全机制仍在演进,企业计划访问期限有限,需观察实际采用和监管反应。

Highlights
Investment / Funding
Related Companies

No companies linked yet

Categories
人工智能 软件 网络安全
AI Processing
2026-06-10 19:30
deepseek / deepseek-v4-pro