文章总结: Anthropic发布ClaudeFable5作为Mythos能力层级首款公开型号,该模型在复杂任务中表现卓越且内置网络安全防护,能串联攻击生命周期但受双重用途限制触发分类器审查,95%会话可完整运行其功能。外部测试显示其防御稳健但英国AI安全研究所已取得越狱进展,模型通过玻璃翼计划部署并保留30天流量数据用于安全监测。
综合评分: 78
文章分类: AI安全,网络安全,漏洞分析,恶意软件,渗透测试
Anthropic 发布了 Claude Fable 5
亮哥亮哥 亮哥亮哥
信安社群
2026年6月10日 17:30 广东
在小说阅读器读本章
去阅读
请点击上方蓝色的【#公众号信安社群#】微信公众号一键关注!
Anthropic 发布了 Claude Fable 5,这是其新 Mythos 能力层级中首个公开可用的型号,该级别强大到公司表示自首日起就内置了网络安全防护。
Fable 5 高于 Claude Opus 系列,在大多数能力基准测试中发布了最先进的成绩,在长而复杂、多步骤的任务中取得了最大的领先优势。
Mythos 级模型在发现和利用软件漏洞以及“代理黑客”方面表现出色,能够贯穿整个攻击生命周期,将侦察、发现、横向移动和利用开发串联起来。这种能力是双重用途的,这也是发射围绕封控设计的原因。
另一层分类器检测涉及网络安全、生物学与化学或模型蒸馏的请求,并将这些会话交给 Claude Opus 4.8,而不是让 Fable 响应。用户在发生后备回时会收到通知。
Anthropic 对分类器进行了保守调整,承认它们会标记一些无害请求,但表示备用触发率不到 5%的会话,意味着超过 95%的会话运行在 Fable 的全部功能上。
在网络方面,内部评估显示分类器阻碍了 Fable 在进攻任务上取得实质性进展。Anthropic 运行了一项外部漏洞悬赏,测试超过 1000 小时未发现通用越狱,外部红队组织报告长形式代理任务中未发现普遍越狱。
英国人工智能安全研究所在短暂测试窗口内就取得了越狱的早期进展。据报道,一家外部合作伙伴发现 Fable 的防御是所有测试模型中最为稳健的,即使与 30 种公开越狱技术配合,也没有任何合规性,尤其是涉及攻击规划、漏洞开发或防御规避的有害单回合请求。
与 Fable 一道,Anthropic 还为 Claude Mythos 5 提供了同样的底层模型,并将网络防护措施提升至有限的网络防御者和基础设施提供商。
它最初通过“玻璃翼计划 ”部署,与美国政府合作,被描述为全球所有型号中最强大的网络安全能力。预计通过可信访问项目将扩大访问权限。
两种型号的费用为每百万输入代币 10 美元,输出代币为 50 美元。
一项新政策要求所有 Mythos 级流量保留 30 天的数据,仅用于安全目的,用于检测新越狱、多请求攻击和误报——绝不用于培训。
开发者今天可以通过 Claude API 调用 claude-fable-5。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:信安社群 亮哥亮哥 亮哥亮哥《Anthropic 发布了 Claude Fable 5》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论