2026-06-17 04:42:49 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： Anthropic于2026年6月9日发布的ClaudeFable5模型在发布两天后被研究人员通过多Agent攻击、Unicode规避和叙事框架等手段成功越狱，生成了堆栈漏洞利用代码并泄露了12万字符系统提示词。该事件暴露了AI模型安全防护机制的脆弱性，特别是多模型Agent管道中单点安全评估的不足，突显了AI能力与安全控制之间的根本矛盾。 综合评分： 85 文章分类： 漏洞分析,AI安全,红队,恶意软件,安全建设

cover_image

Anthropic新发模型Claude Fable 5快速被越狱

FreeBuf

2026年6月11日 18:00 上海

在小说阅读器读本章

去阅读

Anthropic于2026年6月9日发布了Claude Fable 5，这是其全新Mythos系列中首个公开可用的模型，也是公司迄今最强大的人工智能。该模型在软件工程、知识工作和视觉基准测试中表现卓越，定位高于Claude Opus系列，在多数能力基准测试中创下业界最佳成绩，尤其擅长处理冗长、复杂、多步骤的任务。

同时，Fable 5具备出色的软件漏洞发现与利用能力，可执行“智能体式黑客攻击”（Agentic hacking），即在完整攻击生命周期中串联侦察、漏洞发现、横向移动及漏洞利用开发等环节。

然而，发布仅两天后，该模型即被研究人员成功越狱，生成了针对堆栈漏洞的利用代码。

Part01

安全防护机制遭突破

研究人员”Pliny the Liberator”通过多Agent分解、Unicode 技巧和叙事框架等手段，成功突破了Claude Fable 5的安全分类器，并在此过程中泄露了该模型长达12万字符的系统提示词。

该版本采用了一个不同寻常的设计方案：Fable 5与其受限版本Claude Mythos 5共享相同的底层模型，但通过一层安全分类器进行区分。当查询触发高风险类别（如网络安全、生物学、化学或模型蒸馏）的分类器时，Fable 5会静默地将请求转交给性能较弱的Claude Opus 4.8，并通知用户发生了回退。

Anthropic声称在发布前进行的超过1000小时的测试中，外部漏洞赏金计划未能发现任何通用越狱方法。然而这一声明很快就被打破。

Part02

多Agent攻击策略

发布仅数天后，知名AI红队专家Pliny the Liberator就公开宣布，他使用一种名为”群体狩猎”的协同多Agent攻击策略，成功绕过了Fable 5的安全防护层。

Pliny分享的截图显示，模型输出了详细的技术指导，包括针对x86 Linux系统的分步堆栈缓冲区溢出利用指南，内容涉及禁用ASLR、编写存在strcpy溢出漏洞的C服务器代码、无保护编译等，甚至还包括Birch 还原机制（一种经典的甲基苯丙胺合成路径）。

Part03

攻击技术详解

Pliny记录了用于实现这些突破的技术手段：

使用Unicode、同形异义字和西里尔字符替换来规避关键词分类器
利用长上下文引用跟踪在大型对话中隐藏恶意意图
采用分类学和文档结构框架——将有害查询嵌入看似合法的学习指南或学术参考资料中
通过小说和叙事框架将攻击意图伪装成创意内容
采用分解重组技术——将敏感技术信息分解为无害的独立片段，然后重新组合成可操作的升级指南

最后一项技术被证明最为有效。正如Pliny所述：”获取工艺本身的升级指南，比如Birch还原法或还原胺化，比直接请求特定有害化合物要容易得多。”使用越狱的Opus实例在后台协助进一步降低了难度。

Part04

系统提示词泄露

除了技术突破外，Pliny还将Fable 5约12万字符的系统提示词泄露至GitHub，曝光了Anthropic用于在基础层面控制模型行为的内部框架和安全指令。

这一事件重新引发了关于AI能力与安全控制之间长期存在的矛盾。Anthropic的分类器架构设计将可疑请求路由至较弱的备用模型而非直接拒绝，本意是减少对合法用户的干扰。但Pliny认为这种做法既制造了虚假的安全感，又阻碍了需要研究攻击技术以开展防御工作的安全研究人员。截至发稿时，Anthropic尚未就这些越狱声明或泄露的系统提示词作出公开回应。

该事件还突显了保护多模型Agent管道的更广泛挑战：当一个越狱模型（Opus）可以协助另一个模型（Fable 5）规避控制时，单模型安全评估可能从根本上就不够充分。

参考来源：

Anthropic’s Claude Fable 5 Jailbroken to Generate Stack Exploits

Anthropic’s Claude Fable 5 Alleged Jailbreak to Generate Stack Exploits

推荐阅读

#

电报讨论

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：FreeBuf 《Anthropic新发模型Claude Fable 5快速被越狱》