文章总结: 文章介绍AI安全代理‘扫地僧’在CyberGym真实漏洞复现测试中以73.1%成功率位列全球第七,其采用以结构化记忆为中心的多智能体设计,通过记录探索过程提升效率,而非依赖最大参数模型。作者认为这展示了垂直安全Agent的潜力,并指出AI安全技术既可能提升防御效率,也可能被黑产用于武器化漏洞。 综合评分: 85 文章分类: AI安全,漏洞分析,安全工具
“扫地僧”杀入OpenAI和Anthropic的安全榜单,我作为安全从业者看到了什么
原创
暗影安全 暗影安全
暗影安全
2026年7月1日 13:21 北京
在小说阅读器读本章
去阅读
凌晨刷到CyberGym的榜单,一个名字让我坐直了腰子:MopMonk Agent。
MopMonk,翻译过来就是“扫地僧”。
在金庸武侠里,扫地僧是藏经阁里籍籍无名、却武功通天的绝世高手。当这个名字出现在AI安全评测榜单上,和OpenAI、Anthropic、微软这些巨头排在一起的时候,作为干了多年的网络安全从业者,我很难不兴奋。
这个成绩有多猛?
先看数字:CyberGym Level 1,73.1%成功率,全球第七。
CyberGym不是“给模型出一套选择题”的评测。它是UC Berkeley团队搞的真实漏洞复现测试——给你一个漏洞描述和未修复的代码库,Agent必须自己构造出能真正触发漏洞的PoC输入,然后分别在修复前和修复后的版本上跑一遍,验证结果。
说白了,这不是考试,这是上战场。
1507个真实漏洞实例,来自188个大型软件项目。很多任务需要Agent跨越数千个文件、数百万行代码去追踪漏洞线索。这比CTF难多了——CTF好歹是出题人精心设计的靶场,CyberGym面对的是现实世界那些七扭八绕的代码库。
“扫地僧”的独门功夫
MopMonk没有用最贵最大的模型。它基座是MiniMax的M3。
真正有意思的是它的架构:“以结构化记忆为中心的多Agent设计”(memory-centric Multi-Agent design)。
翻译成人话就是:这个系统不止是“让模型猜漏洞”,而是组织了一群AI“研究员”,每个人带着一个共享的记事本,记录哪些代码路径看过了、哪些输入格式被排除了、哪个PoC快接近触发了、为什么上一轮失败了。
在安全这个行业里干过漏洞挖掘的人都懂——最消耗时间的就是反复读代码、反复试错、反复撞同一墙。新人挖洞常常在一个坑里摇三次,老手靠的是经验和直觉,而直觉本质上就是大脑里积累了无数失败记忆之后形成的模式识别。
MopMonk的结构化记忆,就是把这种“经验”显式地编码进Agent系统里。它不让每一轮探索都从零开始。
这一点,我觉得比单纯堆参数更有行业价值。
安全圈的“三重门”
CyberGym榜单上的格局很有意思。排名在MopMonk前面的有Crystalline、微软MDASH、OpenAI Agent、Anthropic Agent。
但MopMonk给我们展示了第三条路的分化:
第一条路:堆大模型——OpenAI、Anthropic代表。靠更大的参数量、更聪明的基座来碾压。成本极高,门槛极高。
第二条路:系统工程——微软MDASH代表。靠精心设计的系统架构、流程编排来解决问题。
第三条路:垂直安全Agent——MopMonk代表。不追求模型最大,而是在安全场景的垂直方向上做深,用领域知识和结构化记忆系统来弥补模型能力的差距。
作为安全人,我天然对第三条路最感兴趣。不是因为大模型不重要——M3本身也是很强的基座——而是因为安全这个领域太特殊了。
漏洞挖掘不是写诗,不是聊天,不是“根据上下文猜个大概”。漏洞挖掘需要精确到字节级的输入构造,需要在千万行代码里找到那个被遗漏的边界条件,需要理解编译器优化、内存布局、协议栈行为。通用大模型再聪明,如果不在这个垂直方向上深耕,天花板也很明显。
一个安全从业者的真实感受
说实话,看到这个消息,我心情有点复杂。
一方面是激动。AI安全Agent如果能真正成熟,意味着以后挖漏洞、做代码审计的效率可能会有量级提升。对一个经常加班的甲方安全工程师来说,一个能自动复现漏洞的Agent,价值不亚于当年静态扫描从手工代码审计中解放出来的那一波。
另一方面是警惕。同样的技术,用来挖洞和用来利用漏洞,差别只在意图。一个能以73%成功率自动生成PoC的系统,在黑产手中意味着更快地发现和武器化。0day。攻击者从来不缺动机,他们缺的只是效率。
安全行业有一个永恒的悖论:我们开发的每一把“盾牌技术”,几乎都会被改造成“矛”。
写在最后
MopMonk团队没有公开身份,保持神秘。但“扫地僧”这个名字本身,已经说明了很多东西。
在传统的安全圈里,最厉害的攻防专家往往也是最低调的——你永远不知道某场高难度漏洞赛的冠军,是不是一个平时连话都不说的人。MopMonk把这种气质带到了AI安全领域。
2007年我刚入行的时候,挖漏洞靠的是耐心加直觉,一人一终端,面对冰冷的汇编代码。2026年的今天,Agent们在几毫秒内就能遍历我当年一周才能读完的代码路径。
MopMonk的出现,不是终点,甚至不是起点的起点。
对于安全从业者来说,这是一个信号:AI安全Agent这条路,正在从实验室走向实战。不管你准备好了没有,浪潮已经来了。
而我们能做的,是像扫地僧一样——低调,但随时能打。
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:暗影安全 暗影安全 暗影安全《“扫地僧”杀入OpenAI和Anthropic的安全榜单,我作为安全从业者看到了什么》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论