2026-07-03 06:29:32 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文章介绍AI安全代理‘扫地僧’在CyberGym真实漏洞复现测试中以73.1%成功率位列全球第七，其采用以结构化记忆为中心的多智能体设计，通过记录探索过程提升效率，而非依赖最大参数模型。作者认为这展示了垂直安全Agent的潜力，并指出AI安全技术既可能提升防御效率，也可能被黑产用于武器化漏洞。 综合评分： 85 文章分类： AI安全,漏洞分析,安全工具

cover_image

“扫地僧”杀入OpenAI和Anthropic的安全榜单，我作为安全从业者看到了什么

原创

暗影安全暗影安全

暗影安全

2026年7月1日 13:21 北京

在小说阅读器读本章

去阅读

凌晨刷到CyberGym的榜单，一个名字让我坐直了腰子：MopMonk Agent。

MopMonk，翻译过来就是“扫地僧”。

在金庸武侠里，扫地僧是藏经阁里籍籍无名、却武功通天的绝世高手。当这个名字出现在AI安全评测榜单上，和OpenAI、Anthropic、微软这些巨头排在一起的时候，作为干了多年的网络安全从业者，我很难不兴奋。

这个成绩有多猛？

先看数字：CyberGym Level 1，73.1%成功率，全球第七。

CyberGym不是“给模型出一套选择题”的评测。它是UC Berkeley团队搞的真实漏洞复现测试——给你一个漏洞描述和未修复的代码库，Agent必须自己构造出能真正触发漏洞的PoC输入，然后分别在修复前和修复后的版本上跑一遍，验证结果。

说白了，这不是考试，这是上战场。

1507个真实漏洞实例，来自188个大型软件项目。很多任务需要Agent跨越数千个文件、数百万行代码去追踪漏洞线索。这比CTF难多了——CTF好歹是出题人精心设计的靶场，CyberGym面对的是现实世界那些七扭八绕的代码库。

“扫地僧”的独门功夫

MopMonk没有用最贵最大的模型。它基座是MiniMax的M3。

真正有意思的是它的架构：“以结构化记忆为中心的多Agent设计”（memory-centric Multi-Agent design）。

翻译成人话就是：这个系统不止是“让模型猜漏洞”，而是组织了一群AI“研究员”，每个人带着一个共享的记事本，记录哪些代码路径看过了、哪些输入格式被排除了、哪个PoC快接近触发了、为什么上一轮失败了。

在安全这个行业里干过漏洞挖掘的人都懂——最消耗时间的就是反复读代码、反复试错、反复撞同一墙。新人挖洞常常在一个坑里摇三次，老手靠的是经验和直觉，而直觉本质上就是大脑里积累了无数失败记忆之后形成的模式识别。

MopMonk的结构化记忆，就是把这种“经验”显式地编码进Agent系统里。它不让每一轮探索都从零开始。

这一点，我觉得比单纯堆参数更有行业价值。

安全圈的“三重门”

CyberGym榜单上的格局很有意思。排名在MopMonk前面的有Crystalline、微软MDASH、OpenAI Agent、Anthropic Agent。

但MopMonk给我们展示了第三条路的分化：

第一条路：堆大模型——OpenAI、Anthropic代表。靠更大的参数量、更聪明的基座来碾压。成本极高，门槛极高。

第二条路：系统工程——微软MDASH代表。靠精心设计的系统架构、流程编排来解决问题。

第三条路：垂直安全Agent——MopMonk代表。不追求模型最大，而是在安全场景的垂直方向上做深，用领域知识和结构化记忆系统来弥补模型能力的差距。

作为安全人，我天然对第三条路最感兴趣。不是因为大模型不重要——M3本身也是很强的基座——而是因为安全这个领域太特殊了。

漏洞挖掘不是写诗，不是聊天，不是“根据上下文猜个大概”。漏洞挖掘需要精确到字节级的输入构造，需要在千万行代码里找到那个被遗漏的边界条件，需要理解编译器优化、内存布局、协议栈行为。通用大模型再聪明，如果不在这个垂直方向上深耕，天花板也很明显。

一个安全从业者的真实感受

说实话，看到这个消息，我心情有点复杂。

一方面是激动。AI安全Agent如果能真正成熟，意味着以后挖漏洞、做代码审计的效率可能会有量级提升。对一个经常加班的甲方安全工程师来说，一个能自动复现漏洞的Agent，价值不亚于当年静态扫描从手工代码审计中解放出来的那一波。

另一方面是警惕。同样的技术，用来挖洞和用来利用漏洞，差别只在意图。一个能以73%成功率自动生成PoC的系统，在黑产手中意味着更快地发现和武器化。0day。攻击者从来不缺动机，他们缺的只是效率。

安全行业有一个永恒的悖论：我们开发的每一把“盾牌技术”，几乎都会被改造成“矛”。

写在最后

MopMonk团队没有公开身份，保持神秘。但“扫地僧”这个名字本身，已经说明了很多东西。

在传统的安全圈里，最厉害的攻防专家往往也是最低调的——你永远不知道某场高难度漏洞赛的冠军，是不是一个平时连话都不说的人。MopMonk把这种气质带到了AI安全领域。

2007年我刚入行的时候，挖漏洞靠的是耐心加直觉，一人一终端，面对冰冷的汇编代码。2026年的今天，Agent们在几毫秒内就能遍历我当年一周才能读完的代码路径。

MopMonk的出现，不是终点，甚至不是起点的起点。

对于安全从业者来说，这是一个信号：AI安全Agent这条路，正在从实验室走向实战。不管你准备好了没有，浪潮已经来了。

而我们能做的，是像扫地僧一样——低调，但随时能打。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：暗影安全暗影安全暗影安全《“扫地僧”杀入OpenAI和Anthropic的安全榜单，我作为安全从业者看到了什么》