神秘国产AI安全「扫地僧」杀进全球前七,直逼OpenAI

admin 2026-07-01 05:52:17 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 国产AI安全模型MopMonk在UCBerkeley的CyberGym评测中以73.1%成功率位列全球第七,其基于MiniMaxM3模型并采用专属Harness框架实现高效漏洞挖掘。该框架通过结构化漏洞记忆、记忆驱动迭代和多智能体并行探索三大核心设计,将模型能力转化为实际漏洞发现能力,为AI安全领域提供了参数优化转向工程调度的新思路。 综合评分: 82 文章分类: AI安全,漏洞分析,安全工具,解决方案,技术标准


cover_image

神秘国产AI安全「扫地僧」杀进全球前七,直逼OpenAI

原创

hacking hacking

Hacking黑白红

2026年6月30日 13:44 安徽

在小说阅读器读本章

去阅读

日前,UC Berkeley打造的CyberGym,是业内公认AI安全“奥运会”,考题全部来自真实开源漏洞,规模是传统评测基准7.5倍,要求AI自主挖掘漏洞、写出可复现攻击代码,全球大厂悉数参战。

图片来源:新智元

01

国产黑马凭空杀出

就在GPT-5.5、Claude等海外顶流同台比拼时,一个代号MopMonk(扫地僧) 的国产AI突然上榜,以73.1%成功率拿下全球第七、国内第一,成绩紧追OpenAI。

诡异的是这支团队全程低调,没有发布会、没有官方宣传,只放出开源技术文档,背景至今成谜。

取名“扫地僧”,颇有武侠内味:不显山露水,一出手便能和全球巨头掰手腕。

02、

底层底气:MiniMax M3打造强大基座

扫地僧的底层模型是国产MiniMax M3,也是它能突围的核心根基。这款开源模型集齐三大王牌能力:百万token超长上下文、顶尖代码能力、原生多模态。

面对CyberGym百万行大型代码库,1M上下文窗口能完整读取项目文件;代码跑分对标海外闭源大模型,长周期自主迭代、自我纠错,为漏洞挖掘提供充足算力与推理支撑。

03、

制胜关键:专属Harness框架,补齐AI行动力

很多大模型看得懂漏洞,却写不出有效PoC,问题卡在协调层Harness,而这正是扫地僧的独门内功。

整套框架分三层核心设计:

1. 结构化漏洞记忆:分类存储代码路径、失败案例、测试约束,不用每次重读全部代码,大幅降低计算消耗;

2. 记忆驱动迭代挖掘:每轮测试结果自动留存,基于过往经验缩小搜索范围,减少无效试错;

3. 多智能体并行探索:多个Agent共享记忆,从不同方向同步排查漏洞,互不重复、效率翻倍。

简单说:M3负责思考判断,Harness负责落地执行,二者深度绑定,把模型智商转化为实打实的漏洞挖掘能力。

04、

行业风向变了:堆参数已成过去式

此前行业内卷一味做大模型参数,但CyberGym榜单给出全新结论:

Agent执行框架、调度工程的价值,远大于单纯扩充参数。

模型会持续迭代,但打磨成熟的Harness调度体系可以长期复用,具备复利价值。扫地僧这套方案,给国内AI安全团队提供了全新路线:用好优质开源基座,深耕智能体调度工程,就能追上海外头部产品。

05、

神秘扫地僧究竟来自哪里?

现有线索全部指向国内:

东方武侠代号、上海MiniMax基座、深耕网络安全的技术路线,业内普遍猜测是上海本土AI安全团队。

网友评论

“起这种名字大概率是阿里”

“我喜欢这个名字,充满了武侠的浪漫,只有中国人懂的浪漫。”

不过官方至今没有透露企业、团队信息,只开放GitHub开源仓库。

这名低调的国产“扫地僧”,也留下行业一大悬念:到底是哪家团队打造出这匹黑马?

作者:hacking。前北漂程序员,现在做安全。文章数据来自网络,大模型优化,侵权删。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:Hacking黑白红 hacking hacking《神秘国产AI安全「扫地僧」杀进全球前七,直逼OpenAI》

nonono.不要使用kill-9 网络安全文章

nonono.不要使用kill-9

文章总结: 本文详细解释了Linux中kill命令的工作原理,强调kill-9(SIGKILL)的危险性,因为它会立即终止进程而不允许其进行清理操作,可能导致数
评论:0   参与:  0