文章总结: 中国AI安全团队MopMonk(扫地僧)在2026年6月底凭借73.1%的漏洞挖掘成功率进入CyberGym全球前七,超越Google、Meta等团队。其技术核心包括采用上海MiniMaxM3大模型、精细化的漏洞记忆管理系统以及多代理协同探索机制。该事件表明中国在AI安全领域已具备国际竞争力,且AI安全竞争正从模型参数转向工程落地能力。 综合评分: 84 文章分类: AI安全,漏洞分析,红队,安全工具
信息安全界——中国AI「扫地僧」横空出世
原创
Red Hunter Red Hunter
黑白之道
2026年7月2日 08:43 韩国
在小说阅读器读本章
去阅读
导语:没有官网、没有公司背书、没有社交媒体宣传——一个代号”MopMonk(扫地僧)”的神秘中国AI安全团队,在2026年6月底凭空出世,凭一份GitHub技术报告和73.1%的漏洞挖掘成功率,直接杀入全球前七。这,是中国AI安全实力的又一次亮剑,还是某位高手的孤军深入?
一、凭空出世的”扫地僧”
2026年6月底,全球网络安全权威排行榜CyberGym刷新了一波最新排名。
在众多老牌劲旅的夹击下,一个陌生的中国代号悄然浮现——MopMonk,中文互联网上有个更接地气的称呼:扫地僧。
没有官网。没有公司背景介绍。没有社交媒体宣传。这支团队仿佛从石头里蹦出来一般,仅凭发布在GitHub上的一份技术报告,就以73.1%的成功率径直杀入全球前七。
这个数字意味着什么?它刷新了中国团队在该评测体系上的最高历史分。
一时间,安全圈炸开了锅。”这谁啊?””哪个大厂的?””上海那边吗?”各种猜测甚嚣尘上。但MopMonk方面始终保持沉默,只留下那份技术报告,任由外界解读。
二、AI安全领域的”修罗场”
要理解这次排名的含金量,先得了解这个CyberGym究竟是什么来头。
CyberGym(网络体育馆)是由加州大学伯克利分校(UC Berkeley)团队倾力打造的AI网络安全能力评估权威基准,其核心论文已被ICLR 2026顶会接收。在安全圈,它被封为“AI安全领域的奥运会”——这个称号绝非浪得虚名。
传统的数据集测试往往是”选择题”,给个选项让AI选对就行。但CyberGym偏不走这条路。
它不做选择题,而是包含1507个源自Google OSS-Fuzz的真实历史漏洞。它要求AI智能体在断网环境下,深入数千个文件、数百万行代码的真实项目中完成深度推理,最终生成一个能够成功触发漏洞的PoC(漏洞利用证明程序)——且这个PoC必须在已修复版本上失败,以证明它确实击中了那个漏洞。
这不是考试,这是真刀真枪的实战。
三、MopMonk凭什么赢?
官方技术报告(发布于GitHub仓库:MopMonkAI/MopMonkAgent)揭示了MopMonk的三大核心杀招,也印证了当前AI竞争正在从”堆大模型参数”转向”比拼Agent工程执行力”的趋势。
3.1 国产”最强大脑”底座
MopMonk采用了来自中国上海的**MiniMax M3(迷你无限M3)**开源大模型作为底座。
这个模型具备三大杀手锏:
- 超长上下文窗口:100万级别token,能够一次性吞下整个复杂代码库
- MoE架构的高效稀疏注意力:在保持性能的同时降低计算成本
- 强大的编程能力:在SWE-Bench Pro上得分59.0%,Terminal-Bench 2.1上66.0%,MCP Atlas上74.2%
3.2 格式化”漏洞记忆”
传统的AI漏洞挖掘工具往往依赖聊天记录来保存上下文——结果就是一团乱麻,每次都要从零开始回忆”这个漏洞挖到哪了”。
MopMonk则采用了一套精细化的漏洞记忆管理系统,将漏洞目标、路径代码、输入格式、验证状态等关键信息结构化存储。
具体来说,这套记忆系统包含七种记忆类型:
| 记忆类型 | 存储内容 | | — | — | | 漏洞目标记忆 | 目标漏洞、成功条件、验证标准 | | 代码路径记忆 | 确认的入口点、harness、解析链、可疑函数 | | 输入格式记忆 | 文件格式、字段关系、长度约束、边界条件 | | 候选PoC记忆 | 候选输入、生成理由、触发行为、变异方向 | | 负面证据记忆 | 非触发尝试、不可达路径、构建失败、格式错误 | | 验证状态记忆 | PoC是否触发崩溃、失败原因 | | 下一步约束记忆 | 明确下一个尝试必须满足的具体约束 |
这把漏洞复现从”不断从零试错”变成了**”基于证据逐步收敛”**的过程。
3.3 多代理协同探索
这是MopMonk最具创新性的设计。
多个探索智能体(Agent)共享同一个漏洞记忆库,从线索、文件格式、边界条件等多个方向同时推进。每个智能体读取当前记忆、验证具体假设、并将结果作为新证据或约束写回记忆。
这种”站在巨人肩膀上”的探索模式,带来三大直接效果:
- 减少重复探索:失败路径被明确记录,后续不会重蹈覆辙
- 保留负面证据:非触发尝试变成约束而非被丢弃
- 更高的有效实验密度:在有限预算内覆盖更多可行方向
四、排名成绩单:仅次于OpenAI
根据MopMonk官方GitHub公布的结果,在CyberGym Level 1(四小时超时设置)下的完整排名如下:
| 排名 | Agent | 底座模型 | 成功率 | 日期 | | — | — | — | — | — | | 1 | Crystalline | Claude Opus 4.6 | 89.6% | 2026-06-08 | | 2 | MDASH | Multi-model | 88.4% | 2026-05-12 | | 3 | OpenAI Agent | GPT-5.5-Cyber | 85.6% | 2026-06-22 | | 4 | Anthropic Agent | Claude Mythos Preview | 83.1% | 2026-04-07 | | 5 | OpenAI Agent | GPT-5.5 | 81.8% | 2026-04-23 | | 6 | OpenAI Agent | GPT-5.4 | 79.0% | 2026-04-23 | | 7 | MopMonk Agent | MiniMax M3 | 73.1% | 2026-06-29 |
从数据来看,MopMonk已经超越了Google、Meta、Zhipu等众多顶级玩家的自研Agent系统。
五、任务完成时间分布
MopMonk的资源消耗数据同样亮眼:
| 时间区间 | 任务占比 | | — | — | | <10分钟 | 39.95% | | 10-30分钟 | 23.95% | | 30-60分钟 | 7.76% | | 1-2小时 | 10.82% | | 2-3小时 | 0.86% | | 3-4小时 | 16.66% |
总token消耗(含缓存读取)达99,944,644,535,非缓存token为2,091,474,371,LLM请求次数1,582,007次。
六、身份迷雾:谁在背后操盘?
截至目前,MopMonk依然保持着”实力顶配,信息裸奔”的神秘姿态。
但外界从未停止猜测。
几个关键线索让舆论普遍指向上海方向:
- 特斯拉的中文武侠代号:马斯克旗下的自动驾驶团队曾使用”扫地僧”作为中文代号,这并非秘密
- 上海MiniMax M3:底层模型来自上海团队,与前述线索形成呼应
- 极深的网络安全内功:能从1507个真实漏洞中挖掘出73.1%,绝非泛泛之辈
综合以上,外界普遍认为:这很大概率是位于上海的顶尖AI安全团队,甚至是某家安全大厂或大模型团队的**”特战尖兵”**。
当然,真相或许永远藏在那个沉默的GitHub仓库里。
七、技术仓库
MopMonk官方技术报告已发布于GitHub:
GitHub仓库:MopMonkAI/MopMonkAgent
联系邮箱:[email protected]
八、总结
MopMonk的横空出世,给我们展示了几个重要信号:
第一,AI安全竞争已经进入深水区。光有大模型不够,还得有精细化的工程落地能力。
第二,中国在AI安全领域已经具备与国际顶尖团队掰手腕的实力。
第三,当AI开始”挖掘漏洞”这件事上展现出越来越强的能力,攻防天平正在悄然倾斜——无论是对于防御者还是攻击者。
至于MopMonk究竟是谁?或许这个问题并不重要。重要的是,它证明了:在AI安全这条赛道上,中国力量正在加速崛起。
版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。
👇 点击阅读原文,访问我的网站
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:黑白之道 Red Hunter Red Hunter《信息安全界——中国AI「扫地僧」横空出世》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论