2026-07-03 05:55:25 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 中国AI安全团队MopMonk（扫地僧）在2026年6月底凭借73.1%的漏洞挖掘成功率进入CyberGym全球前七，超越Google、Meta等团队。其技术核心包括采用上海MiniMaxM3大模型、精细化的漏洞记忆管理系统以及多代理协同探索机制。该事件表明中国在AI安全领域已具备国际竞争力，且AI安全竞争正从模型参数转向工程落地能力。 综合评分： 84 文章分类： AI安全,漏洞分析,红队,安全工具

cover_image

信息安全界——中国AI「扫地僧」横空出世

原创

Red Hunter Red Hunter

黑白之道

2026年7月2日 08:43 韩国

在小说阅读器读本章

去阅读

导语：没有官网、没有公司背书、没有社交媒体宣传——一个代号”MopMonk（扫地僧）”的神秘中国AI安全团队，在2026年6月底凭空出世，凭一份GitHub技术报告和73.1%的漏洞挖掘成功率，直接杀入全球前七。这，是中国AI安全实力的又一次亮剑，还是某位高手的孤军深入？

一、凭空出世的”扫地僧”

2026年6月底，全球网络安全权威排行榜CyberGym刷新了一波最新排名。

在众多老牌劲旅的夹击下，一个陌生的中国代号悄然浮现——MopMonk，中文互联网上有个更接地气的称呼：扫地僧。

没有官网。没有公司背景介绍。没有社交媒体宣传。这支团队仿佛从石头里蹦出来一般，仅凭发布在GitHub上的一份技术报告，就以73.1%的成功率径直杀入全球前七。

这个数字意味着什么？它刷新了中国团队在该评测体系上的最高历史分。

一时间，安全圈炸开了锅。”这谁啊？””哪个大厂的？””上海那边吗？”各种猜测甚嚣尘上。但MopMonk方面始终保持沉默，只留下那份技术报告，任由外界解读。

二、AI安全领域的”修罗场”

要理解这次排名的含金量，先得了解这个CyberGym究竟是什么来头。

CyberGym（网络体育馆）是由加州大学伯克利分校（UC Berkeley）团队倾力打造的AI网络安全能力评估权威基准，其核心论文已被ICLR 2026顶会接收。在安全圈，它被封为“AI安全领域的奥运会”——这个称号绝非浪得虚名。

传统的数据集测试往往是”选择题”，给个选项让AI选对就行。但CyberGym偏不走这条路。

它不做选择题，而是包含1507个源自Google OSS-Fuzz的真实历史漏洞。它要求AI智能体在断网环境下，深入数千个文件、数百万行代码的真实项目中完成深度推理，最终生成一个能够成功触发漏洞的PoC（漏洞利用证明程序）——且这个PoC必须在已修复版本上失败，以证明它确实击中了那个漏洞。

这不是考试，这是真刀真枪的实战。

三、MopMonk凭什么赢？

官方技术报告（发布于GitHub仓库：MopMonkAI/MopMonkAgent）揭示了MopMonk的三大核心杀招，也印证了当前AI竞争正在从”堆大模型参数”转向”比拼Agent工程执行力”的趋势。

3.1 国产”最强大脑”底座

MopMonk采用了来自中国上海的**MiniMax M3（迷你无限M3）**开源大模型作为底座。

这个模型具备三大杀手锏：

超长上下文窗口：100万级别token，能够一次性吞下整个复杂代码库
MoE架构的高效稀疏注意力：在保持性能的同时降低计算成本
强大的编程能力：在SWE-Bench Pro上得分59.0%，Terminal-Bench 2.1上66.0%，MCP Atlas上74.2%

3.2 格式化”漏洞记忆”

传统的AI漏洞挖掘工具往往依赖聊天记录来保存上下文——结果就是一团乱麻，每次都要从零开始回忆”这个漏洞挖到哪了”。

MopMonk则采用了一套精细化的漏洞记忆管理系统，将漏洞目标、路径代码、输入格式、验证状态等关键信息结构化存储。

具体来说，这套记忆系统包含七种记忆类型：

这把漏洞复现从”不断从零试错”变成了**”基于证据逐步收敛”**的过程。

3.3 多代理协同探索

这是MopMonk最具创新性的设计。

多个探索智能体（Agent）共享同一个漏洞记忆库，从线索、文件格式、边界条件等多个方向同时推进。每个智能体读取当前记忆、验证具体假设、并将结果作为新证据或约束写回记忆。

这种”站在巨人肩膀上”的探索模式，带来三大直接效果：

减少重复探索：失败路径被明确记录，后续不会重蹈覆辙
保留负面证据：非触发尝试变成约束而非被丢弃
更高的有效实验密度：在有限预算内覆盖更多可行方向

四、排名成绩单：仅次于OpenAI

根据MopMonk官方GitHub公布的结果，在CyberGym Level 1（四小时超时设置）下的完整排名如下：

| 排名 | Agent | 底座模型 | 成功率 | 日期 | | — | — | — | — | — | | 1 | Crystalline | Claude Opus 4.6 | 89.6% | 2026-06-08 | | 2 | MDASH | Multi-model | 88.4% | 2026-05-12 | | 3 | OpenAI Agent | GPT-5.5-Cyber | 85.6% | 2026-06-22 | | 4 | Anthropic Agent | Claude Mythos Preview | 83.1% | 2026-04-07 | | 5 | OpenAI Agent | GPT-5.5 | 81.8% | 2026-04-23 | | 6 | OpenAI Agent | GPT-5.4 | 79.0% | 2026-04-23 | | 7 | MopMonk Agent | MiniMax M3 | 73.1% | 2026-06-29 |

从数据来看，MopMonk已经超越了Google、Meta、Zhipu等众多顶级玩家的自研Agent系统。

五、任务完成时间分布

MopMonk的资源消耗数据同样亮眼：

| 时间区间 | 任务占比 | | — | — | | <10分钟 | 39.95% | | 10-30分钟 | 23.95% | | 30-60分钟 | 7.76% | | 1-2小时 | 10.82% | | 2-3小时 | 0.86% | | 3-4小时 | 16.66% |

总token消耗（含缓存读取）达99,944,644,535，非缓存token为2,091,474,371，LLM请求次数1,582,007次。

六、身份迷雾：谁在背后操盘？

截至目前，MopMonk依然保持着”实力顶配，信息裸奔”的神秘姿态。

但外界从未停止猜测。

几个关键线索让舆论普遍指向上海方向：

特斯拉的中文武侠代号：马斯克旗下的自动驾驶团队曾使用”扫地僧”作为中文代号，这并非秘密
上海MiniMax M3：底层模型来自上海团队，与前述线索形成呼应
极深的网络安全内功：能从1507个真实漏洞中挖掘出73.1%，绝非泛泛之辈

综合以上，外界普遍认为：这很大概率是位于上海的顶尖AI安全团队，甚至是某家安全大厂或大模型团队的**”特战尖兵”**。

当然，真相或许永远藏在那个沉默的GitHub仓库里。

七、技术仓库

MopMonk官方技术报告已发布于GitHub：

GitHub仓库：MopMonkAI/MopMonkAgent

联系邮箱：[email protected]

八、总结

MopMonk的横空出世，给我们展示了几个重要信号：

第一，AI安全竞争已经进入深水区。光有大模型不够，还得有精细化的工程落地能力。

第二，中国在AI安全领域已经具备与国际顶尖团队掰手腕的实力。

第三，当AI开始”挖掘漏洞”这件事上展现出越来越强的能力，攻防天平正在悄然倾斜——无论是对于防御者还是攻击者。

至于MopMonk究竟是谁？或许这个问题并不重要。重要的是，它证明了：在AI安全这条赛道上，中国力量正在加速崛起。

👇 点击阅读原文，访问我的网站

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：黑白之道 Red Hunter Red Hunter《信息安全界——中国AI「扫地僧」横空出世》