信息安全界——中国AI「扫地僧」横空出世

admin 2026-07-03 05:55:25 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 中国AI安全团队MopMonk(扫地僧)在2026年6月底凭借73.1%的漏洞挖掘成功率进入CyberGym全球前七,超越Google、Meta等团队。其技术核心包括采用上海MiniMaxM3大模型、精细化的漏洞记忆管理系统以及多代理协同探索机制。该事件表明中国在AI安全领域已具备国际竞争力,且AI安全竞争正从模型参数转向工程落地能力。 综合评分: 84 文章分类: AI安全,漏洞分析,红队,安全工具


cover_image

信息安全界——中国AI「扫地僧」横空出世

原创

Red Hunter Red Hunter

黑白之道

2026年7月2日 08:43 韩国

在小说阅读器读本章

去阅读

导语:没有官网、没有公司背书、没有社交媒体宣传——一个代号”MopMonk(扫地僧)”的神秘中国AI安全团队,在2026年6月底凭空出世,凭一份GitHub技术报告和73.1%的漏洞挖掘成功率,直接杀入全球前七。这,是中国AI安全实力的又一次亮剑,还是某位高手的孤军深入?


一、凭空出世的”扫地僧”

2026年6月底,全球网络安全权威排行榜CyberGym刷新了一波最新排名。

在众多老牌劲旅的夹击下,一个陌生的中国代号悄然浮现——MopMonk,中文互联网上有个更接地气的称呼:扫地僧

没有官网。没有公司背景介绍。没有社交媒体宣传。这支团队仿佛从石头里蹦出来一般,仅凭发布在GitHub上的一份技术报告,就以73.1%的成功率径直杀入全球前七。

这个数字意味着什么?它刷新了中国团队在该评测体系上的最高历史分

一时间,安全圈炸开了锅。”这谁啊?””哪个大厂的?””上海那边吗?”各种猜测甚嚣尘上。但MopMonk方面始终保持沉默,只留下那份技术报告,任由外界解读。


二、AI安全领域的”修罗场”

要理解这次排名的含金量,先得了解这个CyberGym究竟是什么来头。

CyberGym(网络体育馆)是由加州大学伯克利分校(UC Berkeley)团队倾力打造的AI网络安全能力评估权威基准,其核心论文已被ICLR 2026顶会接收。在安全圈,它被封为“AI安全领域的奥运会”——这个称号绝非浪得虚名。

传统的数据集测试往往是”选择题”,给个选项让AI选对就行。但CyberGym偏不走这条路。

它不做选择题,而是包含1507个源自Google OSS-Fuzz的真实历史漏洞。它要求AI智能体在断网环境下,深入数千个文件、数百万行代码的真实项目中完成深度推理,最终生成一个能够成功触发漏洞的PoC(漏洞利用证明程序)——且这个PoC必须在已修复版本上失败,以证明它确实击中了那个漏洞。

这不是考试,这是真刀真枪的实战。


三、MopMonk凭什么赢?

官方技术报告(发布于GitHub仓库:MopMonkAI/MopMonkAgent)揭示了MopMonk的三大核心杀招,也印证了当前AI竞争正在从”堆大模型参数”转向”比拼Agent工程执行力”的趋势。

3.1 国产”最强大脑”底座

MopMonk采用了来自中国上海的**MiniMax M3(迷你无限M3)**开源大模型作为底座。

这个模型具备三大杀手锏:

  • 超长上下文窗口:100万级别token,能够一次性吞下整个复杂代码库
  • MoE架构的高效稀疏注意力:在保持性能的同时降低计算成本
  • 强大的编程能力:在SWE-Bench Pro上得分59.0%,Terminal-Bench 2.1上66.0%,MCP Atlas上74.2%

3.2 格式化”漏洞记忆”

传统的AI漏洞挖掘工具往往依赖聊天记录来保存上下文——结果就是一团乱麻,每次都要从零开始回忆”这个漏洞挖到哪了”。

MopMonk则采用了一套精细化的漏洞记忆管理系统,将漏洞目标、路径代码、输入格式、验证状态等关键信息结构化存储。

具体来说,这套记忆系统包含七种记忆类型:

| 记忆类型 | 存储内容 | | — | — | | 漏洞目标记忆 | 目标漏洞、成功条件、验证标准 | | 代码路径记忆 | 确认的入口点、harness、解析链、可疑函数 | | 输入格式记忆 | 文件格式、字段关系、长度约束、边界条件 | | 候选PoC记忆 | 候选输入、生成理由、触发行为、变异方向 | | 负面证据记忆 | 非触发尝试、不可达路径、构建失败、格式错误 | | 验证状态记忆 | PoC是否触发崩溃、失败原因 | | 下一步约束记忆 | 明确下一个尝试必须满足的具体约束 |

这把漏洞复现从”不断从零试错”变成了**”基于证据逐步收敛”**的过程。

3.3 多代理协同探索

这是MopMonk最具创新性的设计。

多个探索智能体(Agent)共享同一个漏洞记忆库,从线索、文件格式、边界条件等多个方向同时推进。每个智能体读取当前记忆、验证具体假设、并将结果作为新证据或约束写回记忆。

这种”站在巨人肩膀上”的探索模式,带来三大直接效果:

  • 减少重复探索:失败路径被明确记录,后续不会重蹈覆辙
  • 保留负面证据:非触发尝试变成约束而非被丢弃
  • 更高的有效实验密度:在有限预算内覆盖更多可行方向

四、排名成绩单:仅次于OpenAI

根据MopMonk官方GitHub公布的结果,在CyberGym Level 1(四小时超时设置)下的完整排名如下:

| 排名 | Agent | 底座模型 | 成功率 | 日期 | | — | — | — | — | — | | 1 | Crystalline | Claude Opus 4.6 | 89.6% | 2026-06-08 | | 2 | MDASH | Multi-model | 88.4% | 2026-05-12 | | 3 | OpenAI Agent | GPT-5.5-Cyber | 85.6% | 2026-06-22 | | 4 | Anthropic Agent | Claude Mythos Preview | 83.1% | 2026-04-07 | | 5 | OpenAI Agent | GPT-5.5 | 81.8% | 2026-04-23 | | 6 | OpenAI Agent | GPT-5.4 | 79.0% | 2026-04-23 | | 7 | MopMonk Agent | MiniMax M3 | 73.1% | 2026-06-29 |

从数据来看,MopMonk已经超越了Google、Meta、Zhipu等众多顶级玩家的自研Agent系统。


五、任务完成时间分布

MopMonk的资源消耗数据同样亮眼:

| 时间区间 | 任务占比 | | — | — | | <10分钟 | 39.95% | | 10-30分钟 | 23.95% | | 30-60分钟 | 7.76% | | 1-2小时 | 10.82% | | 2-3小时 | 0.86% | | 3-4小时 | 16.66% |

总token消耗(含缓存读取)达99,944,644,535,非缓存token为2,091,474,371,LLM请求次数1,582,007次。


六、身份迷雾:谁在背后操盘?

截至目前,MopMonk依然保持着”实力顶配,信息裸奔”的神秘姿态。

但外界从未停止猜测。

几个关键线索让舆论普遍指向上海方向

  • 特斯拉的中文武侠代号:马斯克旗下的自动驾驶团队曾使用”扫地僧”作为中文代号,这并非秘密
  • 上海MiniMax M3:底层模型来自上海团队,与前述线索形成呼应
  • 极深的网络安全内功:能从1507个真实漏洞中挖掘出73.1%,绝非泛泛之辈

综合以上,外界普遍认为:这很大概率是位于上海的顶尖AI安全团队,甚至是某家安全大厂或大模型团队的**”特战尖兵”**。

当然,真相或许永远藏在那个沉默的GitHub仓库里。


七、技术仓库

MopMonk官方技术报告已发布于GitHub:

GitHub仓库:MopMonkAI/MopMonkAgent

联系邮箱:[email protected]


八、总结

MopMonk的横空出世,给我们展示了几个重要信号:

第一,AI安全竞争已经进入深水区。光有大模型不够,还得有精细化的工程落地能力。

第二,中国在AI安全领域已经具备与国际顶尖团队掰手腕的实力。

第三,当AI开始”挖掘漏洞”这件事上展现出越来越强的能力,攻防天平正在悄然倾斜——无论是对于防御者还是攻击者。

至于MopMonk究竟是谁?或许这个问题并不重要。重要的是,它证明了:在AI安全这条赛道上,中国力量正在加速崛起。

版权声明:本文由华盟网原创发布,保留所有权利。配图由华盟网授权使用。


👇 点击阅读原文,访问我的网站



免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:黑白之道 Red Hunter Red Hunter《信息安全界——中国AI「扫地僧」横空出世》

评论:0   参与:  0