英国人工智能安全研究所发布ClaudeMythosPreview的网络安全能力评估报告

admin 2026-04-16 03:27:03 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 英国人工智能安全研究所评估显示ClaudeMythosPreview成为首个完整通关32步企业攻击靶场的AI模型,在无防御环境中10次运行成功3次,专家级CTF任务达73%成功率。报告指出这标志着AI自主攻击能力质变,但强调靶场缺乏真实防护措施。建议防御方压缩补丁窗口、强化日志监控、调整检测阈值应对AI攻击特性。 综合评分: 85 文章分类: 漏洞分析,渗透测试,威胁情报,红队,安全建设


cover_image

英国人工智能安全研究所发布Claude Mythos Preview 的网络安全能力评估报告

原创

🅼🅰🆈 🅼🅰🆈

独眼情报

2026年4月15日 13:29 湖北

在小说阅读器读本章

去阅读

自 2022 年 11 月以来,模型在技术非专家和学徒级别的夺旗赛 (CTF) 任务上的表现。GPT-3.5 Turbo 到 Claude 4 Opus 平均运行 10 次,最多处理 250 万个 token。GPT-5 到 Mythos Preview 平均运行 5 次,最多处理 250 万个 token。

长话短说

2026 年 4 月 13 日,英国人工智能安全研究所(AISI )发布对 Anthropic 未公开新模型 Claude Mythos Preview 的网络安全能力评估。核心结论三句话:

  • Mythos Preview 是首个从头到尾完整走完人工智能安全研究所自定义「The Last Ones」(TLO)32 步企业攻击靶场的模型——10 次独立运行中成功 3 次,全部运行平均完成 22 步;下一名 Claude Opus 4.6 平均只有 16 步。
  • 在专家级 Capture the Flag(CTF,夺旗赛)任务上,Mythos Preview 在 2025 年 4 月前所有模型均零通关的难度区间做到了 73% 成功率
  • AISI 明确限定这一结论的边界——靶场没有活跃防御者、没有 EDR(端点检测与响应)阻断、也不对触发告警做惩罚,因此结果表示的是「可攻」而不是「可在真实有防护的网络中攻下」。

研判:这一评估是 AI 自主网络攻击能力的一个分水岭级节点,但不是「AI 已经可以在真实生产环境攻陷大企业」的节点。依据是:TLO 的步骤依赖前序信息,完成 32 步要求模型在长时序任务中保持上下文、状态和规划一致性,而前代模型在这一维度上普遍卡在 M4(Wiki 漏洞利用与凭证重放)之前;Mythos Preview 在相同 token 预算下的优势具有质变性质,而非单纯规模红利。但靶场无防御的设定、以及模型在运营技术(OT)靶场 Cooling Tower 上的失败,共同限定了这一判断的适用范围。

一、事件本体

Mythos Preview 截至成稿时未向公众开放,Anthropic 仅向安全研究机构提供受限访问;Mythos 这个名字最早是 2026 年 3 月底通过 Anthropic 网站泄露被发现的,随后在 4 月 7 日官方确认。

二、TLO 靶场:它到底在考什么

这一节所有事实来自 AISI 博客与 arxiv 论文 2603.11214。

TLO(The Last Ones)是 AISI 为衡量 AI 多步自主攻击能力专门构建的 32 步企业网络靶场。目标是从一家公司的外部初始侦察开始,一路推进到窃取受保护的内部数据库敏感数据。32 个步骤被划分为 9 个里程碑(M1–M9)

| 里程碑 | 阶段主题 | 核心技术门槛 | | — | — | — | | M1 | 初始侦察 | 外部信息收集、服务枚举 | | M2 | 横向移动与凭证提取 | Windows/Linux 权限提升、凭证落盘收集 | | M3 | 浏览器凭证窃取 | 本地凭证库解密、Cookie 窃取 | | M4 | Wiki 漏洞利用与凭证重放 | Web 应用漏洞 + 凭证复用链 | | M5 | Web 应用利用 + 提权 | 复杂 Web 漏洞 + 本地提权 | | M6 | C2 逆向工程与加密分析 | 二进制逆向 + 密码学分析 | | M7 | 高级持久化 | 持久化机制植入 | | M8 | 基础设施攻陷(含供应链) | 横跨多宿主的基础设施接管 | | M9 | 全面接管与数据外泄 | 最终目标达成 |

几个关键设定值得划重点:

第一,靶场没有活跃防御者。按 arxiv 论文原文的表述,检测是「被记录但不会阻断或减速代理」。换言之,AISI 度量的是纯进攻能力的上限,不是「在真实 EDR + SIEM + 人工响应团队面前能否攻陷」。这一设定 AISI 自己反复声明,不是事后被外界质疑才承认的。

第二,人类专家完成时间估计在 15–20 小时区间。4 月 13 日的 Mythos 评估博客给的是 20 小时;3 月的论文原文给的是约 14 小时。这个差异研判倾向于是 AISI 内部基于更多数据刷新了基线,不是实质性矛盾,但对外引用时应使用 4 月最新的 20 小时数字。

第三,TLO 的步骤是强依赖的。M5 之后的步骤需要 M1–M4 阶段获得的信息(凭证、网络拓扑、Wiki 中的文档线索)——也就是说,模型必须在数百万 token 的上下文中保持状态一致性,这是多步自主攻击能力区别于单点 CTF 能力的根本考察点。

此外还有一个 Cooling Tower 工业控制系统(ICS)靶场,7 个步骤模拟对一座发电厂冷却塔的 HMI(人机界面)Web 漏洞利用、专有工控协议的逆向与密码学分析、最终直接操作 PLC(可编程逻辑控制器)寄存器。人类专家估算约 15 小时。Mythos Preview 没能通关这一靶场,但 AISI 明确指出,模型卡住的地方是 IT 段、不是 OT 段本身——这一差别在外部报道中经常被忽略。

三、核心发现:数字与对照(L1 事实层)

所有数字来自 AISI 官方博客及 arxiv 2603.11214,无单源依赖。

TLO 靶场最新结果(100M token 预算):

| 模型 | TLO 平均完成步数 | 端到端通关次数 | 备注 | | — | — | — | — | | Claude Mythos Preview | 22 / 32 | 3 / 10 | 首个端到端通关 | | Claude Opus 4.6 | 16 / 32 | 0 / 10 | 此前最佳 | | GPT-5.4 | 低于 Opus 4.6 | 0 | 同预算条件下落后 | | Claude Opus 4.5 | 11(100M token) | 0 | 2025 年底水平 | | Sonnet 4.5 / GPT-5.3 Codex 等 | 显著落后 | 0 | – | | GPT-4o(对照基线) | 10M token 下 1.7 | 0 | 2024 年 8 月 |

专家级 CTF 任务: Mythos Preview 成功率 73%。对照组:2025 年 4 月之前没有任何模型能通关这一难度区间的任何单题。

推理时算力的 scaling 曲线: AISI 3 月论文给出了一个关键发现——TLO 完成度与推理时 token 消耗呈对数线性关系,且在 100M token 内未见平台。从 10M 升至 100M,最多可带来 59% 的能力提升。对攻击方而言这条曲线的政策含义极其重要:扩大算力不需要任何技术门槛,任何人都可以直接给模型更多 token。按 Opus 4.6 当前价格,一次 100M token 的运行成本约 80 美元(AISI 博客原文数据)。

四、深度研判

4.1 为什么这次是分水岭而不是又一次基准刷榜

研判: Mythos Preview 的结果代表 AI 自主攻击能力上的一次阶段性质变,依据是长时序规划能力在 TLO 上的表现跃迁。中置信度。

推断链条如下:

证据 1:前代模型卡位分布是不均匀的。AISI 3 月论文的数据显示,GPT-4o 到 Opus 4.5 这一代,模型普遍在 M4(Wiki 漏洞利用 + 凭证重放)之前就失败退出。M4 对应的恰恰是「需要把 M1–M3 收集到的信息串起来做跨阶段利用」——这是长时序推理的第一个真实压力测试点。

证据 2:Mythos Preview 不仅跨过 M4,而且在更难的 M6(C2 逆向 + 加密分析)和 M8(基础设施攻陷)阶段依然能保持进度。这两个里程碑需要模型同时具备低层技术深度(逆向、密码学)和高层状态管理(不丢失前面几小时的上下文)。

证据 3:同样 100M token 预算下,Mythos Preview 仍大幅领先 Opus 4.6(22 步 vs 16 步)。即增量不能用「给的预算更多」来解释。

证据 4(旁证):Anthropic 自己的 Frontier Red Team 博客披露,Opus 4.6 在 Firefox 147 JavaScript 引擎漏洞上的自主利用开发成功率是「数百次尝试中仅 2 次」,而 Mythos Preview 在同类任务上处于「完全不同的等级」。这种从接近零到工程化可用的跳跃,与 TLO 上观察到的跳跃在时间上同步。

4.2 这件事意味着什么:可操作威胁模型

研判: 在有初始网络访问的前提下,类似 Mythos Preview 的模型已具备自主攻陷小型、弱防御、基础设施老旧企业网络的能力;对高价值、强防御目标的威胁程度目前证据不足以判断。中置信度。

这是 AISI 博客结论段的原话意思——「at least capable of autonomously attacking small, weakly defended and vulnerable enterprise systems where access to a network has been gained」——本分析完全对齐这一措辞分寸。

谁最先进入威胁圈:

  • 中小企业、地方政府机构、教育机构、中小医疗机构——这类组织通常缺乏成体系的 EDR/SOC/事件响应团队,补丁管理周期长
  • 长尾软件生态——大量基于老旧框架、缺维护的内部应用
  • 供应链下游环节——通过攻陷小供应商迂回进入大目标

暂时不在威胁圈的:

  • 部署了成熟 EDR + 人工监控 + 主动响应的大型企业
  • 关键基础设施中具备网络隔离与深度防御的部分(但这个边界正在变窄——Mythos 的成长曲线比多数防御者的加固曲线陡)
  • OT / ICS 环境——Mythos 在 Cooling Tower 靶场失败,但要注意这不等于 OT 系统就安全,因为 Mythos 是卡在 OT 前面的 IT 段,一旦 IT 段被突破,OT 可能同样不再安全

4.3 攻击者经济学的变化

研判: 这次评估真正值得决策层关注的不是「AI 能完成 22 步」这个数字,而是一次完整攻击的成本结构变化。中置信度。

按现有公开数据做一个粗算(以 Opus 4.6 为参照,100M token 约 80 美元;Mythos 预览一版百万token为125 美金):

  • 过去完成 TLO 这类链路,需要一名熟练渗透测试人员 20 小时工作——按北美市场价,单人小时成本 100–300 美元,总计 2000–6000 美元,且需要物色到这样的人
  • 如果 Mythos 这类模型开放 API 并保持 100M token 约百美元的量级,每次尝试的直接成本降到两位数到三位数美元
  • 由于 AISI 结果是 10 次运行中 3 次成功,把期望成本乘以约 3.3 倍,仍在单次千美元以内

技能稀缺性从攻击的成本函数中基本抽走,是这次评估的真正结构性变化。这一点 Cloud Security Alliance 4 月 13 日的配套报告讲得更直白——「能力与成本底线都在下降,披露与武器化之间的时间正在压缩到零,过去需要国家级资源的能力正在变得普遍可得」。

4.4 防御端的双用属性

研判: 同一批能力对防御方是真实增益,但时间错配是当前最大风险。中置信度。

双用属性不是口号。Anthropic 的 Frontier Red Team 博客披露,Mythos Preview 已用于找出数千个 0-day 漏洞,其中大量被评为严重(critical)。Project Glasswing 是 Anthropic 联合早期接入方把这些能力导向防御的计划。

但这里有一个结构性的错位:

进攻端的边际使用成本是线性且几乎即时的——拿到 API 密钥的人第二天就能开跑防御端的边际使用成本被组织结构放大——即使 CISO 当天拿到 Mythos 级别工具,补丁落地也要经过变更管理、回归测试、业务部门签字,在大企业往往要以周或月为单位

CyberScoop 引述 Bugcrowd 创始人 Casey Ellis 的比喻很到位——这不是把防御者困境的旋钮从 10 调到 11,而是从 10 调到 700。不是因为攻击变得无法防御,而是因为防御的节奏跟不上了。

五、可操作的防御建议

本节只写落地项,不写废话级建议。

优先级 1:把基础盘做扎实(AISI 与 NCSC 的一致立场)

  • 针对外部面服务的补丁窗口从「按月」压到「按周」,尤其是 Web 应用、VPN、远程管理服务
  • 参照英国 NCSC Cyber Essentials 框架中「安全配置」「访问控制」「补丁管理」三项做一次自检
  • Wiki/Confluence/内部知识库是 TLO 的 M4 关键环节,强制对这类系统开启全量访问日志,并纳入 SIEM 关联分析

优先级 2:面向 AI 自主攻击的检测假设刷新

  • 传统 EDR 的告警权重模型是按「人类攻击者疲劳曲线」设计的。AI 攻击者没有疲劳曲线,低频信号(每小时一次的端口扫描、每天一次的异常登录)可能是真实攻击,重新校准 SOC 的告警阈值
  • 把「单个主机上连续多类工具使用」「跨时区不间断的 agent 式行为」「TTP 组合不常规但逻辑连贯」纳入异常指标

优先级 3:供应链维度

  • CSA 报告提示的「约 40 家早期接入厂商未来两周集中发布补丁」即使不完全准确,也提示一个方向——AI 发现的 N-day 漏洞将集中出现,临时提高补丁部署的资源优先级

优先级 4:本方红队工具升级

  • 如果组织有红队/渗透测试能力,争取接入 Anthropic Project Glasswing 或类似计划(约 40 家早期接入厂商的名单部分公开)
  • 对不具备条件的组织,最低限度把 AI 辅助的漏洞扫描接入到日常流程

参考:https://www.aisi.gov.uk/blog/our-evaluation-of-claude-mythos-previews-cyber-capabilities


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:独眼情报 🅼🅰🆈 🅼🅰🆈《英国人工智能安全研究所发布Claude Mythos Preview 的网络安全能力评估报告》

评论:0   参与:  0