OpenAI发布网络安全模型GPT-5.5-Cyber,能力超越Mythos5

admin 2026-06-30 06:29:24 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: OpenAI于2026年6月22日发布网络安全专项模型GPT-5.5-Cyber,在CyberGym基准测试中以85.6%成绩超越Anthropic的Mythos5。该模型具备漏洞发现、验证和补丁生成全链路能力,联合TrailofBits发起PatchthePlanet项目,5天内为19个开源项目提交64个PR。模型仅向经核验的防御方开放,存在双用途风险,需警惕AI加速网络威胁的潜在影响。 综合评分: 85 文章分类: AI安全,漏洞分析,安全工具,解决方案,安全运营


cover_image

OpenAI 发布网络安全模型GPT-5.5-Cyber,能力超越 Mythos 5

原创

mmc mmc

AGI安全

2026年6月24日 10:56 北京

在小说阅读器读本章

去阅读

AI × CYBER DEFENSE · 2026.06.22

OpenAI 发布网络安全模型GPT-5.5-Cyber,能力超越 Mythos 5

OpenAI 把 Daybreak 计划再次扩张:正式发布「最强找漏洞 + 打补丁」模型 GPT-5.5-Cyber,刷新网络安全基准、并联合 Trail of Bits 发起「Patch the Planet」为开源减负。而它最大的对手 Anthropic,旗下安全模型正因出口管制处于下线状态。

| | | | | | | — | — | — | — | — | | 85.6% CyberGym 基准 | 30+ 参与开源项目 | 5 天 64 个 PR | 23 年 最老漏洞 | 受限访问 仅可信防御者 |

重点摘要

AI 找漏洞已经比人找漏洞快很多。OpenAI 用 GPT-5.5-Cyber + Codex Security 插件 + Patch the Planet,把「发现→验证→定级→补丁→测试」做成闭环,并在权威基准上反超 Anthropic 的安全模型。更微妙的是:对手的同级模型此刻正因美国出口管制而下线。

发布了什么 · 基准实力与对比 · 能干什么 · 真实战绩 · Patch the Planet · 瓶颈之变 · 谁能用 · 双刃与隐忧

01 Daybreak 再扩张

6 月 22 日,OpenAI 把上月公布的网络安全计划「Daybreak」一次性扩展到位,一口气发布了四样东西:

· GPT-5.5-Cyber 正式版——号称「最强的找漏洞 + 协助打补丁」模型;

· Codex Security 插件更新——把发现到修复的全流程提速;

· Patch the Planet——联合 Trail of Bits,给开源项目「批量打补丁」;

· Cyber 合作伙伴计划——拉进 20+ 安全厂商。

GPT-5.5-Cyber 并非一个全新模型,而是同一个 GPT-5.5 叠加了网络安全专项能力的版本——但它在安全任务上的表现,被 OpenAI 称为「迄今最强」。

背景:前沿模型让「找漏洞」变得太快,维护者被海量待验证、待修复的 漏洞 淹没。当下模型的能力已经从「发现漏洞」变成了「修复漏洞」。

02 基准成绩「超越 Claude」

在加州大学伯克利提出的网络安全基准 CyberGym(1507 个真实漏洞、188 个项目,考察能否在受控环境复现漏洞)上:

CYBERGYM 单模型成绩

GPT-5.5-Cyber  85.6% 🏆

Anthropic Mythos 5 83.8%

GPT-5.5(标准版) 81.8%

GPT-5.4      79.0%

Claude Opus 4.7  73.1%

 GPT-5.5-Cyber(85.6%)对 Mythos 5(83.8%)。OpenAI 还称在 ExploitGym(能否把漏洞变成可用利用)、SEC-bench Pro(长程漏洞发现)等基准上全面领先。

Anthropic 的 Mythos 5 与 Fable 5 自 6 月 12 日因美国出口管制紧急令被迫下线,截至本文仍未恢复。于是 GPT-5.5-Cyber 成了「唯一在线可用」的顶级安全模型。

03 发现→验证→打补丁 全闭环

GPT-5.5-Cyber 的卖点是能「在大型代码库上持续做深度分析」:定位安全问题、在受控环境中验证、再开发并测试补丁。配套的 Codex Security 插件把这套能力产品化:

· 深度扫描 / 增量审查:全量扫描,或只看最近改动;

· 结构化报告:严重级别、受影响代码位置、验证证据、修复建议;

· 攻击路径追踪 + 威胁建模

· 针对具体代码库生成补丁(供人工审阅);

· 对接存量发现:把扫描器、安全公告、漏洞赏金报告、工单里的发现统一分诊、验证,再批量打补丁,快速清理积压。

它不只告诉你「这里有漏洞」,还能给出可审阅的补丁,并把一堆零散来源的告警「分诊 → 验证 → 修复」串成一条流水线。

04 Daybreak 挖漏洞战绩

OpenAI 公布了 Daybreak 在各操作系统与浏览器上的成果,含金量不低:

| 目标 | 发现 | | — | — | | Linux 内核 | 扫 3000 万+ 行代码:8 个内核指针信息泄露 PoC + 24 个本地提权利用 | | OpenBSD | 一个潜伏 23 年 的 System V 信号量 UAF,可让普通用户提权到 root | | FreeBSD | 34 个漏洞 + 7 个本地提权 PoC | | 浏览器 | Chrome V8 引擎 5 个、Safari 10+ 个可利用漏洞 | | Firefox | WebAssembly 漏洞 CVE-2026-8390,Pwn2Own 前两天被修复,逼退 5/6 参赛条目 | | dnsmasq | 命中其中 4–6 个漏洞(已分配 CVE 并修复) | | HTTP/2 | DoS 技术「HTTP/2 Bomb」,波及 NGINX、Apache、IIS、Pingora |

业界还提到 Squid 代理一个潜伏 29 年 的漏洞(CVE-2026-47729,绰号 Squidbleed)——老代码里的陈年地雷,正被 AI 批量翻出来。

05 Patch the Planet项目

OpenAI 联合 Trail of Bits(并与 HackerOne 等合作),资助专家研究员、配上 Codex Security 与模型,直接和重要开源项目的维护者协作。30+ 个项目已确认参与,早期名单包括 cURL、Go、Python、Sigstore、pyca/cryptography、NATS、aiohttp、freenginx、python.org 等。

首个 5 天冲刺的成绩单

· 跨 19 个项目,提交 64 个 PR、提 51 个 issue

· 不到一天 为某大型项目搭好完整 fuzzing 测试框架——人类专家通常要 2–3 周;

· 累计已发现数百个安全问题、合并数十个补丁,更多仍在协调披露中。

人工复核,不淹没维护者

每一条 AI 生成的发现,都要先经 Trail of Bits 工程师人工审核,才会提交给维护者——避免用嘈杂的自动报告淹没本就疲惫的开源志愿者。OpenAI 强调:「在让变更如何落地这件事上,保留维护者的自主权」。

06 从「找漏洞」变成「补漏洞」

过去,最难的是发现漏洞;如今前沿模型让发现变得又快又多,维护者反而被埋在「待验证、待分诊、待修复」的报告堆里。瓶颈转移到了修复端。

有意思的是,Anthropic 此前也表达过同样观点——两大实验室在「重心从发现转向修复」上达成了共识。GPT-5.5-Cyber 把 Codex Security 插件覆盖到「发现→补丁生成」的完整链路。

竞争的赛点,正从「谁能找到更多漏洞」转向「谁能更快、更可信地把漏洞修好」。

07受限访问 + 治理在先

GPT-5.5-Cyber 不对外公开,仅通过 OpenAI 的「Trusted Access for Cyber」向经核验的防御方开放(安全厂商、政府机构、企业安全团队、学术研究者)。普通 API / ChatGPT 用不到它。模型分三档,能力越强、身份核验与账户监管越严。

合作伙伴(20+):Cisco、CrowdStrike、Cloudflare、Palo Alto Networks、IBM、Fortinet、Wiz、SentinelOne、Darktrace、Palantir、Accenture、PwC、KPMG 等。

政府网络:澳大利亚、加拿大、法国、德国、日本、韩国、英国及欧盟 ENISA。发布前还与美方 CAISI、国家网络总监办公室(ONCD)做了部署前测试。

对比之下,Anthropic 当初也想走「受限访问」路线,但 OpenAI 提前与政府对齐了合规方案——这也是它能在对手因出口管制下线时「照常营业」的重要原因。

08 双刃剑与几点隐忧

同样的能力,落到攻击者手里就是反面。美、英、加、澳、新已警告:先进 AI 会加快网络威胁的速度、规模与复杂度,拉短「漏洞被发现到被利用」的窗口,时间不是以年计,而是以月计。加拿大网络安全中心也提醒:应假设 AI 驱动的利用会绕过预防性控制、跑赢厂商出补丁的速度。

需要冷静看待

1. 基准 ≠ 实战:不到 2 分的领先很小,分数高不代表能在真实关键基础设施里稳定可用。

2. 报告 ≠ 结果:一条漏洞报告,在通过验证之前都不算「安全成果」;补丁质量、误报控制、开发者信任才是真考验。

3. 双用途风险:能帮防御者的能力,一旦访问控制失守,也会降低攻击门槛——访问治理是命门。

「成功取决于把基础做好、行动够快、把网络安全纳入核心战略;做不到的组织,将面临越来越大的劣势。」

核心数据一览

| | | | | | — | — | — | — | | 85.6% CyberGym 第一 | 83.8% Mythos 5 对位 | 30+ 参与开源项目 | 64 PR 5 天冲刺 | | 23 年 OpenBSD 老洞 | 29 年 Squidbleed | 下线中 Claude 安全模型 | 受限 仅可信防御者 |

GPT-5.5-Cyber 的真正意义,不只是基准榜上多了 1.8 个百分点,而是它把「发现→验证→补丁」做成了可规模化的防御闭环。AI 正同时给攻防双方踩下油门——对防御者而言,把基础做扎实、行动够快,比追逐某个跑分更重要。如果你也关注 AI 与网络安全攻防,欢迎点赞、在看、转发三连,我们下期再见!


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AGI安全 mmc mmc《OpenAI 发布网络安全模型GPT-5.5-Cyber,能力超越 Mythos 5》

评论:0   参与:  0