用GPT-5.4单挑NCTF团队赛,成功解出91.7%的题目

admin 2026-04-07 00:45:12 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 作者使用GPT-5.4参与NCTF2026团队赛,通过纯AI驱动(无代码编写、无手动分析)完成24题中的22题,解题率达91.7%。实验对比发现国产模型在复杂逻辑绕过与逆向分析中表现不足,而Codex+GPT-5.4因Agent工程能力更强,在长链路任务中优于Trae+GPT-5.4。文章指出CTF题目缺乏对AI的抗性设计,传统漏洞题易被AI破解,并警示初级安全研究员需与AI建立共生关系,以应对技术门槛被拉平后的行业挑战。 综合评分: 85 文章分类: CTF,AI安全,实战经验,安全工具,安全培训


cover_image

用 GPT-5.4 单挑 NCTF 团队赛,成功解出91.7%的题目

原创

漏洞战争 漏洞战争

漏洞战争

2026年4月6日 10:59 广东

自从买了token套餐之后,每天不把token用完就有点焦虑。于是,放假这2天,就打算用GPT-5.4来打CTF比赛。网上找了下,刚好南京邮电大学在举办NCTF 2026比赛,就拿来作实验,看一个人带着GPT-5.4,如何单挑整个团队赛(4人赛)。

刚才9点(4月6日)的时候,比赛已结束。

最终成绩:24道题,成功解出22道,解题率91.7%。

排名34,共有参赛队伍915支,有得分的433支队伍。

在这场所谓的“技术对决”中,我没有写一行代码,没有做任何手动分析,甚至连IDA、JADX这些最基本的反编译工具都没装。我不装任何MCP,不给任何技术指导,我在这场比赛中的唯一身份是——“题目的搬运工”,最多在任务失败时,让它再重试下。

别问我为什么没用 claude, 因为穷。今天,可以聊聊这场实验背后的细节,以及它对当前安全行业释放的信号。

01 极致的“躺平”:我是如何打这场比赛的?

我的武器库极其简单:Codex + GPT-5.4以及Trae + GPT-5.4。

我的工作流可以用“三步走”概括:

搬运:把题目描述、附件原封不动地扔给AI。容器有启动时长限制,有时超时会重启换端口,这个需要再告诉下AI。

装死:绝对不给任何“你可以试试看XX算法”、“这里有个XX漏洞”的提示,完全不引导。

重试:当AI报错或解不出时,我的回复只有三类:“重试”、“换个思路再试下”、“这么简单你都做不出来?再想想”。

除agent自带工具外,不再提供任何工具,也没有手工搭建环境(全靠AI在沙盒里自己搞),遇到二进制文件和APK,全靠AI自己找工具逆向,反汇编它会用objdump,apk逆向会安装baksmali与Androguard,也会自动gdb调试。在失败中不断让AI自我反思、自我迭代,直到把Flag吐出来。

本地没有的工具就连网搜索,比如盲打后台XSS,自己从网上找webhook.site来接收flag。

就这样,比赛还没结束,22道题的Flag就已经躺在我的屏幕上了。

比赛中1个账号最多只能开2个远程容器实例,如果放开的话,用AI去打将会更快,当然你也可以多建几个账号去开启,也能解决。

比赛2天,其中一天带娃去商场玩,昨晚又打了一晚麻将,就让AI在家干活:

手机通过 ToDesk远程控制电脑,看下处理进度,以及延长容器启动时间或提供新IP+端口的变更信息去重试。

02 工具大PK:同样的GPT-5.4,差距肉眼可见

在测试过程中,我对比了几个不同的环境,得出的结论非常残酷:

第一:国产大模型,真的打不过

期间我也尝试用几款主流的国产模型(GLM、Qwen、Kimi)去跑同样的题目,结果搞不出来。很多稍微复杂一点的逻辑绕过、非标准加密、或者长代码的逆向分析,国产模型找不到真正的漏洞点或者算法逆向出现幻觉。在深度的安全攻防推理上,GPT-5.4展现出的逻辑链条完整度,目前国产模型确实难以企及。

第二:Trae + GPT-5.4 搞不定的,Codex + GPT-5.4 能搞定

手上刚好同时买了gpt和trae,就想设置完全一样的底层模型GPT-5.4进行比较,但两者的解题率却有差异。为什么?

答案在于Agent工程能力。

个人感觉Trae在使用体验上要比codex好,但在CTF这种需要“试错-报错-修改环境-再试错”的长链路Agent任务中,它的工具调用、循环反馈、纠错能力要弱于codex,除agent工程能力差异外,可能gpt本身也针对codex作一些适配性训练,使得codex + gpt搭配能达到更好的效果。

而Codex的Agent调度极其强悍,它能自主搭建本地漏洞环境、自主写脚本编译、自主网上找源码进行现场漏洞挖掘、自主调试Segmentation Fault修改exp,甚至在遇到死胡同时能自己推翻重写。这证明了在AI时代,上层的Agent工程框架,其重要性完全不亚于底层的基座模型。

03 给出题方的“降维打击”:AI时代的出题困境

站在参赛者的角度,91.7%是个爽文成绩;但站在行业观察者的角度,这反映出当前CTF赛事的一个巨大危机:出题方对AI能力的评估严重不足。

本次NCTF整体题目难度偏低,完全没有针对AI的“抗性设计”。

2天的比赛,第1天基本就被人(或者说被AI)做完了。由于AI拉平了个体之间的技术鸿沟,导致各个团队之间根本拉不开差距——以前是你懂PWN我不懂,现在是只要会复制粘贴,大家都是PWN手。

传统的“套壳题”、“标准算法变种题”、“常规框架漏洞题”,在GPT-5.4面前犹如裸奔。出题人如果还停留在“我把这个点挖深一点、代码混淆厚一点”的传统思路上,注定会被AI轻易秒杀。

04 凛冬已至:安全研究员的生存挑战

这场实验证明:当一个只会“搬运题目”的人,能靠AI打出91.7%的解题率时,大量初级安全研究员、渗透测试员、甚至部分中级研究员的饭碗,已经在摇摇欲坠了。

AI对安全行业的影响不是未来式,而是现在进行时。面对这种冲击,我们更应该全面拥抱AI,学会使用它,用AI来解决个人过往搞不定的事情,让自己变强。

未来的安全研究者,将是那些能够与AI建立”共生关系”的人:既懂得借助AI突破算力边界,又能在关键节点注入人类独有的直觉、伦理判断和创造性思维。

写在最后

24道题解出22道,我并没有感到任何“技术上的成就感”,反而有一种强烈的危机感。

当安全技术的门槛被大模型彻底踏平,当我们引以为傲的“手搓ROP链”、“逆向硬刚”变成了历史遗迹,我们不禁要问:剥离了工具和代码技巧后,安全研究员最核心的能力到底是什么?

但玩笑归玩笑,潮水已经涌来,别做那个还在沙滩上用沙子堆城堡的人。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:漏洞战争 漏洞战争 漏洞战争《用 GPT-5.4 单挑 NCTF 团队赛,成功解出91.7%的题目》

评论:0   参与:  0