2026-04-07 00:45:12 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 作者使用GPT-5.4参与NCTF2026团队赛，通过纯AI驱动（无代码编写、无手动分析）完成24题中的22题，解题率达91.7%。实验对比发现国产模型在复杂逻辑绕过与逆向分析中表现不足，而Codex+GPT-5.4因Agent工程能力更强，在长链路任务中优于Trae+GPT-5.4。文章指出CTF题目缺乏对AI的抗性设计，传统漏洞题易被AI破解，并警示初级安全研究员需与AI建立共生关系，以应对技术门槛被拉平后的行业挑战。 综合评分： 85 文章分类： CTF,AI安全,实战经验,安全工具,安全培训

cover_image

用 GPT-5.4 单挑 NCTF 团队赛，成功解出91.7%的题目

原创

漏洞战争漏洞战争

漏洞战争

2026年4月6日 10:59 广东

自从买了token套餐之后，每天不把token用完就有点焦虑。于是，放假这2天，就打算用GPT-5.4来打CTF比赛。网上找了下，刚好南京邮电大学在举办NCTF 2026比赛，就拿来作实验，看一个人带着GPT-5.4，如何单挑整个团队赛（4人赛）。

刚才9点（4月6日）的时候，比赛已结束。

最终成绩：24道题，成功解出22道，解题率91.7%。

排名34，共有参赛队伍915支，有得分的433支队伍。

在这场所谓的“技术对决”中，我没有写一行代码，没有做任何手动分析，甚至连IDA、JADX这些最基本的反编译工具都没装。我不装任何MCP，不给任何技术指导，我在这场比赛中的唯一身份是——“题目的搬运工”，最多在任务失败时，让它再重试下。

别问我为什么没用 claude，因为穷。今天，可以聊聊这场实验背后的细节，以及它对当前安全行业释放的信号。

01 极致的“躺平”：我是如何打这场比赛的？

我的武器库极其简单：Codex + GPT-5.4以及Trae + GPT-5.4。

我的工作流可以用“三步走”概括：

搬运：把题目描述、附件原封不动地扔给AI。容器有启动时长限制，有时超时会重启换端口，这个需要再告诉下AI。

装死：绝对不给任何“你可以试试看XX算法”、“这里有个XX漏洞”的提示，完全不引导。

重试：当AI报错或解不出时，我的回复只有三类：“重试”、“换个思路再试下”、“这么简单你都做不出来？再想想”。

除agent自带工具外，不再提供任何工具，也没有手工搭建环境（全靠AI在沙盒里自己搞），遇到二进制文件和APK，全靠AI自己找工具逆向，反汇编它会用objdump，apk逆向会安装baksmali与Androguard，也会自动gdb调试。在失败中不断让AI自我反思、自我迭代，直到把Flag吐出来。

本地没有的工具就连网搜索，比如盲打后台XSS，自己从网上找webhook.site来接收flag。

就这样，比赛还没结束，22道题的Flag就已经躺在我的屏幕上了。

比赛中1个账号最多只能开2个远程容器实例，如果放开的话，用AI去打将会更快，当然你也可以多建几个账号去开启，也能解决。

比赛2天，其中一天带娃去商场玩，昨晚又打了一晚麻将，就让AI在家干活：

手机通过 ToDesk远程控制电脑，看下处理进度，以及延长容器启动时间或提供新IP+端口的变更信息去重试。

02 工具大PK：同样的GPT-5.4，差距肉眼可见

在测试过程中，我对比了几个不同的环境，得出的结论非常残酷：

第一：国产大模型，真的打不过

期间我也尝试用几款主流的国产模型（GLM、Qwen、Kimi）去跑同样的题目，结果搞不出来。很多稍微复杂一点的逻辑绕过、非标准加密、或者长代码的逆向分析，国产模型找不到真正的漏洞点或者算法逆向出现幻觉。在深度的安全攻防推理上，GPT-5.4展现出的逻辑链条完整度，目前国产模型确实难以企及。

第二：Trae + GPT-5.4 搞不定的，Codex + GPT-5.4 能搞定

手上刚好同时买了gpt和trae，就想设置完全一样的底层模型GPT-5.4进行比较，但两者的解题率却有差异。为什么？

答案在于Agent工程能力。

个人感觉Trae在使用体验上要比codex好，但在CTF这种需要“试错-报错-修改环境-再试错”的长链路Agent任务中，它的工具调用、循环反馈、纠错能力要弱于codex，除agent工程能力差异外，可能gpt本身也针对codex作一些适配性训练，使得codex + gpt搭配能达到更好的效果。

而Codex的Agent调度极其强悍，它能自主搭建本地漏洞环境、自主写脚本编译、自主网上找源码进行现场漏洞挖掘、自主调试Segmentation Fault修改exp，甚至在遇到死胡同时能自己推翻重写。这证明了在AI时代，上层的Agent工程框架，其重要性完全不亚于底层的基座模型。

03 给出题方的“降维打击”：AI时代的出题困境

站在参赛者的角度，91.7%是个爽文成绩；但站在行业观察者的角度，这反映出当前CTF赛事的一个巨大危机：出题方对AI能力的评估严重不足。

本次NCTF整体题目难度偏低，完全没有针对AI的“抗性设计”。

2天的比赛，第1天基本就被人（或者说被AI）做完了。由于AI拉平了个体之间的技术鸿沟，导致各个团队之间根本拉不开差距——以前是你懂PWN我不懂，现在是只要会复制粘贴，大家都是PWN手。

传统的“套壳题”、“标准算法变种题”、“常规框架漏洞题”，在GPT-5.4面前犹如裸奔。出题人如果还停留在“我把这个点挖深一点、代码混淆厚一点”的传统思路上，注定会被AI轻易秒杀。

04 凛冬已至：安全研究员的生存挑战

这场实验证明：当一个只会“搬运题目”的人，能靠AI打出91.7%的解题率时，大量初级安全研究员、渗透测试员、甚至部分中级研究员的饭碗，已经在摇摇欲坠了。

AI对安全行业的影响不是未来式，而是现在进行时。面对这种冲击，我们更应该全面拥抱AI，学会使用它，用AI来解决个人过往搞不定的事情，让自己变强。

未来的安全研究者，将是那些能够与AI建立”共生关系”的人：既懂得借助AI突破算力边界，又能在关键节点注入人类独有的直觉、伦理判断和创造性思维。

写在最后

24道题解出22道，我并没有感到任何“技术上的成就感”，反而有一种强烈的危机感。

当安全技术的门槛被大模型彻底踏平，当我们引以为傲的“手搓ROP链”、“逆向硬刚”变成了历史遗迹，我们不禁要问：剥离了工具和代码技巧后，安全研究员最核心的能力到底是什么？

但玩笑归玩笑，潮水已经涌来，别做那个还在沙滩上用沙子堆城堡的人。

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：漏洞战争漏洞战争漏洞战争《用 GPT-5.4 单挑 NCTF 团队赛，成功解出91.7%的题目》