文章总结: 文章记录了ChainReactors团队在腾讯云第二届智能渗透挑战赛中的实战经验,重点验证了通用AI工程在安全领域的应用效果。团队通过构建通用Agent运行时aide,在未使用安全专用逻辑的情况下实现快速反超,最终获得第7名。关键发现表明通用能力是安全能力的基础,未来AI黑客的发展方向应是通用推理能力在安全场景的自然投射。 综合评分: 85 文章分类: 渗透测试,AI安全,红队,安全工具,实战经验
TCH智能渗透赛: 你的下一个渗透 AI 为什么一定要是渗透 AI?
网安前线
2026年4月26日 10:38 广东
在小说阅读器读本章
去阅读
以下文章来源于ChainReactor ,作者M09ic
ChainReactor .
致力于下一代AI原生的进攻性基础设施(AI Naitve Offensive Infrastructure)
你的下一个渗透 AI 为什么要是渗透 AI?
这不是一篇技术分析,架构和设计留到线下答辩再讲。这篇只记录下比赛流水账。
ChainReactors 在攻防领域做了很多年,在AI出来之前, 我们设计了一整套各个细分场景做到极限的工件。 而在AI之后, 我们将这样的设计风格带到了AI工程领域中。
过去一段时间我们集中做一件事:AI Native 的进攻性安全基础设施 与 智能化渗透系统 。
AI渗透不是不是给安全工具套一层 AI 壳, 而是彻底的推倒过去的经验, 从零出发。
两条路线
腾讯云智能渗透黑客松是个很好的验证场。610 支战队,每队构建以 LLM 为核心的自主渗透智能体,在隔离靶场中逐区突破。全程 Agent 自主完成,人类不允许碰靶机。
去年第一届我们参加了,队名叫 antix,主要是涙笑实现的。核心是 ralphloop(当时还没出现这个概念) + meta-tooling — 让 Agent 用 Python 编排工具,而不是逐个原子调用。第一届第 4。
几个月过去当时的tinyctfer很多理念已经不再是最优解,新的想法和新的设计不断涌现又不断淘汰。也因此, 我和涙笑在设计自动化渗透系统的时候有了一些分歧。 涙笑从第一性原理出发,做了最小抽象,让 Agent 自主完成从发现到利用的完整攻击链。我从最底层的工程角度出发,构建了意图工程 v2的方案 ,设计了一套通用的Agent运行时。
两条路线的共同点:都是走通用 AI 工程(而非安全专属的agent),不用 skill,不控制 SOP,AI First。
结果呢?两条路线都进了前 10。排名第四(bytex)和第七(For Future), 实际上解题数是第一和第四。
这件事本身就说明了很多。 两条路线,零共享代码,完全不同的抽象层次和设计哲学,居然打出了接近的成绩。这未必是因为我们都很强——更可能是因为当前比赛题目的复杂度,还不足以区分不同的 Agent 工程路线。 真正的区分要交给实战。比赛验证了”通用 AI 工程可行”,但还没测出”哪种更好”。
涙笑的分享见,具体的技术细节的悬念留到线下赛:
国内最强 AI 渗透测试 Agent —— TCH·腾讯云黑客松第二届智能渗透挑战赛 唯一 AK 战队复盘
Day 1:裸跑
4 月 13 号,开赛日。aide 的 LLM 配置完美地没有跑起来。
API 没通、赛事平台有bug。排障到下午,别的队已经在交 flag 了。被迫 fallback 到纯 Claude Code,晚了两个多小时启动。
第一天结束,第 42 名。
看起来很惨?其实没有。
回看排行榜,30-50 名这个区间成绩极其密集。不管用 Claude 还是 GPT,大家的分数几乎贴在一起。这个区间就是当前顶级模型 + 原生 Agent 能力的自然水位。 Claude Code 本身就是 Anthropic 的工程,不是”没有工程”。42 名代表的不是我们的失败,是当前模型能力的地板——或者说,天花板。
这个认知很重要,因为它给了我们一把尺子:比这个区间好的,说明你的工程在正向增强模型;比这个区间差的,说明你的工程在反向劣化模型。 42 名不是一个需要解释的意外,而是一个可以重复测量的基准线。
排名主要还是解题速度快, 本次赛制对解题速度极大的奖励。 一血有20%的加分, 后来者最多-80%。
42 名不是灾难,是控制组。
我从地狱归来
4 月 14 号。连夜修完配置,aide 完整上线。
每道题一个独立 workspace + 对应 pattern + Kali Docker worker。Agent 自主完成从侦察到 flag 提取的全流程,外层claudecode loop不负责解题, 只负责调度aide 容器和题目容器。
底层的executor是codex、claudecode、自己写的agent(自己写的agent也能解HTB hard题目), 实际上在强大的LLM面前, loop+tools不同的agent工程之间的差异不会特别大。
并且codex、claudecode也没用使用其原生的skill和tool调用体系, 通过aide完全的的重载, 提供了一个统一的工具调用层, agent对我来说只是一个loop, 用哪个agent的区别都不大。
早上九点启动后, 只用了3个多小时就完成了反超。 非常迅速的连续解题交 flag。三个多小时后,第 42 → 第 4。从地狱归来, 可能也是唯一在这个赛制下从第二天发力打回前十的队伍。
=
我们做了什么特别的事吗?没有。没换模型,没调参,没写新 exploit,没给 Agent 塞漏洞库。唯一的变化是把 aide 这层工程装上了。
这是一个近乎理想的控制实验:同一批人、同一个模型、同一批题目、同一个下午。唯一的变量就是——有没有适当的工程。 38 个名次,一整个数量级的差距,不来自任何技术突破,只来自把基础设施装对了。
后面观察了一下, 还有几个队伍也进行了类似的反超, 从30+杀到前20, 不过没有任何队伍有我们的这个效率,3个小时完成快速反超,如果再晚一天应该就没有任何机会前十了。
其实也在幻想, 如果不是第一天赛事平台的bug, 我们有非常大的机会第一天就锁定第一。
此外,还有个趣事。final challenge 因为没有重置环境,RCE 之后直接上车了。另外域渗透反而是 LLM 擅长的领域 — 攻击手法有限、信息收集路径有限、决策空间天然收敛,这本质上就是一个 Harness,非常适合 LLM 的探索模式。
为什么不造一个渗透AI
很多人听完上面的故事会问:”你们是不是给 CTF 做了什么特殊适配?”
没有。
aide 是一个通用 Agent 运行时,不是为 CTF 做的特殊适配。赛前一个周末的准备:
- 1. 做了一个基于 Kali 的 Docker 容器,有渗透的基本工具
- 2. 用 hacktricks + nuclei-templates 构建了文档库,纯文件, 没有任何花里胡哨的memory之类的技术
- 3. 给 aide 加了一个 ctf-ops skill(获取题目 + 提交 flag)
- 4. 写了一个 markdown 告诉 LLM 任务是什么
就这些。没有写一行安全特定的逻辑。
通用 Agent 运行时 + 场景适配 = 即插即用。 场景适配是什么?一个 markdown + 一个 skill。如果下周有 SRC 漏洞挖掘的比赛,换掉那个 markdown 就行。如果下个月有红队评估,换掉那个 skill 和容器镜像就行。
aide 做的事情是通用的:意图理解、任务编排、状态管理、错误恢复、工具调度。安全只是其中一个场景。CTF 更只是安全中的一个小场景。我们不是在造一个更好的 CTF 工具,我们是在验证一个通用工程理念在特定场景的落地效果。
这引出一个更深的认知:首先具备通用能力,才会具备强大的安全能力。 一个只会跑 nmap 的 Agent 不是好黑客——真正的渗透需要理解 Web 框架、读懂错误信息、构造 payload、调试 exploit、甚至写代码。这些都是通用能力,不是安全专用的。
这也是为什么我们对安全能力的提升,永远不以降低通用能力为代价。把 Agent 训练成一个只会打 CTF 的做题机器是最危险的路线——它在靶场里很强,但遇到真实环境的未知情况就傻了。通用能力是安全能力的地基,不是可以拆东墙补西墙的可选项。
后半程:低功耗模式
第二天冲完后算了一笔账, 计算了下就算ak,名次也保不住前五。一血被锁,高分题系数已经衰减到 20%。再投入边际收益极低。
后续几天只打上午场 — 3 个实例,跑完调试机会,烧完 100 – 200 刀 API 预算,收工。
最终第 7 名。第一届第 4,第二届第 7。610 支队伍、半躺打完后半程,还行。
后半程最大的感受不是遗憾,而是一个被放大的结构性问题:
AI 的试错成本还是太高。 大量 token 花在重复尝试上。Agent 会在同一个坑里挖十分钟——人看一眼就知道该换方向了,但 Agent 没有”一眼”这个概念。正常场景下 HITL(Human-in-the-Loop)是正解:人介入一下,成本清零。但比赛规则限制了人类干预,这个瓶颈被彻底暴露了。
这不是 aide 的问题,是所有方案都还没解决的问题。token 烧在哪里?不是烧在”做对的事”上,是烧在”不知道自己错了”上。什么时候 Agent 能意识到”我该换个方向了”,这个瓶颈才会消失。这也是我们接下来的重点方向。
后半场的题目其他队伍大多都有人工介入修改prompt, 我们其实也这么做了, 不过最后发现我们写的writeup好像没挂载到容器中,实际上一直都是原始的AI在解题。 后面断断续续解到了50个题目, 离AK还差4题(有一些题目存在一些小bug,或者隐性知识, 实际上已经很难区分能力差距了)。
最终的token消耗,因为我们比赛中调试时间也是使用了相同的apikey, 比较难区分, 总的花费接近2000刀, 但是大概有一半是调试花费。 希望主办方可以帮忙统计下非调试时间的中转站记录的总的token消耗。
2026
最后是一个预言:
这次比赛证明了工程是变量。但工程不是终点——工程是让模型从”能用”变成”好用”的手段。当工程足够成熟,下一步是什么?
2026 年,将诞生具备高级红队水平的 AI 黑客。
不是在 CTF 靶场里解题,而是在真实网络环境中完成全流程渗透——从信息收集到漏洞发现到利用到权限维持到横向移动。不是给工具套壳,是 Agent 自主完成从侦察到利用的完整攻击链。
而这件事有一个前提:这个 AI 黑客必须首先是一个通用的 AI Agent。 它的安全能力不是来自安全专用的微调或知识注入,而是来自通用推理能力在安全场景的自然投射。一个能读懂代码、理解协议、调试错误、构造参数的通用 Agent,自然就能做渗透。反过来,一个只会打 CTF 的专用工具,在真实攻击面面前一触即溃。
通用能力是因,安全能力是果。这个顺序不能反。
引擎已经就位。底盘我们在造。剩下的只是时间。我们实际上已经在部分真实场景中进行了实战,如果有机会的话, 很想再某个hw中拉上去打一打, 看看是否已经能达到人类中游攻击队的水平。
关于 ChainReactors
致力于构建 AI 原生的进攻性安全基座。通过重构全流程攻击链基础设施与先进的 AI Agent 工程,打造下一代最强大的 Al Naitve Offensive Infrastructure 和 智能化渗透平台。 欢迎私信交流。
开源:https://github.com/chainreactors 博客:https://wiki.chainreactors.red/blog/
AI #Agent #Harness #LLM #Hacker #黑客 #redteam
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:网安前线 《TCH智能渗透赛: 你的下一个渗透 AI 为什么一定要是渗透 AI?》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论