百亿Token消耗|AI渗透的实践与思考

admin 2026-06-18 06:05:09 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 本文探讨了AI渗透测试的实践与思考,核心是介绍一个自研AI渗透Agent在大量实战场景下的应用。文章通过百亿Token消耗这一独特视角,分析了AI渗透系统如何将Token转化为有效攻击假设和可信证据,并揭示了其在跨任务记忆、低成本承受失败和持续收敛等方面与人类红队的不同能力。文中强调,成熟的AI渗透能力依赖于底层的工程系统,而非仅靠大模型本身,并最终重新定义了渗透测试的成本、能力与组织架构。 综合评分: 85 文章分类: 渗透测试,AI安全,红队,技术标准,解决方案


cover_image

百亿Token消耗|AI渗透的实践与思考

安全研究实验室

2026年6月17日 19:52 北京

在小说阅读器读本章

去阅读

编者荐语:

文末有联系方式

以下文章来源于爆肚的杂货铺 ,作者爆肚(b40du)

爆肚的杂货铺 .

商科出身,跨行网络安全。历任某头部乙方一线驻场、安服工程师、项目经理、金融安服负责人,现任某大厂商业化安全高级安全专家。

从 4 月底开始,我们把自研 AI 渗透 Agent 压进省市级攻防演练 HW、CTF、企业 POC 和行业比赛等真实场景里,过去这一个多月里,这套自研渗透 Agent 的实战结果包括:多场省市级攻防演练排名前列(30+攻击队);内外部企业生产业务系统的高价值漏洞挖掘(RCE井喷);腾讯 AI 渗透大赛线上赛第三、决赛第四(C2架构的最早期应用);N 场 CTF 的全场景方向题目求解(全能型安全Agent);累计 Token 消耗达到百亿量级。这个过程中,我们每天都会被 AI 在高噪声、强约束、长链路任务里的表现所惊艳,也更清楚地看到了一些过去只靠人工红队很难稳定观察到的东西。

因此在当下这个时间节点,“AI会不会做渗透测试”这个问题已经不够准确。在我们的Agentic C2架构下,已经是一个成熟的生产级智能体系统。且更吸引我们的是:当 Agent 能够长时间运行、多 Worker 协同、高失败率试错、跨任务复用经验时,渗透测试的能力结构、成本结构和交付结构会发生什么变化。

这里所说的 Token,不只是一个庞大的消耗账单数字,也不只是模型调用费用。它更接近一种认知成本:Agent 在任务规划、上下文检索、工具结果理解、攻击假设生成、失败路径复盘、跨 Worker 状态同步和证据链整理中消耗的“思考预算”。百亿 Token 的意义,不在于它听起来有多大,而在于它让我们第一次可以用一个相对统一的尺度,去观察智能渗透系统的思考密度、试错密度和协同密度。

一、攻击队的全新计量单位:Token

过去衡量一支红队的强弱,常见的尺子是人头数、专家经验、覆盖资产数、攻防演练名次、漏洞靶标获取数和报告质量。这些尺子今天仍然有价值,但它们已经越来越难解释一个新现象:为什么同样规模甚至更小的团队,在相近的时间窗口里,凭借 AI 渗透智能体,成果产出会有几何倍数的提升。

差距不只在人,也不只在工具,而在于团队背后的 Agent 系统消耗了多少 Token,以及这些 Token 是怎么被组织和转化的。Token 本身并不神奇,堆砌 Token 消耗也不会自动变强。真正重要的是:这些 Token 是烧在无效对话、重复扫描和噪声堆积里,还是烧在攻击假设生成、跨任务记忆调用、工具结果判读、失败路径收敛和证据闭环上。

所以,我更愿意把 Token 看成一把新的尺子。它衡量的不是“花了多少钱”,而是一个智能渗透系统在单位时间内能够展开多少假设、消化多少反馈、承受多少失败、复用多少经验。

过去我们说一支红队“能打”,更多是指人强、经验足、工具熟;现在还要加一条:它背后的 Agent 系统,能不能把 Token 变成有效攻击假设,再把有效攻击假设变成可信证据。

二、一个多月的百亿 Token 消耗,换来了什么

百亿 Token 消耗是一套绝佳的观测样本,它已经充分证明 AI 攻击已经不再停留在“会不会调工具、会不会写 PoC、会不会生成报告”的阶段,而是开始进入长周期、多任务、高噪声、强约束环境下的系统性验证阶段。

把这串数字摊开看,几个比例值得停一下:百亿 Token 摊到一个多月,平均每天的“思考预算”是亿级;摊到几十场实战,单场的“思考预算”是千万级;再摊到一条具体攻击链,从外网信息收集到立足点确认,单链消耗可能达到百万级。这个数字如果只从账单看会显得夸张;但如果从认知成本看,它意味着 Agent 在一条完整链路里展开过的假设、回看过的线索和丢弃过的失败路径,是任何一个人类红队都不可能在同样时间窗内完整走完的。

复盘材料里一个很明显的变化是:过去往往复盘的是哪位师傅shell了哪个站点,拿到了哪些集权系统;现在更多地写成 Worker 编号、时间戳、任务状态、Token 消耗,以及安全隐患的成果归类。这个变化比名次本身更值得关注。因为它意味着渗透测试的产出不再完全绑定在某个人的即时状态上,而开始绑定在一个可记录、可回放、可复盘的智能系统上。

图 1:百亿 Token 如何转化为有效证据,从预算、假设、执行到证据闭环和经验沉淀

三、最值得令人深思的,并不是AI攻击链

这里不讲 Case,因为只需使用 Claude Code 接入 Opus 尝试做渗透,就一定能意识到AI带来的 Case 已经足够惊艳,我同事在其分享的《AI for Security:自动化渗透测试落地实践与实战》(文末有链接)内容中也有我们近期丰富的AI攻击经典案例。

但有一个经过脱敏的片段,不讲很难解释我们为什么会认为“跨 Worker 记忆”最值得令人深思,而不是 AI 给我们展示的各种奇思妙想。

某次实战里,Agent 在一个业务系统的客户端组件中定位到一段关键线索。到这里并不稀奇,人类红队也会这么做。真正让人愣住的是后续动作:它没有沿着当时最显眼的入口继续推进,而是把新得到的线索,反向喂进了四十分钟前另一个 Worker 在另一个资产上抓到的一段低价值会话残留。那段残留当时看起来并不重要,按人工习惯,很可能已经被归档甚至忽略。

经过重新解释后,那段残留被还原成一条可以继续验证的会话线索。随后,Agent 又把它和前面资产上的认证逻辑、历史响应、弱信号日志串在一起,在几分钟内完成了路径收敛。两位具备多年一线红队惊艳的师傅看完AI攻击复盘后,给出的反馈很一致:难的不是技术点本身,而是在“刚拿到的新线索”和“四十分钟前另一个 Worker 留下的低优先级信息”之间建立关联。人类不是没有能力关联,而是很难持续记住所有 Worker 在所有时间片里留下的低优先级信号。

这才是让人后背发凉的地方。它发凉不在于 Agent 比人快,而在于:人类红队很多所谓“灵感”,本质上是被记忆、注意力和经验筛选之后偶然发生的跨线索连接;而对一个有共享黑板、时间线记忆、资产关系图和充足 Token 预算的 Agent 来说,跨线索连接不是灵感,而是状态查询、低信号召回和假设重组。因此,很可能真正的分水岭不是“会不会自动化跑工具”,而是系统能不能把低价值线索留在可检索状态空间里,并在未来某个关键时刻重新点燃它。

四、百亿 Token 让我们看清的三件事

烧 Token 烧到这个量级,一个意外收获是:很多原本只能靠“感觉”描述的能力,开始变得有据可依、可观察。过去一个多月里反复出现的现象,大致可以归成三类。它们不是简单的“Agent 比人强”,而是三种与人类工作方式不在同一个坐标系里的能力。

1. 跨领域、跨任务的记忆调用

人类学知识,天然会按领域分抽屉:Web 一个抽屉,逆向一个抽屉,AD 域一个抽屉,业务逻辑又是另一个抽屉。遇到跨抽屉的问题,我们需要经验、注意力和一点运气。Agent 的优势不只是知识面广,而是它可以把训练语料、历史任务、工具输出、Worker 产出和证据片段放进同一个可检索的状态空间里。它不是看得更细,而是可以在更大的上下文里同时看。

这里尤其要强调:这不是模型“自动灵光一现”,而是工程架构给了它条件。没有统一状态、没有共享黑板、没有时间线、没有证据图谱、没有跨 Worker 产出复用,模型再聪明,也只是当前窗口里的聪明。真正让跨领域记忆成立的,是系统把“过去的低价值信息”保留下来,并允许它在未来某个时刻重新进入假设池。

2. 对认知失败的低成本承受

人类红队不喜欢长时间穷举,并不是因为不会,而是因为人会累、会烦、会在连续失败之后怀疑路径本身。直觉是人类的优势,也是人类的结构性限制。Agent 不会因为第几十次失败而情绪波动,它会把失败当成搜索空间里的正常成本。

但这里必须讲清楚:所谓“低成本”,不是对目标系统零成本,更不是无约束地暴力试错。真实场景里的智能渗透必须有授权边界、速率控制、业务影响评估、工具执行审计和异常熔断。这里说的低成本,指的是 Agent 对自身认知失败的承受成本低:某条假设不成立,它可以记录失败原因,更新假设池,让其他 Worker 吃掉这个反馈,再进入下一轮验证。这不是简单的工程并发,而是认知并行。

3. 连续运行下的持续收敛

人类红队的产出天然被时间切割:工作时段、会议、吃饭、休息、状态起伏,都会把注意力切成片。Agent 的 Runtime 时间是连续的。它不需要睡觉,也不会因为一个任务失败而影响下一个任务的判断。

更重要的是,当连续性叠加前两种能力——跨任务记忆和成功失败惊艳的反馈复用——产出曲线就不再只是“机器加班”,而是无人值守的持续收敛。机器加班只是时间更长,智能收敛则是每一次成果都能压缩后续的搜索空间。

图 2:人工红队与 AI 渗透 Agent 的核心区别

五、能力曲线不是一条线,而是几次系统级跃迁

百亿 Token 之外,另一个被反复验证的判断是:智能渗透 Agent 的能力增长不是线性的。它不是从 60 分涨到 70 分,再从 70 分涨到 80 分;它更像是某个工程环节被打通之后,能力突然跨了一层。

回看这套 Agent 的能力演进,从最早“能调工具、能跑扫描”,到后来“能判断下一步动作、能写小型验证脚本”,再到“能分布式跨 Worker 协同、能独立推进外网到内网的链路”,再到现在“能在 HW、CTF 和行业比赛里稳定产出结果”,中间不是简单提速,而是能力结构发生变化。每一次跃迁新增的,不是把原来会做的事做得更快,而是做到了之前根本做不了、或者高度依赖专家现场状态才能做到的事。

还有一个很关键的现象:每一次跃迁前期的 Token 单价会很高,因为系统在探索、试错、积累失败样本;但一旦某类路径沉淀进黑板、Workflow、工具网关和评估样本,后续同类攻击链的边际 Token 成本反而会下降。前期烧掉的是试错成本,后期沉淀出来的是能力复利。能力跃迁的本质不是“模型突然更会黑了”,而是任务状态、工具执行、证据评估和经验复用之间的闭环被打通了。

六、真正烧出来的是工程系统,不是更贵的 Prompt

当然,成熟的工程系统并不是百亿 Token 消耗到位就会自动成型的。如果只是把 LLM 当成一个会说话的扫描器,拿一个大模型,套一层提示词,配几个工具,然后让它不停跑,最后大概率只会烧出一张更贵的账单。

真正让智能渗透 Agent 能进实战的,是底下那层工程系统。我们内部把它概括为 One For All,但这句话不仅仅是“一个 Agent 干所有事”,更是所有 Agent 共享同一套能力底座:同一份可检索记忆、同一套工具能力、同一个判断回路和同一套边界约束。

没有控制平面,AI 渗透不是能力,而是事故;没有认知平面,跨 Worker 记忆就只是口号;没有执行平面,工具调用就不可控;没有评估平面,Token 烧得越多,噪声可能越多;没有学习平面,每一场实战都得从头开始。大模型只是动力,Agent 的形态是被工程塑出来的。

图 3:AI 智能渗透系统的五层工程平面:控制、认知、执行、评估、学习

七、成熟度不看自动化率,看 Token 到证据的转化率

很多人评估 AI 渗透系统,第一反应是看自动化率:自动完成了多少任务、自动调用了多少工具、自动生成了多少报告。这些指标有参考价值,但不是核心。自动化率高,不代表安全价值高;如果自动化制造的是误报、噪声和越界风险,自动化越高,问题越大。

我们现在更关注几类转化率:第一,Token 到假设的转化率——同样消耗一百万 Token,系统能不能生成一批具体、可执行、可验证的攻击假设;第二,假设到证据的转化率——能不能在授权边界内构造验证、获取响应、保存证据、说明影响;第三,证据到风险的转化率——技术发现能不能回答影响对象、权限边界、修复优先级和复测路径;第四,经验到复用的转化率——一次实战里有效的假设、失败路径、误报模式和人工注入的判断意见,有没有进入下一次任务。

这些指标,比“自动化率”更接近 AI 智能渗透的本质。因为渗透测试的目标从来不是自动化本身,而是在不确定环境里,把攻击假设收敛成可信风险证据。成熟系统的核心问题不是“我自动跑了多少”,而是“我在授权边界内,用多少 Token、多少 Worker、多少 Runtime,把多少不确定性压成了可复核的风险”,最终形成安全隐患和问题清单。

八、对于三种角色的核心挑战

对于仍在一线战斗的红队:真正危险的不是 AI 替代你,而是你一直停留在工具操作层和高强度苦力劳动。未来红队的分水岭,不是会不会写某个 PoC,而是能不能把自己的攻击经验变成 Agent 可以执行、评估和复用的任务系统。人的价值不会消失,但会从“亲自敲每一步”迁移到目标设定、边界控制、任务建模、结果复核和系统塑造。

对于甲方安全运营工作:如果我们的预算和评估体系里还完全没有 AI 原生攻击这个维度,那么很可能对暴露面的理解可能已经滞后。更重要的是,现有的传统 SOC、EASM、EDR 和漏洞管理流程,仍然是按人类攻击节奏设计的。Agent 的节奏更平、更密、更连续,也更擅长把低优信号跨时间片组合起来,必须要用AI的方式来防御AI。

对于 AI 安全产品团队:不要只做“AI 写规则更快”“AI 生成报告更快”这一类产品,那只是把 AI 当生产力插件。真正值得做的,是那些过去人类红队很难持续做到、因此防守侧也缺少对应观测维度的事情。攻击方行为分布已经变化,防守方就需要新的防御原语。未来防守方要看的,不只是某个 payload、某次扫描或某条命令是否异常,而是多个低强度行为之间是否形成了 Agent 式的假设推进轨迹。

九、百亿 Token 之后,我们更加理性地看待 AI 渗透

烧完这百亿 Token 之后,我们对 AI 智能渗透的态度反而更理性了。它不是万能黑客,不是无边界自动攻击系统,也不是把报告写得更漂亮的大模型报告助手。它真正的价值,是把人的经验、模型的推理、工具的执行、系统的记忆和工程的约束,压缩进一套可控、可验证、可复用、可持续演进的渗透体系里,形成一套全新的 7*24 小时智能攻击验证体系。

这件事的影响,不只是提效。如果只是提效,它仍然属于工具升级;真正的变化在于,攻击形态已形成根本性的改变。过去我们用人天衡量投入,用漏洞数量衡量产出,用报告厚度衡量交付,在这些维度能够看到的是,AI 在攻防领域越来越接近于那些近乎传奇的红队大手子。

人当然没有退出战场,但人的位置确实在变化。过去人必须亲自站在每一步里,靠经验、记忆和熬夜推进攻击链路;未来人更应该站在目标、边界、判断和系统塑造的位置上。真正的竞争,不是“谁更早接入大模型”,而是“谁能更早把攻防经验做成可信智能体系统”。如果说这一个多月、百亿 Token 给我们留下了一个最明确的结论,那就是:AI 智能渗透不是把传统渗透测试自动化一遍,而是在重新定义渗透测试的成本结构、能力结构和组织结构。

这个变化不会一夜之间完成,但它已经开始了。

图 4:部分测试成果展示(1)

图 5:部分测试成果展示(2)

最后欢迎各位甲方老板试用我司 JoySecurity 全链路智能攻击平台,它是一个真正的实网可应用的生产级AI攻击平台(渗透、代审、攻防等等)。

可以清晰地看到一套 AI 原生攻击体系,如何在授权边界内持续发现风险、验证风险、留存证据并完成总结复盘。

一定会有惊喜给到你。

call me~ [email protected]~


AI for Security:自动化渗透测试落地实践与实战

再论 AI 渗透测试 Agent 的减法哲学


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:安全研究实验室 《百亿Token消耗|AI渗透的实践与思考》

评论:0   参与:  0