2026-06-18 06:05:09 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文探讨了AI渗透测试的实践与思考，核心是介绍一个自研AI渗透Agent在大量实战场景下的应用。文章通过百亿Token消耗这一独特视角，分析了AI渗透系统如何将Token转化为有效攻击假设和可信证据，并揭示了其在跨任务记忆、低成本承受失败和持续收敛等方面与人类红队的不同能力。文中强调，成熟的AI渗透能力依赖于底层的工程系统，而非仅靠大模型本身，并最终重新定义了渗透测试的成本、能力与组织架构。 综合评分： 85 文章分类： 渗透测试,AI安全,红队,技术标准,解决方案

cover_image

百亿Token消耗｜AI渗透的实践与思考

安全研究实验室

2026年6月17日 19:52 北京

在小说阅读器读本章

去阅读

编者荐语：

文末有联系方式

以下文章来源于爆肚的杂货铺，作者爆肚（b40du）

爆肚的杂货铺 .

商科出身，跨行网络安全。历任某头部乙方一线驻场、安服工程师、项目经理、金融安服负责人，现任某大厂商业化安全高级安全专家。

从 4 月底开始，我们把自研 AI 渗透 Agent 压进省市级攻防演练 HW、CTF、企业 POC 和行业比赛等真实场景里，过去这一个多月里，这套自研渗透 Agent 的实战结果包括：多场省市级攻防演练排名前列（30+攻击队）；内外部企业生产业务系统的高价值漏洞挖掘（RCE井喷）；腾讯 AI 渗透大赛线上赛第三、决赛第四（C2架构的最早期应用）；N 场 CTF 的全场景方向题目求解（全能型安全Agent）；累计 Token 消耗达到百亿量级。这个过程中，我们每天都会被 AI 在高噪声、强约束、长链路任务里的表现所惊艳，也更清楚地看到了一些过去只靠人工红队很难稳定观察到的东西。

因此在当下这个时间节点，“AI会不会做渗透测试”这个问题已经不够准确。在我们的Agentic C2架构下，已经是一个成熟的生产级智能体系统。且更吸引我们的是：当 Agent 能够长时间运行、多 Worker 协同、高失败率试错、跨任务复用经验时，渗透测试的能力结构、成本结构和交付结构会发生什么变化。

这里所说的 Token，不只是一个庞大的消耗账单数字，也不只是模型调用费用。它更接近一种认知成本：Agent 在任务规划、上下文检索、工具结果理解、攻击假设生成、失败路径复盘、跨 Worker 状态同步和证据链整理中消耗的“思考预算”。百亿 Token 的意义，不在于它听起来有多大，而在于它让我们第一次可以用一个相对统一的尺度，去观察智能渗透系统的思考密度、试错密度和协同密度。

一、攻击队的全新计量单位：Token

过去衡量一支红队的强弱，常见的尺子是人头数、专家经验、覆盖资产数、攻防演练名次、漏洞靶标获取数和报告质量。这些尺子今天仍然有价值，但它们已经越来越难解释一个新现象：为什么同样规模甚至更小的团队，在相近的时间窗口里，凭借 AI 渗透智能体，成果产出会有几何倍数的提升。

差距不只在人，也不只在工具，而在于团队背后的 Agent 系统消耗了多少 Token，以及这些 Token 是怎么被组织和转化的。Token 本身并不神奇，堆砌 Token 消耗也不会自动变强。真正重要的是：这些 Token 是烧在无效对话、重复扫描和噪声堆积里，还是烧在攻击假设生成、跨任务记忆调用、工具结果判读、失败路径收敛和证据闭环上。

所以，我更愿意把 Token 看成一把新的尺子。它衡量的不是“花了多少钱”，而是一个智能渗透系统在单位时间内能够展开多少假设、消化多少反馈、承受多少失败、复用多少经验。

过去我们说一支红队“能打”，更多是指人强、经验足、工具熟；现在还要加一条：它背后的 Agent 系统，能不能把 Token 变成有效攻击假设，再把有效攻击假设变成可信证据。

二、一个多月的百亿 Token 消耗，换来了什么

百亿 Token 消耗是一套绝佳的观测样本，它已经充分证明 AI 攻击已经不再停留在“会不会调工具、会不会写 PoC、会不会生成报告”的阶段，而是开始进入长周期、多任务、高噪声、强约束环境下的系统性验证阶段。

把这串数字摊开看，几个比例值得停一下：百亿 Token 摊到一个多月，平均每天的“思考预算”是亿级；摊到几十场实战，单场的“思考预算”是千万级；再摊到一条具体攻击链，从外网信息收集到立足点确认，单链消耗可能达到百万级。这个数字如果只从账单看会显得夸张；但如果从认知成本看，它意味着 Agent 在一条完整链路里展开过的假设、回看过的线索和丢弃过的失败路径，是任何一个人类红队都不可能在同样时间窗内完整走完的。

复盘材料里一个很明显的变化是：过去往往复盘的是哪位师傅shell了哪个站点，拿到了哪些集权系统；现在更多地写成 Worker 编号、时间戳、任务状态、Token 消耗，以及安全隐患的成果归类。这个变化比名次本身更值得关注。因为它意味着渗透测试的产出不再完全绑定在某个人的即时状态上，而开始绑定在一个可记录、可回放、可复盘的智能系统上。

图 1：百亿 Token 如何转化为有效证据，从预算、假设、执行到证据闭环和经验沉淀

三、最值得令人深思的，并不是AI攻击链

这里不讲 Case，因为只需使用 Claude Code 接入 Opus 尝试做渗透，就一定能意识到AI带来的 Case 已经足够惊艳，我同事在其分享的《AI for Security：自动化渗透测试落地实践与实战》（文末有链接）内容中也有我们近期丰富的AI攻击经典案例。

但有一个经过脱敏的片段，不讲很难解释我们为什么会认为“跨 Worker 记忆”最值得令人深思，而不是 AI 给我们展示的各种奇思妙想。

某次实战里，Agent 在一个业务系统的客户端组件中定位到一段关键线索。到这里并不稀奇，人类红队也会这么做。真正让人愣住的是后续动作：它没有沿着当时最显眼的入口继续推进，而是把新得到的线索，反向喂进了四十分钟前另一个 Worker 在另一个资产上抓到的一段低价值会话残留。那段残留当时看起来并不重要，按人工习惯，很可能已经被归档甚至忽略。

经过重新解释后，那段残留被还原成一条可以继续验证的会话线索。随后，Agent 又把它和前面资产上的认证逻辑、历史响应、弱信号日志串在一起，在几分钟内完成了路径收敛。两位具备多年一线红队惊艳的师傅看完AI攻击复盘后，给出的反馈很一致：难的不是技术点本身，而是在“刚拿到的新线索”和“四十分钟前另一个 Worker 留下的低优先级信息”之间建立关联。人类不是没有能力关联，而是很难持续记住所有 Worker 在所有时间片里留下的低优先级信号。

这才是让人后背发凉的地方。它发凉不在于 Agent 比人快，而在于：人类红队很多所谓“灵感”，本质上是被记忆、注意力和经验筛选之后偶然发生的跨线索连接；而对一个有共享黑板、时间线记忆、资产关系图和充足 Token 预算的 Agent 来说，跨线索连接不是灵感，而是状态查询、低信号召回和假设重组。因此，很可能真正的分水岭不是“会不会自动化跑工具”，而是系统能不能把低价值线索留在可检索状态空间里，并在未来某个关键时刻重新点燃它。

四、百亿 Token 让我们看清的三件事

烧 Token 烧到这个量级，一个意外收获是：很多原本只能靠“感觉”描述的能力，开始变得有据可依、可观察。过去一个多月里反复出现的现象，大致可以归成三类。它们不是简单的“Agent 比人强”，而是三种与人类工作方式不在同一个坐标系里的能力。

1. 跨领域、跨任务的记忆调用

人类学知识，天然会按领域分抽屉：Web 一个抽屉，逆向一个抽屉，AD 域一个抽屉，业务逻辑又是另一个抽屉。遇到跨抽屉的问题，我们需要经验、注意力和一点运气。Agent 的优势不只是知识面广，而是它可以把训练语料、历史任务、工具输出、Worker 产出和证据片段放进同一个可检索的状态空间里。它不是看得更细，而是可以在更大的上下文里同时看。

这里尤其要强调：这不是模型“自动灵光一现”，而是工程架构给了它条件。没有统一状态、没有共享黑板、没有时间线、没有证据图谱、没有跨 Worker 产出复用，模型再聪明，也只是当前窗口里的聪明。真正让跨领域记忆成立的，是系统把“过去的低价值信息”保留下来，并允许它在未来某个时刻重新进入假设池。

2. 对认知失败的低成本承受

人类红队不喜欢长时间穷举，并不是因为不会，而是因为人会累、会烦、会在连续失败之后怀疑路径本身。直觉是人类的优势，也是人类的结构性限制。Agent 不会因为第几十次失败而情绪波动，它会把失败当成搜索空间里的正常成本。

但这里必须讲清楚：所谓“低成本”，不是对目标系统零成本，更不是无约束地暴力试错。真实场景里的智能渗透必须有授权边界、速率控制、业务影响评估、工具执行审计和异常熔断。这里说的低成本，指的是 Agent 对自身认知失败的承受成本低：某条假设不成立，它可以记录失败原因，更新假设池，让其他 Worker 吃掉这个反馈，再进入下一轮验证。这不是简单的工程并发，而是认知并行。

3. 连续运行下的持续收敛

人类红队的产出天然被时间切割：工作时段、会议、吃饭、休息、状态起伏，都会把注意力切成片。Agent 的 Runtime 时间是连续的。它不需要睡觉，也不会因为一个任务失败而影响下一个任务的判断。

更重要的是，当连续性叠加前两种能力——跨任务记忆和成功失败惊艳的反馈复用——产出曲线就不再只是“机器加班”，而是无人值守的持续收敛。机器加班只是时间更长，智能收敛则是每一次成果都能压缩后续的搜索空间。

图 2：人工红队与 AI 渗透 Agent 的核心区别

五、能力曲线不是一条线，而是几次系统级跃迁

百亿 Token 之外，另一个被反复验证的判断是：智能渗透 Agent 的能力增长不是线性的。它不是从 60 分涨到 70 分，再从 70 分涨到 80 分；它更像是某个工程环节被打通之后，能力突然跨了一层。

回看这套 Agent 的能力演进，从最早“能调工具、能跑扫描”，到后来“能判断下一步动作、能写小型验证脚本”，再到“能分布式跨 Worker 协同、能独立推进外网到内网的链路”，再到现在“能在 HW、CTF 和行业比赛里稳定产出结果”，中间不是简单提速，而是能力结构发生变化。每一次跃迁新增的，不是把原来会做的事做得更快，而是做到了之前根本做不了、或者高度依赖专家现场状态才能做到的事。

还有一个很关键的现象：每一次跃迁前期的 Token 单价会很高，因为系统在探索、试错、积累失败样本；但一旦某类路径沉淀进黑板、Workflow、工具网关和评估样本，后续同类攻击链的边际 Token 成本反而会下降。前期烧掉的是试错成本，后期沉淀出来的是能力复利。能力跃迁的本质不是“模型突然更会黑了”，而是任务状态、工具执行、证据评估和经验复用之间的闭环被打通了。

六、真正烧出来的是工程系统，不是更贵的 Prompt

当然，成熟的工程系统并不是百亿 Token 消耗到位就会自动成型的。如果只是把 LLM 当成一个会说话的扫描器，拿一个大模型，套一层提示词，配几个工具，然后让它不停跑，最后大概率只会烧出一张更贵的账单。

真正让智能渗透 Agent 能进实战的，是底下那层工程系统。我们内部把它概括为 One For All，但这句话不仅仅是“一个 Agent 干所有事”，更是所有 Agent 共享同一套能力底座：同一份可检索记忆、同一套工具能力、同一个判断回路和同一套边界约束。

没有控制平面，AI 渗透不是能力，而是事故；没有认知平面，跨 Worker 记忆就只是口号；没有执行平面，工具调用就不可控；没有评估平面，Token 烧得越多，噪声可能越多；没有学习平面，每一场实战都得从头开始。大模型只是动力，Agent 的形态是被工程塑出来的。

图 3：AI 智能渗透系统的五层工程平面：控制、认知、执行、评估、学习

七、成熟度不看自动化率，看 Token 到证据的转化率

很多人评估 AI 渗透系统，第一反应是看自动化率：自动完成了多少任务、自动调用了多少工具、自动生成了多少报告。这些指标有参考价值，但不是核心。自动化率高，不代表安全价值高；如果自动化制造的是误报、噪声和越界风险，自动化越高，问题越大。

我们现在更关注几类转化率：第一，Token 到假设的转化率——同样消耗一百万 Token，系统能不能生成一批具体、可执行、可验证的攻击假设；第二，假设到证据的转化率——能不能在授权边界内构造验证、获取响应、保存证据、说明影响；第三，证据到风险的转化率——技术发现能不能回答影响对象、权限边界、修复优先级和复测路径；第四，经验到复用的转化率——一次实战里有效的假设、失败路径、误报模式和人工注入的判断意见，有没有进入下一次任务。

这些指标，比“自动化率”更接近 AI 智能渗透的本质。因为渗透测试的目标从来不是自动化本身，而是在不确定环境里，把攻击假设收敛成可信风险证据。成熟系统的核心问题不是“我自动跑了多少”，而是“我在授权边界内，用多少 Token、多少 Worker、多少 Runtime，把多少不确定性压成了可复核的风险”，最终形成安全隐患和问题清单。

八、对于三种角色的核心挑战

对于仍在一线战斗的红队：真正危险的不是 AI 替代你，而是你一直停留在工具操作层和高强度苦力劳动。未来红队的分水岭，不是会不会写某个 PoC，而是能不能把自己的攻击经验变成 Agent 可以执行、评估和复用的任务系统。人的价值不会消失，但会从“亲自敲每一步”迁移到目标设定、边界控制、任务建模、结果复核和系统塑造。

对于甲方安全运营工作：如果我们的预算和评估体系里还完全没有 AI 原生攻击这个维度，那么很可能对暴露面的理解可能已经滞后。更重要的是，现有的传统 SOC、EASM、EDR 和漏洞管理流程，仍然是按人类攻击节奏设计的。Agent 的节奏更平、更密、更连续，也更擅长把低优信号跨时间片组合起来，必须要用AI的方式来防御AI。

对于 AI 安全产品团队：不要只做“AI 写规则更快”“AI 生成报告更快”这一类产品，那只是把 AI 当生产力插件。真正值得做的，是那些过去人类红队很难持续做到、因此防守侧也缺少对应观测维度的事情。攻击方行为分布已经变化，防守方就需要新的防御原语。未来防守方要看的，不只是某个 payload、某次扫描或某条命令是否异常，而是多个低强度行为之间是否形成了 Agent 式的假设推进轨迹。

九、百亿 Token 之后，我们更加理性地看待 AI 渗透

烧完这百亿 Token 之后，我们对 AI 智能渗透的态度反而更理性了。它不是万能黑客，不是无边界自动攻击系统，也不是把报告写得更漂亮的大模型报告助手。它真正的价值，是把人的经验、模型的推理、工具的执行、系统的记忆和工程的约束，压缩进一套可控、可验证、可复用、可持续演进的渗透体系里，形成一套全新的 7*24 小时智能攻击验证体系。

这件事的影响，不只是提效。如果只是提效，它仍然属于工具升级；真正的变化在于，攻击形态已形成根本性的改变。过去我们用人天衡量投入，用漏洞数量衡量产出，用报告厚度衡量交付，在这些维度能够看到的是，AI 在攻防领域越来越接近于那些近乎传奇的红队大手子。

人当然没有退出战场，但人的位置确实在变化。过去人必须亲自站在每一步里，靠经验、记忆和熬夜推进攻击链路；未来人更应该站在目标、边界、判断和系统塑造的位置上。真正的竞争，不是“谁更早接入大模型”，而是“谁能更早把攻防经验做成可信智能体系统”。如果说这一个多月、百亿 Token 给我们留下了一个最明确的结论，那就是：AI 智能渗透不是把传统渗透测试自动化一遍，而是在重新定义渗透测试的成本结构、能力结构和组织结构。

这个变化不会一夜之间完成，但它已经开始了。

图 4：部分测试成果展示（1）

图 5：部分测试成果展示（2）

最后欢迎各位甲方老板试用我司 JoySecurity 全链路智能攻击平台，它是一个真正的实网可应用的生产级AI攻击平台（渗透、代审、攻防等等）。

可以清晰地看到一套 AI 原生攻击体系，如何在授权边界内持续发现风险、验证风险、留存证据并完成总结复盘。

一定会有惊喜给到你。

call me～ [email protected]～

AI for Security：自动化渗透测试落地实践与实战

再论 AI 渗透测试 Agent 的减法哲学

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全研究实验室《百亿Token消耗｜AI渗透的实践与思考》