2026-05-06 05:16:57 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档实测对比DeepSeek-V4、Kimi2.6和GPT-5.3在IoT固件漏洞挖掘中的表现，发现DeepSeek-V4Pro+ClaudeCode组合性价比最高，27条发现仅需25分钟且成本极低。关键结论包括：Plan模式能确保覆盖率但无法保证理解深度；工具链质量（如Ghidra反编译可读性）是精度瓶颈；人机协作模式（模型负责广度扫描，人类负责深度判断）优于全自动方案。建议安全团队优先采用低成本大上下文模型进行攻击面测绘。 综合评分： 82 文章分类： 漏洞分析,IoT安全,红队,自动化,AI安全

cover_image

从 IoT 自动漏挖看智能体发展趋势：实测 DeepSeek-V4 VS Kimi 2.6 VS GPT 5.3 codex

原创

i3eg1nner&郭小白 i3eg1nner&郭小白

SecureNexusLab

2026年5月5日 11:20 北京

在小说阅读器读本章

去阅读

起因

我平时的工作流就是在 Claude Code 和 OpenCode 里跟模型聊天、迭代、挖洞。这套流程我已经用了挺久，效果还不错，但问题是烧钱。正好 DeepSeek V4 出来了，通过架构创新把 1M 上下文的成本打了下来，缓存命中高的情况下成本极低，我就想知道它能不能替代我手头那些贵的模型，缩减 token 成本。

于是拉上郭小白师傅，自费跑了 6 组对比实验。这不是严谨测评，只是想在 DeepSeek V4 在自动化长任务上的效果。

先看关键指标速查，有个整体印象：

精度和发现数量基本是反着来的，最让我惊喜的是 DeepSeek 夸张的命中率和价格，这么多次实验加起来也就十几块钱，单次半小时左右的长任务在 2 块钱：

V4-Pro缓存命中截图

实验测试全部通过官方 API，DeepSeek V4 是核心目标，所以给它试了 OpenCode 和 Claude Code 上的四种组合，包括是否开启 plan 模式、subagent 是否使用 DeepSeek-V4-pro 模型，GPT-5.3 Codex 和 Kimi K2.6 当对比：

❝

「为什么不选 GLM-5.1」 ：限制 1 并发 「为什么不选 GPT-5.5」 ：内容安全管控，懒得折腾 「为什么不选 Claude」 ：太贵 「为什么不选 Qwen」：没有自动调用Ghidra MCP，烧了两百多块钱（学生代金券），遂放弃 「为什么…」：

❞

怎么测的

任务：拿一个 Tenda W30AP V1.0RE 路由器固件，扔给 AI 让它挖漏洞。

工具链：Ghidra MCP + Binwalk v3。初始提示词是从大可实验室简单魔改的：AI挖Java 0day不再靠运气！这套Skill让审计覆盖率100%、幻觉率趋近0

核心逻辑是敏感 API 扫描 + 多 Agent 并行审计，每条调用链必须标注文件:行号，不得编造代码片段，不确定的发现标记为 Hypothesis，宁可漏报不能误报。对于可利用漏洞按利用难度记性评估，最后还需要检查文件覆盖率，直到百分百。提示词放在了文章末尾。

结果比我想的有意思

先说各模型的表现。注：Hypothesis的全都没人工核验

Kimi 只报了 6 条，它是唯一一个完成了跨库调用链追踪的模型，其他模型在追到动态库边界的时候就放弃了，Kimi 硬是跨了 .so 追到了底。

DeepSeek 在 Claude Code 上用 Max Thinking 模式直接报了 27 条，量上碾压全场，但人工确认下来近半是误报。在 OpenCode 上 11 条发现 5 个正确，1个归因错误，算是均衡选手，不过没有 Claude Code 上的表现好。

GPT-5.3 最保守，3 条发现，其中 1 个归因需要进一步验证，关键漏洞比如认证绕过直接没看到。37 分钟跑完，输出结构最规整，但深度不够，而且不知道为什么opencode导出的思考过程完全是空的（

有个要吐槽的事：S4（DS-CC-Plan-Flash）最终输出报告时仅有几个漏洞，但从日志看它里面列的 30 多条其实挺靠谱的。我实在没精力一条条翻日志去验证，所以确认数打了个问号。模型干了 80 分的活，最后一步输出开始偷懒，功亏一篑——这类问题其实很普遍。

plan-Build切换截图

各模型到底挖出了什么？

人工核验后，所有模型一致发现的真实漏洞：

S4 表现看起来差是因为最终导出报告出了问题，日志里实际列了 30 多条，大部分长得挺靠谱的，但没精力逐一翻日志核验，所以大部分标了”—”。

Phase 执行过程：谁掉了链子？

几个值得注意的点：

仅 S4 和 S5 严格实施了覆盖率门禁的全部步骤（读取 Agent 输出 → 交叉验证 → 启动补扫 → 重新验证）
S2 偏离最严重——明明说要启用多个 Agent，结果主 Agent 自己一个人把所有 Ghidra 分析完成了，Agent-2 和 Agent-3 根本没启动。在遵守复杂多阶段指令这件事上，Claude Code 的 Plan 模式（S4/S5）比 OpenCode（S2）可靠了不止一个档次
S3 No-Plan 模式下直接跳过了覆盖率门禁

Plan 模式到底有没有用？

有用，而且比我想的明显。No-Plan 模式（S3）完全跳过了覆盖率门禁，Plan 模式（S4/S5）严格走完了”读取输出→交叉验证→启动补扫→重新验证”的流程。

不过别高兴太早。覆盖率门禁保证的是”看过了”，不保证”看懂了”。S5 声称覆盖 243 个文件，但 High/Medium 发现也就两三句话，深度显然不够。

所有模型都翻车的地方

这部分说实话参考意义有限——不知道是不是我用的这个 Ghidra MCP 的问题，反编译出来的代码可读性极差，明显影响了大模型发挥。

但有些错误很值得玩味，因为它们不是个别模型的锅，而是「三个模型在同一个位置犯了同样的错」：

这些说明高质量的数据和输入，尤其是反编译代码的质量对任务影响极大。Ghidra 出来的东西可读性太差，模型再聪明也是 garbage in garbage out。工具链不升级，换个再聪明的脑子也白搭。

模型性格画像

跑完这轮测试，我脑子里给三个模型画了像：

「GPT-5.3 Codex」 极度保守，严格按照指令格式来，输出结构最规整，Plan 阶段执行最严格。但深度不足，3 条发现 1 条明确误报，漏了关键漏洞也不会主动深挖。

「DeepSeek V4 Pro」 激进探索，高并行度。Claude Code 上展现了最强的系统协调能力——7 个 Agent 并行 + 覆盖率矩阵自动补扫。精度随发现数量上升而变化，而且会在同一个坑里反复摔跤。适合广度优先的大面积扫描，快速摸清攻击面。最重要的是——便宜，1M 上下文 + 高缓存命中，大规模跑起来不心疼。

「Kimi K2.6」 方法论驱动，谨慎验证，唯一完成跨库调用链追踪的模型，严格遵循 Hypothesis 标记。

两个工具平台的体验差异

Claude Code 的核心优势在于原生 Agent 并行机制和覆盖率门禁的严格实施。

总结

「1. DeepSeek V4 Pro + Claude Code + Plan + Max Thinking，是目前性价比最高的组合。」 27 条发现、100% 文件覆盖、25 分钟跑完。适合广度优先的攻击面测绘。

「2. Plan 模式一般优于直接开干，但不能强求 Plan 一定能解决问题。」 S3 不开 Plan，直接跳过了覆盖率门禁；S4/S5 开了 Plan，流程走得规整。但 Plan 做到 100% 覆盖后，S5 的深度分析也不过两三句话——Plan 解决了”不遗漏”，没解决”不理解”。对于真正困难的任务，不管是全自动 Agent 还是人机协作，本质上都是迭代完善的过程，别指望一步到位。

「3. 精度的天花板不在模型，在 Ghidra 反编译出来的那坨代码。」 三个模型在同一个位置犯同样的错，说明根因在工具链而非推理能力。工具链不升级，换再聪明的脑子也白搭。

「4. 人机协作短期内不会被替代。」 人类的经验可以帮助模型快速撕开问题核心的口子——模型在全自动模式下花了大量 Token 在低价值路径上试错，但如果人在关键节点看一眼、给一句话的判断，模型就能省下大量无意义的探索。反过来，模型能覆盖人懒得逐行审计的代码，把人的判断力放大到整个固件。模型负责广度，人负责方向和深度判断，这个配合模式在深入任务上远优于全自动。

「5. 智能体框架拆解到最后，本质上就两个核心任务：上下文管理（含记忆）和任务编排逻辑。」 其余的调度、工具调用、错误恢复，无非是这两个核心的外延。上下文管理决定了模型”知道什么”，任务编排决定了模型”怎么干”。这两个做好了，框架就不会太差。Claude Code 和 OpenCode 毕竟是通用 CLI，它们的 Plan、Agent 并行、覆盖率门禁都是面向通用场景设计的，遇到困难任务时调度策略和上下文淘汰机制并不总能贴合安全审计的需求。如果要做自动化解决困难任务的智能体，只能自己搭，可以考虑基于 pi-agent这类框架来做深度的编排定制。

https://github.com/badlogic/pi-mono

一些不成熟的想法

去看了腾讯渗透智能体大赛的决赛，开场第一位分享的师傅提了个”AI First、Less Is More”的思路——大模型能力足够强，而且一直在进化，现在费劲设计的那些智能体编排很可能将来被一个大版本更新替代掉。所以他只做了一个通用、简洁的智能体框架 + 足够完善的工具环境，就拿下了全部赛题的 AK。

我很认同这个方向，但同时也有点疑虑。

以目标为导向的智能体框架有两个问题：一是烧 Token，二是如果某条决策路径在大模型视角被判了死刑，它记录了下来，这条路就没人走了。但大模型说此路不通的路，真的不通吗？从底层原理看，大模型的每个词都是概率激活生成的，某些真正创新的方法可能恰好落在低概率区间，直接胎死腹中。

对应地，做完这次测试，我感受很深的是 DeepSeek 把成本打下来这件事本身的影响。1M 上下文的模型，缓存命中的情况下成本极低，「大规模应用到安全甚至更多领域的阻力大幅降低了」。拿知识管理举个例子。前段时间 LLM WIKI 在圈子里刷屏，核心就是烧 Token 帮你从各个来源整理信息、沉淀到 WIKI 里。知识库积累越多，模型对你的理解越精准。DeepSeek 的价格和缓存命中特点格外适合这个场景。但我调研下来发现一个坑：WIKI 持续堆积会导致低质量文本爆炸。我的工作需要一定的技术深度，人也一直处于学习状态。WIKI 追求大而全，但知识框架要的是小而精。我觉得理想的形态应该是「在 LLM WIKI 上面再加一层知识框架，像技能树一样，让你能感知到自己该往哪个方向补、成果也能量化，形成正反馈」。

我正在尝试的知识框架管理

另外一个是「推理链的可视化」。Vibe Coding 成了习惯以后，大部分人不关心决策是怎么做的，能完成任务就行。但在真正落地的智能体场景里，工作流需要稳定，人工核验推理链是有价值的。问题是模型的对话实在太长了，逐条看根本不现实。一个自然的工具雏形是：「模型压缩信息 → 人工检查推理链路 → 回归原始日志验证细节」。但压缩到什么粒度、链路的可视化怎么交互，我到现在也没想到一个可验证的方案。有兴趣的师傅欢迎来聊。

大模型随便跑的demo

附录

提示词

ounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(lineounter(line调用 binwalk 和 ghidra-mcp 对当前目录下的固件进行逆向和分析，从漏洞挖掘的角度寻找红队可利用的漏洞，使用敏感 API 扫描的方法，标记潜在漏洞位置，使用多个 agent 进行代码审计： 每个 Agent 都会对分配给它的文件执行两条并行的审计轨道：Sink-driven（从危险代码往上追）；Control-driven（从端点往下查安全控制是否缺失）
核心原则：1.&nbsp;报告漏洞前必须用 Glob/Read 验证文件存在2.&nbsp;代码片段必须来自实际 Read 输出，不得编造3.&nbsp;调用链每一跳必须标注文件: 行号4.&nbsp;不确定的发现标记为 Hypothesis，不得标记为 Confirmed5.&nbsp;宁可漏报，不可误报。
对于可利用漏洞按照"利用难度"拆成三个独立维度：访问路径：互联网 (0) / 内网 (-2) / 物理 (-4)&nbsp;权限门槛：无需认证 (0) / 低权限 (-1) / 高权限 (-3) 交互复杂度：零交互 (0) / 弱交互 (-1) / 强交互 (-3)Weapon（武器化程度）：有成熟 EXP（Metasploit/Nuclei 已集成）+1，仅有 PoC +0，纯理论/竞态条件 -2。
收到每个 Agent 结果后立即执行：1.&nbsp;读取 Agent 输出的「文件统计」和「审阅文件清单」2.&nbsp;与实际文件列表交叉验证3.&nbsp;覆盖率 = 100% → 该 Agent 通过覆盖率 < 100% → 立即为未覆盖文件启动补扫 Agent（不等其他 Agent 完成）4.&nbsp;更新覆盖矩阵
所有 Agent 完成后：全部模块 Phase 2 = 完成 → 进入 Phase 3 &nbsp; &nbsp;存在未开始或部分完成 → 启动补充 Agent → 重新过门禁 → 循环直到 100% 禁止在覆盖率 < 100% 时进入 Phase 3。没有例外。漏洞报告的输出格式为：| 序号 | 字段 &nbsp; &nbsp; | 说明 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 为什么必填 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| ---- | -------- | ------------------------------------------------------------ | --------------------------------- || 1 &nbsp; &nbsp;| 基本信息 | 漏洞类型 + CWE-ID + 严重程度 + DKTSS 评分 (含推导公式) + 受影响组件 + 文件: 行号 | 让读者快速了解漏洞全貌 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| 2 &nbsp; &nbsp;| 触发条件 | 漏洞触发的前置条件列表 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 明确利用场景，避免“理论漏洞” &nbsp; &nbsp; &nbsp;|| 3 &nbsp; &nbsp;| 所需权限 | 利用所需的最低权限（无需认证/低权限/高权限） &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 评估实战威胁，对应 DKTSS Friction || 4 &nbsp; &nbsp;| 漏洞原理 | 编号步骤的逐步分析（≥2 步） &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 让开发理解“为什么有漏洞” &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| 5 &nbsp; &nbsp;| 代码证据 | 关键代码片段 + 文件: 行号（必须来自实际 Read） &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 反幻觉：可验证的证据 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| 6 &nbsp; &nbsp;| 调用链 &nbsp; | Source→Sink 完整路径图，每跳标注文件: 行号 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 证明用户输入确实能到达危险函数 &nbsp; &nbsp;|| 7 &nbsp; &nbsp;| PoC &nbsp; &nbsp; &nbsp;| HTTP 请求或利用脚本（CONFIRMED 必须可执行） &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;| 让开发能复现漏洞 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| 8 &nbsp; &nbsp;| 业务影响 | 对业务的实际影响描述 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 让管理层理解风险 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|| 9 &nbsp; &nbsp;| 修复建议 | 具体修复方案（≥1 条） &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; | 给出可执行的修复路径 &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;|

GPT-5.3-Codex-OpenCode-Plan 人工核验

「核验汇总：」

| 漏洞编号 | 漏洞名称 | 核验结果 | 备注 | | — | — | — | — | | Vul-1 | goform/ate → TendaAte | ✅ 判断正确 | | | Vul-2 | /goform/exeCommand → formexeCommand | ⚠️ 结果正确，归因未做进一步确认 | Cmdinput 传入 tpi_get_ping_output 库函数，需确认库内是否有核验 | | Vul-3 | /cgi-bin/upgrade 上传接口 | ✅ 判断正确 | | | — | R7 认证绕过 | ❌ 漏报 | 只检测到ATE的 R7WebsSecurityHandler 的认证绕过问题，还有很多直接没看到 |

DeepSeek-OpenCode-plan 人工核验

「核验汇总：」

KIMI-OpenCode-Plan 人工核验

「核验汇总：」

DeepSeek-V4-Claude Code-no-plan-flash 人工核验

总的来说，检测到了很多硬编码的漏洞，但是 httpd 内部的污点型漏洞几乎都没有检测到

其余假设性漏洞没有看，均不是 httpd 的洞

「核验汇总：」

DeepSeek-V 4-Claude Code-plan-flash

感觉像是导出的锅，他列表里的 30 多个还都挺有模有样的、而且 flash 能花 2 块钱，应该确实扫了不少东西

「核验汇总：」

DeepSeek-V 4-Claude Code-Plan-Pro

「核验汇总（Critical）：」

「核验汇总（High）：」

「核验汇总（Middle）：」

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：SecureNexusLab i3eg1nner&郭小白 i3eg1nner&郭小白《从 IoT 自动漏挖看智能体发展趋势：实测 DeepSeek-V4 VS Kimi 2.6 VS GPT 5.3 codex》