写了很多Agent之后,我重新思考了一件事:我们到底在“造什么样的Agent”?

admin 2026-01-26 02:43:51 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 作者通过对比工业化Agent与框架型Agent,提出应摒弃二选一思维,转而采用分层架构。上层使用框架负责战略编排与审计,下层将工业化Agent封装为执行工具。该方案兼顾系统的可控性与执行的高效性,旨在构建可沉淀、可演进的系统能力而非一次性工具。 综合评分: 90 文章分类: AI安全,安全建设,安全开发,安全工具,CTF


cover_image

写了很多 Agent 之后,我重新思考了一件事:我们到底在“造什么样的 Agent”?

原创

yhy0 yhy0

谁不想当剑仙

2026年1月23日 15:06 湖北

承影最近在加 agent 的能力, 使用 claude 1 个多小时帮我翻译了一个 go 版本的 sdk https://github.com/yhy0/claude-agent-sdk-go

最近一段时间,我密集地实现了很多 Agent,从工程执行、安全分析到极具挑战性的 CTF Agent。我用过 LangChain 这样的底层框架,也大量拥抱了像 Claude Code 这样高度“工业化”的 Agent 产品。

一开始,我是极其兴奋的。

很多过去需要自己设计、自己兜底的复杂工作,突然“消失”了:

  • 不用再手写 ReAct 循环;
  • 不用再操心工具调用的 Schema 和错误处理;
  • 不用再焦虑上下文的裁剪与压缩;
  • 写代码、跑命令、修 Bug,Agent 自己就能形成高效闭环。

那一刻,我甚至产生了一个很“危险”但又无比真实的想法:

如果这些“脏活累活”都已经被完美封装,我们还需要去关心 Agent 的“内部结构”吗?

这个问题,我相信每个深入 Agent 开发的工程师,迟早都会遇到。


1. 当 Agent 足够“工业化”,我们还需要掌控它的内部吗?

以 Claude Code 为代表的 Coding Agent,其本质已经超越了一个“模型接口”,它是一个完成度极高的工程型智能体

它具备的能力非常明确:

  • 成熟、稳定的 Prompt 结构;
  • 自动化的工具调度与执行循环;
  • 近乎无感的上下文管理机制;
  • 对代码、文件系统、命令行的原生理解力。

从结果导向看,它只为一件事负责:把事情做成

在我构建 CTF Agent 和安全分析 Agent 的过程中,有相当多的场景,它确实比我自己用 LangChain 拼出来的 Agent 表现得:

  • 更快;
  • 更稳;
  • 更省心。

于是,那个“危险”的想法再次浮现:

如果一个黑盒 Agent 已经能解决 80% 的问题,我们还有必要去触碰那剩下 20% 的“内部构造”吗?


2. 问题的本质:我们是在做“一次性工具”,还是在构建“系统能力”?

我后来意识到,我纠结的并非“用不用 LangChain”,而是一个更深层次的战略选择:

我正在构建的 Agent,到底只是一个满足当下需求的“一次性工具”,还是未来技术体系中可演进、可沉淀的“系统能力”?

这两种定位,将直接导向截然不同的技术选型和架构设计。


3. “黑盒” vs “白盒”:两种 Agent,两种价值

站在现在这个阶段回头看,我更愿意这样区分它们解决的核心问题。

工业化 Agent (黑盒)

它的本质是强执行,内部推理高度封装,追求明确的结果导向。它更像一个你雇来的“顶尖外包专家”。

  • 你给目标;
  • 它自己探索路径、编写代码、修正错误;
  • 最后交付结果。

你无需理解其内部心智,只关心结果是否达成。对于追求快速解题、拿到结果的场景,它几乎是最优解

它完美地回答了这个问题:

How to execute? (如何把事情做成?)

框架型 Agent (白盒)

它的本质是强控制,允许你将 Agent 的能力,用一种完全透明、可控的方式实现出来。它更像一套“能力的实现蓝图”。

  • 决策逻辑是显式的;
  • 状态与上下文是可控的;
  • 行为路径是可复现、可审计的;
  • 过程中产生的“中间产物”是可结构化、可沉淀的。

它让你能清晰地回答这个问题:

What to do next, and why? (下一步做什么,以及为什么?)

在严肃的安全和企业级场景里,这种控制权一旦拥有,就再也无法放弃。因为我们关心的不再只是最终输出,更是 Agent 在过程中产生的所有“中间产物”,例如:可审计的决策链、可复用的知识资产、可迭代的系统行为


4. 我的选择:走向“分层架构”,而非“二选一”

所以我最终的判断是:

不要在「LangChain vs 工业化 Agent」之间站队。真正成熟的 Agent 架构,一定是分层的。

我现在认可并实践的形态是:

上层:战略与编排层 (The “Why”)

  • 核心职责:决策、规划、审计、沉淀。这是 Agent 的“大脑”和“灵魂”。
  • 技术实现:使用 LangChain / LangGraph 等框架,显式地定义业务逻辑、状态机、记忆结构和风控规则。
  • 控制权:完全掌握在我们自己手中。

下层:能力与执行层 (The “How”)

  • 核心职责:高效、稳定地完成具体任务。这是 Agent 强有力的“双手”。
  • 技术实现:将工业化的 Agent(如 Claude Code)封装成一个“超级工具”。
  • 控制权:我们将具体的执行过程“外包”出去,只关心输入和输出。

在 CTF Agent 的实践中,这意味着:

  • “这局该怎么打?” —— 这个战略问题,由我控制的“编排层”来回答。
  • “把这一步给我跑通!” —— 这个执行问题,则交给“执行层”的 Agent 来解决。

这样既不会重复造轮子去实现一个通用的代码执行器,也不会把系统的核心战略完全外包给一个不可控的黑盒。


5. 最终,我们关心的问题变了

最初,我们关心的是:“这一次能不能跑通?”

现在,我相信更重要的问题是:

我们今天构建的这个 Agent,在半年后、一年后,是否还能被我们自己、被其他人轻易地理解、维护和迭代?它是在消耗价值,还是在沉淀数字资产?

Claude Code 这样的产品是“能力放大器”,而 LangChain 这样的框架是“能力构建器”。

想清楚我们到底在“造什么样的 Agent”,比选择用哪个工具,要重要得多。


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:谁不想当剑仙 yhy0 yhy0《写了很多 Agent 之后,我重新思考了一件事:我们到底在“造什么样的 Agent”?》

评论:0   参与:  0