2026-04-02 03:39:47 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文通过分析ClaudeCode源码泄漏事件，揭示其核心为HarnessEngineering系统而非单纯AI聊天机器人。关键发现包括工具注册表、权限系统、沙箱策略、计划模式等框架设计，表明顶级AI公司竞争重点已转向将模型封装进可控执行环境。可操作建议包括关注工具绑定、执行边界定义及灰度运营等工程实践。 综合评分： 85 文章分类： 漏洞分析,AI安全,安全建设,解决方案,技术标准

cover_image

万字长文丨Claude Code 源码泄漏技术复盘：第一梯队 AI 公司如何打造 Harness Engineering

玉衡实验室玉衡实验室

山海之关

2026年4月1日 18:27 北京

摘要

本次泄漏事件，表面上是一份 Claude Code 发布包，实质上却让外界第一次较完整地看到了顶级 AI Coding Agent 的工程骨架。从 cli.js.map 可恢复的大量源码来看，Claude Code 的核心并不是“会写代码的聊天机器人”，而是一套典型的 Harness Engineering 系统：它把大模型装进一个有工具注册表、权限系统、沙箱策略、计划模式、任务清单、子 Agent 协作、会话记忆、MCP/插件接入和灰度开关的可控执行框架里。结论很明确：第一梯队 AI 公司竞争的重点，已经不只是模型能力，而是如何把模型封装进一个能够稳定执行、可验证交付、可灰度运营、可持续扩展的 Harness Engineering。

一、研究背景：为什么这次事件值得技术复盘

大多数人看 AI Coding 产品时，注意力会自然落在模型回答得准不准、代码写得快不快、会不会自动改文件。但从工程视角看，这些只是表层表现。真正决定产品上限的，往往是下面几个问题：

模型如何安全地接触真实文件系统和终端
模型如何被约束在可解释、可审计的工具调用路径里
模型如何管理长任务、拆分任务、做验证、保留状态
产品如何把实验功能、内部能力和正式功能放进同一套 runtime
团队如何把 AI 能力做成平台，而不只是某个 prompt 技巧

这正是 Harness Engineering 的问题域。

如果用更通俗的话说，Harness Engineering 不是研究“模型会不会做事”，而是研究“怎样让模型在真实系统里、按可控方式、持续稳定地做事”。这份 Claude Code 包，恰好提供了一个观察窗口。

二、研究方法与证据边界

一手证据：当前目录中的打包产物与 Source Map

本次分析主要基于以下文件：

package/package.json
package/cli.js
package/cli.js.map

其中，最关键的是 cli.js.map。它不是压缩包，而是一个 source map 文件，内部包含：

sources：原始源码路径
sourcesContent：原始源码正文

基于这份 map，内嵌源码已完整恢复到本地目录：

recovered-src

共恢复出约 1900 个 src/** 文件片段，用于本文中的代码核查与引用。

二手证据：官方博客、官方文档、官方账号可验证资料

参考文献部分优先采用大厂官方资料，尤其是 Harness Engineering 相关文档与博客。因此，“概念框架”和“行业背景”优先锚定在：

Anthropic 官方博客 / 文档
OpenAI 官方文档
Google / Cloud 官方博客或文档

#

分析边界

本文坚持两个原则：

代码事实优先：任何关于 Claude Code 的细节判断，优先由源码支持
推论有限：源码没写清的地方，不做过度猜测

也就是说，本文会区分：

源码事实：代码里直接能看到的模块、状态、注释、功能开关
工程推论：基于源码结构得出的合理解释，但不会把推论说成事实

三、什么是 Harness Engineering，为什么它适合解释 Claude Code

在传统软件工程里，大家更熟悉“框架”“平台”“运行时”“编排系统”这些词。到了 Agent 时代，Harness Engineering 可以理解为这些能力在 AI 系统中的重新组合。

它通常包括几个核心问题：

如何把模型能力绑定到工具能力
如何定义执行边界，而不是仅靠 prompt 自觉
如何让任务可以被拆分、追踪、验证和恢复
如何把长期记忆、外部系统和多 Agent 协作纳入统一执行平面
如何通过 feature flag、权限模式、实验开关来运营整个系统

而且，“harness”并不是为分析方便临时拼接出来的词。Anthropic 官方的 Claude Code SDK 文档明确把 SDK 描述为建立在“the agent harness that powers Claude Code”之上。这一点非常重要，因为它意味着从官方表述看，Claude Code 本身就被 Anthropic 理解为一个 agent harness。

从 Anthropic、OpenAI 等官方资料看，这个方向的关键词高度一致：

tool use
handoff / agents
tracing / observability
memory / long-running sessions
safety boundaries
evaluation harness

因此，把 Claude Code 解释为一个 Harness Engineering 案例，比把它解释为一个“强一点的 CLI 助手”要准确得多。

图 1：Harness Engineering 的重点不是模型本身，而是模型与执行环境之间的那一层系统设计

四、从源码看 Claude Code 的真实形态：它首先是一个工具执行框架

工具注册表说明了一切

recovered-src/src/tools.ts 是最值得先看的文件之一。里面的 getAllBaseTools() 基本就是 Claude Code 执行平面的目录表：

export&nbsp;function&nbsp;getAllBaseTools(): Tools {
return&nbsp;[
&nbsp; &nbsp; AgentTool,
&nbsp; &nbsp; TaskOutputTool,
&nbsp; &nbsp; BashTool,
&nbsp; &nbsp; ...(hasEmbeddedSearchTools() ? [] : [GlobTool, GrepTool]),
&nbsp; &nbsp; ExitPlanModeV2Tool,
&nbsp; &nbsp; FileReadTool,
&nbsp; &nbsp; FileEditTool,
&nbsp; &nbsp; FileWriteTool,
&nbsp; &nbsp; NotebookEditTool,
&nbsp; &nbsp; WebFetchTool,
&nbsp; &nbsp; TodoWriteTool,
&nbsp; &nbsp; WebSearchTool,
&nbsp; &nbsp; TaskStopTool,
&nbsp; &nbsp; AskUserQuestionTool,
&nbsp; &nbsp; SkillTool,
&nbsp; &nbsp; EnterPlanModeTool,
&nbsp; &nbsp; ...(process.env.USER_TYPE ===&nbsp;'ant'&nbsp;? [ConfigTool] : []),
&nbsp; &nbsp; ...(process.env.USER_TYPE ===&nbsp;'ant'&nbsp;? [TungstenTool] : []),

单看这一段，已经足够得出一个基础判断：

Claude Code 的核心不是消息窗口
它是一个以工具调用为中心的Agent运行时

这些工具覆盖了多个层面：

文件系统操作
终端与 PowerShell 执行
Web 获取与搜索
计划与任务清单
用户问答
技能系统
子Agent能力

这意味着 Claude Code 不是“让模型输出文本”，而是“让模型驱动一个被定义好的行动集合”。

大量能力被 feature gate 包裹，说明这是平台级产品

同一文件里，大量工具并不是永久启用，而是跟随特性开关：

const SleepTool =
&nbsp; feature('PROACTIVE') || feature('KAIROS')
&nbsp; &nbsp; ? require('./tools/SleepTool/SleepTool.js').SleepTool
&nbsp; &nbsp; : null

const cronTools = feature('AGENT_TRIGGERS')
&nbsp; ? [
&nbsp; &nbsp; &nbsp; require('./tools/ScheduleCronTool/CronCreateTool.js').CronCreateTool,
&nbsp; &nbsp; &nbsp; require('./tools/ScheduleCronTool/CronDeleteTool.js').CronDeleteTool,
&nbsp; &nbsp; &nbsp; require('./tools/ScheduleCronTool/CronListTool.js').CronListTool,
&nbsp; &nbsp; ]
&nbsp; : []

const RemoteTriggerTool = feature('AGENT_TRIGGERS_REMOTE')
&nbsp; ? require('./tools/RemoteTriggerTool/RemoteTriggerTool.js').RemoteTriggerTool
&nbsp; : null

这里至少透露出三层工程信号：

有正式功能与实验功能并存的机制
有面向不同用户群、不同环境做差异化启停的能力
Claude Code 背后存在完整的线上配置与灰度系统

这已经不是一个“打包好的桌面小工具”的组织方式，而是成熟平台软件的组织方式。

五、Claude Code 的命令层不是附属功能，而是统一入口层

如果说 tools.ts 展示了动作集合，那么 recovered-src/src/commands.ts 展示的就是入口集合。

文件里除了传统命令，还出现了大量能指向未来产品形态的入口：

import teleport from&nbsp;'./commands/teleport/index.js'
import chrome from&nbsp;'./commands/chrome/index.js'
import stickers from&nbsp;'./commands/stickers/index.js'
import advisor from&nbsp;'./commands/advisor.js'
import mobile from&nbsp;'./commands/mobile/index.js'

还有按特性启用的命令：

const voiceCommand = feature('VOICE_MODE')
&nbsp; ? require('./commands/voice/index.js').default
&nbsp; : null

const webCmd = feature('CCR_REMOTE_SETUP')
&nbsp; ? (
&nbsp; &nbsp; &nbsp; require('./commands/remote-setup/index.js') as typeof import('./commands/remote-setup/index.js')
&nbsp; &nbsp; ).default
&nbsp; : null

const buddy = feature('BUDDY')
&nbsp; ? (
&nbsp; &nbsp; &nbsp; require('./commands/buddy/index.js') as typeof import('./commands/buddy/index.js')
&nbsp; &nbsp; ).default
&nbsp; : null

从工程角度看，这说明 Claude Code 不是单一使用场景产品，而是一个正在向多宿主环境扩张的 Agent 平台。命令层很像一层路由系统，把不同入口需求映射到统一 runtime。

工程推论可以概括为一句话：Claude Code 的 CLI，只是它当前最清晰的壳；并不意味着它的能力边界只在 CLI。

六、计划模式、Todo、验证 Agent：这不是“会规划”，而是“把规划做成系统状态”

很多 AI 产品会说自己“支持 planning”。但大多数时候，这只是 prompt 层的行为。 Claude Code 不一样，它把规划做成了 runtime 的显式状态。

Plan Mode 是一个真模式，而不是口头承诺

recovered-src/src/commands/plan/plan.tsx 中，可以看到：

if&nbsp;(currentMode !==&nbsp;'plan') {
&nbsp; handlePlanModeTransition(currentMode,&nbsp;'plan');
&nbsp; setAppState(prev => ({
&nbsp; &nbsp; ...prev,
&nbsp; &nbsp; toolPermissionContext: applyPermissionUpdate(prepareContextForPlanMode(prev.toolPermissionContext), {
&nbsp; &nbsp; &nbsp;&nbsp;type:&nbsp;'setMode',
&nbsp; &nbsp; &nbsp; mode:&nbsp;'plan',
&nbsp; &nbsp; &nbsp; destination:&nbsp;'session'
&nbsp; &nbsp; })
&nbsp; }));
&nbsp; const description = args.trim();
if&nbsp;(description && description !==&nbsp;'open') {
&nbsp; &nbsp; onDone('Enabled plan mode', {
&nbsp; &nbsp; &nbsp; shouldQuery:&nbsp;true
&nbsp; &nbsp; });
&nbsp; }&nbsp;else&nbsp;{
&nbsp; &nbsp; onDone('Enabled plan mode');
&nbsp; }
return&nbsp;null;
}

这段代码至少说明三件事：

plan 是一个显式 mode
mode 会驱动 toolPermissionContext 变化
计划流程会影响后续 query 行为

这和“模型先想一想再答”是两个层次的事情。前者是系统状态机，后者只是语言习惯。

Todo 是执行骨架的一部分

recovered-src/src/tools/TodoWriteTool/TodoWriteTool.ts 中，Todo 并不是 UI 装饰，而是执行主线的组成部分：

export&nbsp;const TodoWriteTool = buildTool({
&nbsp; name: TODO_WRITE_TOOL_NAME,
&nbsp; searchHint:&nbsp;'manage the session task checklist',
&nbsp; ...
&nbsp; async call({ todos }, context) {
&nbsp; &nbsp; const appState = context.getAppState()
&nbsp; &nbsp; const todoKey = context.agentId ?? getSessionId()
&nbsp; &nbsp; const oldTodos = appState.todos[todoKey] ?? []
&nbsp; &nbsp; const allDone = todos.every(_ => _.status ===&nbsp;'completed')
&nbsp; &nbsp; const newTodos = allDone ? [] : todos

这说明 Claude Code 把任务清单做成了 session state 的一部分，而不是单纯的前端展示。

验证不是“可选美德”，而是被编码进工作流的要求

同文件中最值得注意的一段，是对 verification 的提醒：

if&nbsp;(
&nbsp; feature('VERIFICATION_AGENT') &&
&nbsp; getFeatureValue_CACHED_MAY_BE_STALE('tengu_hive_evidence',&nbsp;false) &&
&nbsp; !context.agentId &&
&nbsp; allDone &&
&nbsp; todos.length >= 3 &&
&nbsp; !todos.some(t => /verif/i.test(t.content))
) {
&nbsp; verificationNudgeNeeded =&nbsp;true
}

并且结果信息中还会追加明确提示：

const nudge = verificationNudgeNeeded
&nbsp; ? \n\nNOTE: You just closed out 3+ tasks and none of them was a verification step. Before writing your final summary, spawn the verification agent...
&nbsp; :&nbsp;''

这说明 Claude Code 的工程哲学不是“做完就汇报”，而是“做完之前需要 verification”。从 harness 角度看，这是一种非常关键的差异：系统开始主动约束交付质量，而不是只提升生成速度。

图 2：计划模式、Todo 列表与验证Agent共同组成 Claude Code 的任务控制骨架

七、权限系统与沙箱：Claude Code 真正的硬核部分

如果只看“能改文件、能跑终端”，Claude Code 当然很强。但更值得研究的是：它如何在允许模型动手的同时，把风险压回系统边界内。

源码明确区分“用户便利功能”和“真正安全边界”

recovered-src/src/tools/BashTool/shouldUseSandbox.ts 中，有一句非常关键的注释：

// NOTE: excludedCommands is a user-facing convenience feature, not a security boundary.
// It is not a security bug to be able to bypass excludedCommands — the sandbox permission
// system (which&nbsp;prompts users) is the actual security control.

这两行注释的含义极重：

excludedCommands 只是交互便利层
真正的安全控制在 sandbox permission system

这是一种成熟安全工程常见的分层思维：不要把“用户感觉像安全”的东西，当成真正的安全边界。

Claude Code 防的不是某个命令，而是“任意代码执行入口”

recovered-src/src/utils/permissions/permissionSetup.ts 对 Bash 权限规则做了明确风险识别：

export&nbsp;function&nbsp;isDangerousBashPermission(
&nbsp; toolName: string,
&nbsp; ruleContent: string | undefined,
): boolean {
if&nbsp;(toolName !== BASH_TOOL_NAME) {
&nbsp; &nbsp;&nbsp;returnfalse
&nbsp; }

if&nbsp;(ruleContent === undefined || ruleContent ===&nbsp;'') {
&nbsp; &nbsp;&nbsp;returntrue
&nbsp; }

后续还会继续匹配：

if&nbsp;(content ===&nbsp;${lowerPattern}:*) {
returntrue
}

if&nbsp;(content ===&nbsp;${lowerPattern}*) {
returntrue
}

if&nbsp;(content.startsWith(${lowerPattern}&nbsp;-) && content.endsWith('*')) {
returntrue
}

这说明系统不是简单地限制“危险命令名单”，而是在识别解释器前缀、通配规则和脚本执行入口。

PowerShell 版本更能看出这种意识：

const patterns:&nbsp;readonly&nbsp;string[] = [
&nbsp; ...CROSS_PLATFORM_CODE_EXEC,
'pwsh',
'powershell',
'cmd',
'wsl',
'iex',
'invoke-expression',
'icm',
'invoke-command',
'start-process',
&nbsp; ...
'add-type',
'new-object',
]

换句话说，Claude Code 关心的不是“是否运行了某个危险命令”，而是“是否打开了任意代码执行通道”。这才是 Agent 安全里最难、也最关键的部分。

安全策略带有明显的线上运营特征

同一文件还出现了动态配置读取：

const disabledCommands = getFeatureValue_CACHED_MAY_BE_STALE<{
&nbsp; commands: string[]
&nbsp; substrings: string[]
}>('tengu_sandbox_disabled_commands', { commands: [], substrings: [] })

这说明安全策略不是纯本地静态逻辑，而是可以通过远端配置影响行为。这类设计只有在产品已经进入大规模运营阶段时才会成为必需。

工程推论是：Anthropic 已经把安全策略当成一个持续运营系统，而不是一次性实现。

八、多 Agent 与协同：Claude Code 在构建“AI 劳动力组织层”

很多产品会宣传“多 agent”，但源码里真正能看出深度的并不多。Claude Code 这一份包，算是证据相当充足的。

内建 Agent 角色是明确存在的

recovered-src/src/tools/AgentTool/builtInAgents.ts 中，可以直接看到内建 Agent 定义来源：

import { CLAUDE_CODE_GUIDE_AGENT } from&nbsp;'./built-in/claudeCodeGuideAgent.js'
import { EXPLORE_AGENT } from&nbsp;'./built-in/exploreAgent.js'
import { GENERAL_PURPOSE_AGENT } from&nbsp;'./built-in/generalPurposeAgent.js'
import { PLAN_AGENT } from&nbsp;'./built-in/planAgent.js'
import { STATUSLINE_SETUP_AGENT } from&nbsp;'./built-in/statuslineSetup.js'
import { VERIFICATION_AGENT } from&nbsp;'./built-in/verificationAgent.js'

组合逻辑也很直白：

const agents: AgentDefinition[] = [
&nbsp; GENERAL_PURPOSE_AGENT,
&nbsp; STATUSLINE_SETUP_AGENT,
]

if&nbsp;(areExplorePlanAgentsEnabled()) {
&nbsp; agents.push(EXPLORE_AGENT, PLAN_AGENT)
}

if&nbsp;(
&nbsp; feature('VERIFICATION_AGENT') &&
&nbsp; getFeatureValue_CACHED_MAY_BE_STALE('tengu_hive_evidence',&nbsp;false)
) {
&nbsp; agents.push(VERIFICATION_AGENT)
}

这说明 Claude Code 不是只有一个“大总管 Agent”，而是已经形成了相对清晰的角色分工：

通用执行
探索
规划
验证
辅助设置

#

“Teammate / Swarm / Team Lead” 不是比喻，而是真实工程对象

#

recovered-src/src/tools/shared/spawnMultiAgent.ts 中，文件开头就写明：

/**
Shared spawn module&nbsp;for&nbsp;teammate creation.
Extracted from TeammateTool to allow reuse by AgentTool.
*/

继续往下，会看到非常重的组织化命名：

import {
&nbsp; SWARM_SESSION_NAME,
&nbsp; TEAM_LEAD_NAME,
&nbsp; TEAMMATE_COMMAND_ENV_VAR,
&nbsp; TMUX_COMMAND,
} from&nbsp;'../../utils/swarm/constants.js'

以及生成结果结构：

export&nbsp;type&nbsp;SpawnOutput = {
&nbsp; teammate_id: string
&nbsp; agent_id: string
&nbsp; agent_type?: string
&nbsp; model?: string
&nbsp; name: string
&nbsp; color?: string
&nbsp; tmux_session_name: string
&nbsp; tmux_window_name: string
&nbsp; tmux_pane_id: string
&nbsp; team_name?: string
&nbsp; is_splitpane?: boolean
&nbsp; plan_mode_required?: boolean
}

这些命名串在一起，足够支持一个强判断：

Claude Code 内部确实有“团队协作式 Agent”抽象
它支持 teammate、team lead、swarm 这类概念
终端编排层甚至考虑了 tmux

这背后真正的工程意义是：Anthropic 已经不满足于让一个模型实例调用工具，而是在构建一个能够拆分劳动力、组织多个执行单元的系统。

这正是 Harness Engineering 进入下一阶段的标志。

图 3：Claude Code 暴露出的不仅是 sub-agent，而是具备 team/swarm 语义的组织层设计

九、会话记忆与长程执行：Claude Code 在做的是状态化 Agent，而不是一次性问答

recovered-src/src/services/SessionMemory/sessionMemory.ts 中，记忆提取逻辑非常清晰：

export&nbsp;function&nbsp;shouldExtractMemory(messages: Message[]): boolean {
&nbsp; const currentTokenCount = tokenCountWithEstimation(messages)
&nbsp;&nbsp;if&nbsp;(!isSessionMemoryInitialized()) {
&nbsp; &nbsp;&nbsp;if&nbsp;(!hasMetInitializationThreshold(currentTokenCount)) {
&nbsp; &nbsp; &nbsp;&nbsp;return&nbsp;false
&nbsp; &nbsp; }
&nbsp; &nbsp; markSessionMemoryInitialized()
&nbsp; }

继续往下：

const shouldExtract =
&nbsp; (hasMetTokenThreshold && hasMetToolCallThreshold) ||
&nbsp; (hasMetTokenThreshold && !hasToolCallsInLastTurn)

它综合考虑了：

token 阈值
工具调用次数
当前回合是否适合做抽取

这说明 Claude Code 对记忆的处理是“何时抽取、何时压缩、何时持久化”的工程问题，而不是“把历史都拼接进去”的简单问题。

本地记忆文件被当成受控资源处理

同文件还可以看到文件创建时的权限设置：

await fs.mkdir(sessionMemoryDir, { mode: 0o700 })
...
await writeFile(memoryPath,&nbsp;'', {
&nbsp; encoding:&nbsp;'utf-8',
&nbsp; mode: 0o600,
&nbsp; flag:&nbsp;'wx',
})

这说明连 session memory 都不是草率写入，而是按受控数据来处理的。这与 Anthropic 文档里对安全、隐私与企业可用性的强调是一致的。

#

十、MCP、插件与生态接入：Claude Code 明显在往 Agent 平台演化

MCP 不是附加功能，而是核心平台接口

recovered-src/src/services/mcp/config.ts 中，可以看到对 MCP 配置的完整管理逻辑。比如企业托管路径：

export&nbsp;function&nbsp;getEnterpriseMcpFilePath(): string {
&nbsp;&nbsp;return&nbsp;join(getManagedFilePath(),&nbsp;'managed-mcp.json')
}

写入 .mcp.json 时，还采用了原子写入逻辑：

const tempPath =&nbsp;${mcpJsonPath}.tmp.${process.pid}.${Date.now()}
const handle = await open(tempPath,&nbsp;'w', existingMode ?? 0o644)
...
await handle.datasync()
...
await rename(tempPath, mcpJsonPath)

这种写法很像成熟基础设施软件，而不像临时功能。

去重逻辑按“底层连接签名”做，而不是按名字做

同文件中还有一个很有代表性的函数：

export&nbsp;function&nbsp;getMcpServerSignature(config: McpServerConfig): string | null {
&nbsp; const cmd = getServerCommandArray(config)
&nbsp;&nbsp;if&nbsp;(cmd) {
&nbsp; &nbsp;&nbsp;return&nbsp;stdio:${jsonStringify(cmd)}
&nbsp; }
&nbsp; const url = getServerUrl(config)
&nbsp;&nbsp;if&nbsp;(url) {
&nbsp; &nbsp;&nbsp;return&nbsp;url:${unwrapCcrProxyUrl(url)}
&nbsp; }
&nbsp;&nbsp;return&nbsp;null
}

这说明 Claude Code 在意的是：

两个名字不同的 server，是否其实指向同一个底层连接
插件配置与手工配置是否实际上重复

这是一种平台级 dedup 思维，不是简单 UI 配置页会有的思路。

工程推论是：Claude Code 正在把自己打造为一个“Agent OS风格”的执行宿主，MCP 和插件是扩展边界。

#

十一、彩蛋与未公开能力：哪些能确认，哪些不能

Buddy / Companion 是最扎实的隐藏功能线索

先看命令入口，在 recovered-src/src/commands.ts：

const buddy = feature('BUDDY')
&nbsp; ? (
&nbsp; &nbsp; &nbsp; require('./commands/buddy/index.js') as typeof import('./commands/buddy/index.js')
&nbsp; &nbsp; ).default
&nbsp; : null

再看全局状态，在 recovered-src/src/state/AppStateStore.ts：

companionReaction?: string
// Timestamp of last /buddy pet — CompanionSprite renders hearts&nbsp;while&nbsp;recent
companionPetAt?: number

再看渲染层，在 recovered-src/src/buddy/CompanionSprite.tsx：

const PET_BURST_MS = 2500; // how long hearts&nbsp;float&nbsp;after /buddy pet

const PET_HEARTS = [ &nbsp;${H}&nbsp; &nbsp;&nbsp;${H}&nbsp; , &nbsp;${H}&nbsp;&nbsp;${H}&nbsp; &nbsp;${H}&nbsp;,&nbsp;${H}&nbsp; &nbsp;${H}&nbsp;&nbsp;${H}&nbsp; ,&nbsp;${H}&nbsp;&nbsp;${H}&nbsp; &nbsp; &nbsp;&nbsp;${H}&nbsp;,&nbsp;'· &nbsp; &nbsp;· &nbsp; · &nbsp;'];
以及：
const petAt = useAppState(s => s.companionPetAt);
...
const petting = petAge * TICK_MS < PET_BURST_MS;

基于这些代码，可以稳妥地下结论：

Claude Code 存在一个受 BUDDY feature gate 控制的 companion/buddy 系统
其中至少包含 /buddy pet 一类交互
该交互会驱动 UI 状态更新，并触发爱心动画反馈

但仍不能进一步断言：

完整玩法是什么
会不会正式公开
它在商业产品中的定位是什么

源码能支持的边界，就到这里。

图 4：基于 Buddy 代码线索单独复现的 pet 功能 demo

Stickers 是一个轻量但真实的品牌彩蛋

recovered-src/src/commands/stickers/stickers.ts 中：

export&nbsp;async&nbsp;function&nbsp;call(): Promise<LocalCommandResult> {
&nbsp; const url =&nbsp;'https://www.stickermule.com/claudecode'
&nbsp; const success = await openBrowser(url)

这说明 Claude Code 的终端体验里，已经开始混入品牌化和轻娱乐化组件。它不是核心能力，但它是产品成熟度的一个信号：团队开始经营用户关系，而不是只经营能力。

“Web 上运行的代码审查”也是值得关注的信号

recovered-src/src/commands/review.ts 中：

const ultrareview: Command = {
&nbsp;&nbsp;type:&nbsp;'local-jsx',
&nbsp; name:&nbsp;'ultrareview',
&nbsp; description: ~10–20 min · Finds and verifies bugs&nbsp;in&nbsp;your branch. Runs&nbsp;in&nbsp;Claude Code on the web. See&nbsp;${CCR_TERMS_URL},
&nbsp; isEnabled: () => isUltrareviewEnabled(),
&nbsp; load: () => import('./review/ultrareviewCommand.js'),
}

这说明至少存在一种“本地入口触发、Web 侧执行或配合执行”的工作流。这进一步支持前文判断：Claude Code 的真实边界并不等于“一个本地 CLI”。

图 5：Buddy、Stickers、Ultrareview 等线索共同说明 Claude Code 内部存在分层开放的产品能力池

十二、Claude Code 的真正启示：第一梯队 AI 公司在造什么

#

把前面的代码事实收束起来，Claude Code 至少给出了一幅非常清晰的行业图景。

领先产品的竞争重心已经从“模型输出”转向“系统执行”

在 Claude Code 这份包里，最重的部分不是聊天，也不是提示词，而是：

工具调用系统
权限模式
沙箱控制
状态管理
子 Agent 与组织协作
记忆与任务持久化
MCP/插件生态
Feature flag 与灰度实验

这说明第一梯队 AI 公司真正建设的是一个“模型执行底座”。

Harness Engineering 正在成为 AI 原生软件的新基础设施层

为什么 Anthropic、OpenAI、Google 都越来越强调 tools、agents、tracing、evals、handoffs？因为单纯“生成文本”已经不够了。

真正能进入生产环境的系统，必须满足：

可控
可观测
可恢复
可扩展
可验证
可运营

Claude Code 的源码恰好把这些要求都映射到了具体模块上。

所谓“AI 软件工程”，本质上越来越像“把模型放进操作系统”

这个说法可能听起来有点重，但从这份包看，它并不夸张。Claude Code 已经在做下面这些事情：

定义工具
控制权限
管理进程与终端
跟踪任务
维护状态
调度子Agent
接入外部系统
用配置系统控制行为

这已经非常接近一个面向 Agent 的应用运行平台。

十三、结论

这次事件最值得复盘的，不是“Claude Code 里面有什么小技巧”，而是顶级 AI 公司到底在怎样做工程。

从源码能得到的核心结论有四点：

Claude Code 的真正核心是工具化执行 runtime，而不是聊天界面

安全边界主要由权限系统、规则匹配、沙箱与模式状态共同实现，而不是靠 prompt 自律

任务规划、验证、子 Agent 协作和记忆提取已经被工程化为系统能力

MCP、插件、远程能力、Buddy 等 feature-gated 模块说明 Claude Code 正在向平台化 Agent 系统演化

因此，如果要用一句话概括 Claude Code 在这份源码里暴露出来的本质，那就是：

Anthropic 做的不是一个“更会写代码的助手”，而是一套让模型可以在真实世界里受控执行的 Harness Engineering 系统。

参考资料

A. 官方博客 / 官方文档

【1】：AI正在“接管”软件工程，但系统正在慢慢失控：http://mp.weixin.qq.com/s/OHlQE3FerJRnHJ2KNjEGEw

【2】：https://docs.anthropic.com/en/docs/claude-code/

【3】：https://platform.claude.com/docs/en/agents-and-tools/tool-use/overview

【4】：https://platform.openai.com/docs/docs-mcp

【5】：https://cloud.google.com/blog/topics/developers-practitioners/a-methodical-approach-to-agent-evaluation

【6】：https://mitchellh.com/writing/my-ai-adoption-journey

【7】：工程技术：在智能体优先的世界中利用 Codex：https://openai.com/zh-Hans-CN/index/harness-engineering/

B. 外部讨论线索

【1】：YukerX, X/Twitter: https://x.com/yukerx/status/2038959908968919297

【2】：agintender, X/Twitter: https://x.com/agintender/status/2038921508999901274

#

C. 本地源码证据

【1】：package/package.json

【2】：package/cli.js.map

【3】：tools.ts

【4】：commands.ts

【5】：plan.tsx

【6】：TodoWriteTool.ts

【7】：permissionSetup.ts

【8】：shouldUseSandbox.ts

【9】：builtInAgents.ts

【10】：spawnMultiAgent.ts

【11】：sessionMemory.ts

【12】：config.ts

【13】：AppStateStore.ts

【14】：CompanionSprite.tsx

【15】：stickers.ts

【16】：review.ts

撰稿：菠萝吹雪

编辑：空格

审核：Joy

关于我们

玉衡实验室是华清未央旗下开展前瞻科技研发的实验室，我们秉持“独到、精准、深刻”的内容理念，致力于为决策者、创新者和思想者提供具有穿透力的观点与洞见，在众声喧哗中辨别真正价值。

玉衡实验室

关注我们，一同探索AI乐趣~

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：山海之关玉衡实验室玉衡实验室《万字长文丨Claude Code 源码泄漏技术复盘：第一梯队 AI 公司如何打造 Harness Engineering》