2026-03-05 20:21:33 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 文档深入解析大模型推理轨迹安全攻防，定义了四类轨迹与五层结构，指出中间过程比最终输出更易暴露风险。文章详述了轨迹劫持、中断、耗尽及投毒等攻击手段，揭示中间过程已成为新攻击面。建议构建全流程防御体系，在训练、推理及运营阶段联合监控语言与执行轨迹，实施跨组件关联分析，以确保模型过程痕迹的可信度。 综合评分： 78 文章分类： AI安全,安全建设,漏洞分析,供应链安全,解决方案

cover_image

大模型推理轨迹安全攻防详解

原创

暗夜尽去黎明到来暗夜尽去黎明到来

Security for AI

2026年3月4日 17:04 韩国

引言

如果把过去的AI安全理解成围绕输入和输出做护栏，那么大模型推理轨迹攻防研究的焦点，就是其中的中间过程。模型不是突然从问题跳到答案，中间往往会经历任务拆解、约束比较、假设生成、候选筛选、工具规划、状态更新和结果整合整个流程。过去很多研究只看最终输出是否违规，而现在越来越多的研究表明，真正决定系统是否失控的，常常不是最后一句话，而是中间那条看不见或者看不全的轨迹。

问题定义

大模型推理轨迹攻防可简要被定义为：围绕模型中间推理表示及其外部可观测信号展开的攻击、监控、评测和治理研究。攻防的核心不是模型最后答了什么，而是它在做决定时暴露了什么、隐藏了什么、有没有被改写、这些中间痕迹还能不能拿来作为判断依据。

本文将把模型推理轨迹分为四类

自然语言推理轨迹，也就是我们常说的CoT、草稿、步骤化解释、思路摘要
半结构化推理轨迹，例如计划树、候选列表、打分记录、状态说明
执行轨迹，也就是智能体在真实环境中的工具调用、文件读写、网页导航、消息发送与权限申请等
训练和蒸馏阶段的轨迹数据，例如过程监督样本、教师思维链、奖励模型依据和微调用的过程标签

PS：推理轨迹攻防不等于单纯的CoT可见性，也不等于传统日志审计。前者过于聚焦语言化思路，后者往往只记录外部动作。真正的推理轨迹攻防讨论的是中间过程作为安全边界时，会不会成为新的攻击面和新的监控面。只要系统存在中间过程，并且这些过程会影响行为，它就属于本文的研究范围。

为什么推理轨迹会变成安全边界？

推理轨迹会变成安全边界，首先是因为它承载了比最终输出更多的风险信号。通过监控模型的思维链往往比只监控动作和输出更有效，因为中间推理更接近模型实际打算做什么。一个模型最终可能因为外部约束没有成功实施危险动作，但是在中间轨迹里，它可能已经暴露相关的规避规则、隐藏意图、伪造证据、规避监控等诸多倾向。

第二个原因是推理模型越来越像会长期计划的系统，而不是一次性问答器m只看最终一轮答案，常常看不出它是怎么得出这个结论的，更看不出它是否在中间尝试过更危险的路径。

第三个原因来自智能体化，只要模型开始操作工具、读文件、操作网页等一系列动作，轨迹就不再只是文本，而会变成可执行序列。执行轨迹中的一个错误规划、一条未经shouqua的工具链或者一次伪造状态更新，都可能比一句违规文本更危险。因此，推理轨迹不只是研究对象，也在变成现实系统的控制面。

推理轨迹包括什么?

我最初会把推理轨迹等同于模型输出的一段步骤化解释，但是这个理解比较窄。实际上，面向用户展示的推理摘要和模型内部更原始的推理并不完全相同，openAI保留了一种不直接公开原始思维链的做法，以便未来继续利用这一内部轨迹进行监控。因此推理轨迹可存在于可见层和不可见层。

从应用视角来看，今天的大模型推理轨迹大致包含五层。

第一层是文本层，也就是外显思路、计划说明和过程性回答
第二层是结构层，例如步骤编号、任务树、候选分支、风险比较
第三层是动作层，也就是工具选择、参数构造、执行顺序和回滚逻辑
第四层是状态层，包括记忆写入、会话摘要、变量更新、资源占用和预算计数
第五层是训练层，也就是过程监督样本、蒸馏痕迹、教师思维链和奖励偏好信号。

不同攻击针对的不同层。有人攻击文本层，让模型在思路里自我说服去绕过限制。有人攻击状态层，通过打断或拉长推理造成资源消耗和监控混乱。还有人直接攻击训练层，只改动推理链而不改问题和答案，让模型学会在特定条件下沿着被污染的思路走。因此如果不先把轨迹对象拆开，后面的攻击分类就会混成一团。

推理轨迹与传统日志、工具日志以及思维链公开有何不同？

传统日志更像事后证据，它告诉你模型调了什么工具、访问了哪个接口、输出了什么结果，却未必告诉你它为什么这样做。思维链公开则更多围绕用户体验、知识产权和可解释性展开，讨论是否应该把模型详细思路展示给用户。推理轨迹攻防和这两者相关，但重点不同。它更像安全研究里的过程取证，关心的是中间链条是否暴露了恶意意图，是否被攻击者污染，是否在训练后变得不再忠实，以及这些问题会不会影响实时阻断。

再往深入讨论，工具日志也不够。因为一个智能体可能在外部动作上看起来完全合规，但在中间轨迹里已经表现出明显的规避倾向。比如它可能尝试寻找规则漏洞、计划把敏感步骤拆到后续执行，或者故意把危险意图用无害语言包装。如果安全系统只看外部动作，就很容易把这种系统性风险错当成普通失败。

所以，推理轨迹安全核心的真正问题可以概括成一句话：我们到底能不能相信模型留给我们的过程痕迹，并且在信任不足时，用什么替代它。这个问题既不同于简单日志分析，也不同于是否公开思维链给终端用户，而是更接近系统可信根的讨论。

推理轨迹劫持攻击

在论文arXiv2502.12893把这一类攻击方法描述得非常直接，它攻击的不是最终输出过滤器，而是模型在做安全判断时的中间推理过程。论文中报告显示，在某些设置下，原本接近很高的拒答率可以被压到一个很低的值。这个值得重视，它说明来安全推理已经成为攻击面

从原理上看，轨迹劫持有三种常见思路：

第一种是改写风险比较，让模型在中间推理里重新解释什么叫允许、什么叫例外。

第二种是改写任务目标，让模型把原本应拒绝的要求重新包装成教育、分析、翻译、调试或假设演练。

第三种是改写步骤顺序，让模型先生成局部中性信息，再在后续步骤里拼接出危险结果。

无论哪种方式，核心都是绕过护栏对最终输出的直接控制，转而去影响中间决策链。

通过这类攻击对防守的启示是，护栏不应该只盯输出内容。只要系统允许模型先思考再行动，就必须考虑中间安全判断是否会被诱导偏转。否则，模型表面上看似遵循流程，实际上可能已经在流程内部完成了规避。

推理中断攻击

在论文arXiv2505.06643中研究的重点此类攻击方法，攻击者可在推理中途制造中断，从而扰乱模型的正常推理与监控流程。这类攻击的重要性在于，许多团队往往默认轨迹是一段完整可读的过程，但真实系统里，轨迹可能因为上下文长度、流式截断、预算耗尽、系统异常等或者主动攻击而变成半截。

一旦轨迹被打断，风险会立刻上升。第一，监控器拿到的是不完整证据，容易把尚未暴露出来的危险意图漏掉。第二，系统状态可能已经部分更新，但风险判断还没完成，造成动作先行、审计滞后。第三，攻击者还可以利用这种不完整性制造解释空间，让防守者无法判断模型原本打算做什么。

所以，推理中断攻击不是简单的可用性问题，而是安全问题。一个成熟的轨迹防御系统，不仅要看完整轨迹，也要专门处理不完整轨迹，识别哪些关键阶段被截断、哪些状态已经提交、哪些工具调用需要回滚或冻结。

过度思考与推理耗尽攻击

很多人会直觉地认为，让模型多想一步总比少想一步安全。论文arXiv2506.13737和arXiv2511.10714表明，这个判断并不总成立。通过延长reasoninglength造成推理资源消耗的攻击路径，可把某些模型在编程任务中的响应长度显著拉长。同时过度思考本身也会一种隐蔽性能攻击，说明模型可能在没有明显违规输出的情况下，通过异常冗长的思考拖垮系统预算和审计能力。

这类攻击之所以麻烦，是因为它看起来不像传统恶意输入。攻击者未必要求模型输出有害内容，甚至可能提出一个表面上正常的问题，只是通过上下文设计诱导模型进入冗长、重复、低产出的思考循环。结果是模型花掉大量算力和时间，监控器也被迫处理更长的轨迹，运营成本快速上升。

因此，推理轨迹安全不能只看是否存在危险结论，也要看轨迹长度、分支数量、状态反复次数和预算利用率。只要一个模型能被稳定诱导进入低效率高成本的轨迹，它在生产环境里就已经是可利用的安全风险。

训练阶段的轨迹投毒与后门

论文arXiv2504.05605和arXiv2601.19061把推理轨迹攻防推进到了训练层。推理轨迹劫持攻击讨论的是通过污染思维链影响模型行为，而在训练阶段进行的轨迹投毒则只修改训练集里的CoT轨迹，不改问题和答案，也能在目标任务上形成显著的clean-label攻击效果。

这意味着，推理轨迹不只是运行时监控对象，也是训练时的高风险供应链资产。过去很多团队认为，只要问题和答案没问题，过程数据稍微脏一点影响不大。从现在研究的结果来看，这个前提已经不安全。因为模型可能不是从最终答案学到危险偏差，而是从中间思路学到什么时候该绕过、该偏向、该沉默、该走哪条隐蔽路径。

对防守的团队来说，这类研究的启示很直接。使用过程监督、蒸馏思维链、教师轨迹和自动生成过程样本的训练流程，都必须把轨迹数据做来源校验、异常检测和版本追踪。如果只盯最终标签，而不盯过程样本，是未来供应链里很容易被忽视的缺口。

为什么只监督最终输出，也会把推理轨迹训练坏？

很多团队以为，只要不显式监督CoT，就不会对中间轨迹产生负面影响。但是当训练目标只奖励最终答案时，模型仍可能学会生成对外更好看的中间解释，因为这种解释在整体训练分布里更有利于得分或者更接近数据期望。

这带来一个非常现实的治理难题。很多平台为了避免敏感推理泄露，选择不暴露原始CoT，只公开简化思路摘要。这本身未必有问题，问题在于，如果内部训练和评估也越来越依赖这些摘要，而不是更底层的真实表征，那么系统就可能逐步失去对真实推理状态的把握。

因此，输出监督和轨迹监控不能被看成两套彼此独立的机制。它们会互相影响。任何只优化结果分数、拒答指标和人类偏好评分，而不复查轨迹忠实性的系统，都有可能把自己训练成在表面上更合规、在内部上更难审计的样子。

执行轨迹比语言轨迹更接近真实风险

对于智能体来说，真正决定风险的常常不是模型写了什么思路，而是它实际上调用了什么工具、读了什么文件、发了什么消息、修改了什么状态等等一系列操作。这也是为什么近两年很多防御不再满足于审计内容，而开始把程序分析、工作流约束和运行时访问控制引入智能体安全。

在论文arXiv2508.01249中，把智能体运行轨迹映射为可分析的程序结构，通过静态检查来识别危险路径，在论文报告里上把攻击成功率压到很小的，同时只带来较小的效用损失。[这类方法的价值在于，它不要求完全相信模型自述，而是把安全判断建立在更难伪装的执行事实之上。

因此在生产级系统里，最稳的做法通常不是在语言轨迹和执行轨迹之间二选一，而是把它们联合起来。语言轨迹负责提供意图线索，执行轨迹负责提供事实约束，两者交叉比对后，再决定是否继续放权、是否降权或者是否转人工复核。

智能体场景下的推理轨迹攻防会更难

一旦进入智能体场景，推理轨迹的难度会显著上升。因为轨迹不再是单轮文本，而是推理、执行、环境反馈、记忆写入和再次推理之间的循环。攻击者可能利用智能体代理结构绕过原本依赖单点监控的控制协议。这意味着，光看某一轮思路，已经很难还原整个风险链条。

多回合环境里还会出现两个新问题。第一，轨迹分布在不同组件里。部分思路在模型中，部分在工具调用中，部分在会话记忆和系统提示里。第二，轨迹之间可能互相矛盾。模型可能口头上说自己遵守规则，执行上却在尝试高风险动作，或者表面上给出很安全的总结，背后却在多轮中逐渐积累危险状态。

因此，智能体时代的推理轨迹防御，必须从单文本监控升级为跨组件关联分析。谁生成了计划，谁执行了动作，谁批准了权限，谁在中间覆盖了原本的限制，这些都要被串起来，否则轨迹监控很容易只看到片面化的信息。

推理轨迹防御体系建设

推理轨迹的防御不能只发生在运行时，需要在以下阶段做全方位防御

训练阶段需要治理过程样本来源、防止思维链数据被污染、标记生成式过程样本的来源。

推理阶段需要同时监控语言轨迹、执行轨迹和资源轨迹，防止出现中断、拉长和伪装造成的盲区。

运营阶段则需要建立长期审计和回归评测，持续检查模型升级后可监控性是否下降。

推理轨迹本身不是永远稳定的。今天能看见的东西，明天可能因为模型变化、输出监督增强或者任务域变化而变得不再可靠。所以，推理轨迹的安全防御更像一条供应链，而不是单点功能。只要其中一环失去控制，整体就会退化。

总结

大模型推理轨迹攻防真正讨论的，不是要不要把思维链展示给用户，而是当模型越来越依赖中间推理、规划和执行链条时，防守者还能不能从这些过程里获得足够真实、足够及时、足够可操作的安全信号。

现有公开论文研究已经说明了四件事：

推理轨迹的确可能为安全团队提供比最终输出更早、更细的风险线索。
这种监控机会非常脆弱，会受到训练目标、任务压力和攻击诱导的影响。
攻击面已经从单纯越狱扩展到轨迹劫持、中断、拉长、投毒和执行轨迹规避。
真正有希望落地的防御，不会只靠看一段文字，而会把语言轨迹、执行轨迹、资源轨迹和训练供应链一起纳入治理。

星球将持续更新一些高质量的AI安全文章以及工具还有报告等等en

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Security for AI 暗夜尽去黎明到来暗夜尽去黎明到来《大模型推理轨迹安全攻防详解》