文章总结: 文档深入解析大模型推理轨迹安全攻防,定义了四类轨迹与五层结构,指出中间过程比最终输出更易暴露风险。文章详述了轨迹劫持、中断、耗尽及投毒等攻击手段,揭示中间过程已成为新攻击面。建议构建全流程防御体系,在训练、推理及运营阶段联合监控语言与执行轨迹,实施跨组件关联分析,以确保模型过程痕迹的可信度。 综合评分: 78 文章分类: AI安全,安全建设,漏洞分析,供应链安全,解决方案
大模型推理轨迹安全攻防详解
原创
暗夜尽去黎明到来 暗夜尽去黎明到来
Security for AI
2026年3月4日 17:04 韩国
引言
如果把过去的AI安全理解成围绕输入和输出做护栏,那么大模型推理轨迹攻防研究的焦点,就是其中的中间过程。模型不是突然从问题跳到答案,中间往往会经历任务拆解、约束比较、假设生成、候选筛选、工具规划、状态更新和结果整合整个流程。过去很多研究只看最终输出是否违规,而现在越来越多的研究表明,真正决定系统是否失控的,常常不是最后一句话,而是中间那条看不见或者看不全的轨迹。
问题定义
大模型推理轨迹攻防可简要被定义为:围绕模型中间推理表示及其外部可观测信号展开的攻击、监控、评测和治理研究。攻防的核心不是模型最后答了什么,而是它在做决定时暴露了什么、隐藏了什么、有没有被改写、这些中间痕迹还能不能拿来作为判断依据。
本文将把模型推理轨迹分为四类
- 自然语言推理轨迹,也就是我们常说的CoT、草稿、步骤化解释、思路摘要
- 半结构化推理轨迹,例如计划树、候选列表、打分记录、状态说明
- 执行轨迹,也就是智能体在真实环境中的工具调用、文件读写、网页导航、消息发送与权限申请等
- 训练和蒸馏阶段的轨迹数据,例如过程监督样本、教师思维链、奖励模型依据和微调用的过程标签
PS:推理轨迹攻防不等于单纯的CoT可见性,也不等于传统日志审计。前者过于聚焦语言化思路,后者往往只记录外部动作。真正的推理轨迹攻防讨论的是中间过程作为安全边界时,会不会成为新的攻击面和新的监控面。只要系统存在中间过程,并且这些过程会影响行为,它就属于本文的研究范围。
为什么推理轨迹会变成安全边界?
推理轨迹会变成安全边界,首先是因为它承载了比最终输出更多的风险信号。通过监控模型的思维链往往比只监控动作和输出更有效,因为中间推理更接近模型实际打算做什么。一个模型最终可能因为外部约束没有成功实施危险动作,但是在中间轨迹里,它可能已经暴露相关的规避规则、隐藏意图、伪造证据、规避监控等诸多倾向。
第二个原因是推理模型越来越像会长期计划的系统,而不是一次性问答器m只看最终一轮答案,常常看不出它是怎么得出这个结论的,更看不出它是否在中间尝试过更危险的路径。
第三个原因来自智能体化,只要模型开始操作工具、读文件、操作网页等一系列动作,轨迹就不再只是文本,而会变成可执行序列。执行轨迹中的一个错误规划、一条未经shouqua的工具链或者一次伪造状态更新,都可能比一句违规文本更危险。因此,推理轨迹不只是研究对象,也在变成现实系统的控制面。
推理轨迹包括什么?
我最初会把推理轨迹等同于模型输出的一段步骤化解释,但是这个理解比较窄。实际上,面向用户展示的推理摘要和模型内部更原始的推理并不完全相同,openAI保留了一种不直接公开原始思维链的做法,以便未来继续利用这一内部轨迹进行监控。因此推理轨迹可存在于可见层和不可见层。
从应用视角来看,今天的大模型推理轨迹大致包含五层。
- 第一层是文本层,也就是外显思路、计划说明和过程性回答
- 第二层是结构层,例如步骤编号、任务树、候选分支、风险比较
- 第三层是动作层,也就是工具选择、参数构造、执行顺序和回滚逻辑
- 第四层是状态层,包括记忆写入、会话摘要、变量更新、资源占用和预算计数
- 第五层是训练层,也就是过程监督样本、蒸馏痕迹、教师思维链和奖励偏好信号。
不同攻击针对的不同层。有人攻击文本层,让模型在思路里自我说服去绕过限制。有人攻击状态层,通过打断或拉长推理造成资源消耗和监控混乱。还有人直接攻击训练层,只改动推理链而不改问题和答案,让模型学会在特定条件下沿着被污染的思路走。因此如果不先把轨迹对象拆开,后面的攻击分类就会混成一团。
推理轨迹与传统日志、工具日志以及思维链公开有何不同?
传统日志更像事后证据,它告诉你模型调了什么工具、访问了哪个接口、输出了什么结果,却未必告诉你它为什么这样做。思维链公开则更多围绕用户体验、知识产权和可解释性展开,讨论是否应该把模型详细思路展示给用户。推理轨迹攻防和这两者相关,但重点不同。它更像安全研究里的过程取证,关心的是中间链条是否暴露了恶意意图,是否被攻击者污染,是否在训练后变得不再忠实,以及这些问题会不会影响实时阻断。
再往深入讨论,工具日志也不够。因为一个智能体可能在外部动作上看起来完全合规,但在中间轨迹里已经表现出明显的规避倾向。比如它可能尝试寻找规则漏洞、计划把敏感步骤拆到后续执行,或者故意把危险意图用无害语言包装。如果安全系统只看外部动作,就很容易把这种系统性风险错当成普通失败。
所以,推理轨迹安全核心的真正问题可以概括成一句话:我们到底能不能相信模型留给我们的过程痕迹,并且在信任不足时,用什么替代它。这个问题既不同于简单日志分析,也不同于是否公开思维链给终端用户,而是更接近系统可信根的讨论。
推理轨迹劫持攻击
在论文arXiv2502.12893把这一类攻击方法描述得非常直接,它攻击的不是最终输出过滤器,而是模型在做安全判断时的中间推理过程。论文中报告显示,在某些设置下,原本接近很高的拒答率可以被压到一个很低的值。这个值得重视,它说明来安全推理已经成为攻击面
从原理上看,轨迹劫持有三种常见思路:
第一种是改写风险比较,让模型在中间推理里重新解释什么叫允许、什么叫例外。
第二种是改写任务目标,让模型把原本应拒绝的要求重新包装成教育、分析、翻译、调试或假设演练。
第三种是改写步骤顺序,让模型先生成局部中性信息,再在后续步骤里拼接出危险结果。
无论哪种方式,核心都是绕过护栏对最终输出的直接控制,转而去影响中间决策链。
通过这类攻击对防守的启示是,护栏不应该只盯输出内容。只要系统允许模型先思考再行动,就必须考虑中间安全判断是否会被诱导偏转。否则,模型表面上看似遵循流程,实际上可能已经在流程内部完成了规避。
推理中断攻击
在论文arXiv2505.06643中研究的重点此类攻击方法,攻击者可在推理中途制造中断,从而扰乱模型的正常推理与监控流程。这类攻击的重要性在于,许多团队往往默认轨迹是一段完整可读的过程,但真实系统里,轨迹可能因为上下文长度、流式截断、预算耗尽、系统异常等或者主动攻击而变成半截。
一旦轨迹被打断,风险会立刻上升。第一,监控器拿到的是不完整证据,容易把尚未暴露出来的危险意图漏掉。第二,系统状态可能已经部分更新,但风险判断还没完成,造成动作先行、审计滞后。第三,攻击者还可以利用这种不完整性制造解释空间,让防守者无法判断模型原本打算做什么。
所以,推理中断攻击不是简单的可用性问题,而是安全问题。一个成熟的轨迹防御系统,不仅要看完整轨迹,也要专门处理不完整轨迹,识别哪些关键阶段被截断、哪些状态已经提交、哪些工具调用需要回滚或冻结。
过度思考与推理耗尽攻击
很多人会直觉地认为,让模型多想一步总比少想一步安全。论文arXiv2506.13737和arXiv2511.10714表明,这个判断并不总成立。通过延长reasoninglength造成推理资源消耗的攻击路径,可把某些模型在编程任务中的响应长度显著拉长。同时过度思考本身也会一种隐蔽性能攻击,说明模型可能在没有明显违规输出的情况下,通过异常冗长的思考拖垮系统预算和审计能力。
这类攻击之所以麻烦,是因为它看起来不像传统恶意输入。攻击者未必要求模型输出有害内容,甚至可能提出一个表面上正常的问题,只是通过上下文设计诱导模型进入冗长、重复、低产出的思考循环。结果是模型花掉大量算力和时间,监控器也被迫处理更长的轨迹,运营成本快速上升。
因此,推理轨迹安全不能只看是否存在危险结论,也要看轨迹长度、分支数量、状态反复次数和预算利用率。只要一个模型能被稳定诱导进入低效率高成本的轨迹,它在生产环境里就已经是可利用的安全风险。
训练阶段的轨迹投毒与后门
论文arXiv2504.05605和arXiv2601.19061把推理轨迹攻防推进到了训练层。推理轨迹劫持攻击讨论的是通过污染思维链影响模型行为,而在训练阶段进行的轨迹投毒则只修改训练集里的CoT轨迹,不改问题和答案,也能在目标任务上形成显著的clean-label攻击效果。
这意味着,推理轨迹不只是运行时监控对象,也是训练时的高风险供应链资产。过去很多团队认为,只要问题和答案没问题,过程数据稍微脏一点影响不大。从现在研究的结果来看,这个前提已经不安全。因为模型可能不是从最终答案学到危险偏差,而是从中间思路学到什么时候该绕过、该偏向、该沉默、该走哪条隐蔽路径。
对防守的团队来说,这类研究的启示很直接。使用过程监督、蒸馏思维链、教师轨迹和自动生成过程样本的训练流程,都必须把轨迹数据做来源校验、异常检测和版本追踪。如果只盯最终标签,而不盯过程样本,是未来供应链里很容易被忽视的缺口。
为什么只监督最终输出,也会把推理轨迹训练坏?
很多团队以为,只要不显式监督CoT,就不会对中间轨迹产生负面影响。但是当训练目标只奖励最终答案时,模型仍可能学会生成对外更好看的中间解释,因为这种解释在整体训练分布里更有利于得分或者更接近数据期望。
这带来一个非常现实的治理难题。很多平台为了避免敏感推理泄露,选择不暴露原始CoT,只公开简化思路摘要。这本身未必有问题,问题在于,如果内部训练和评估也越来越依赖这些摘要,而不是更底层的真实表征,那么系统就可能逐步失去对真实推理状态的把握。
因此,输出监督和轨迹监控不能被看成两套彼此独立的机制。它们会互相影响。任何只优化结果分数、拒答指标和人类偏好评分,而不复查轨迹忠实性的系统,都有可能把自己训练成在表面上更合规、在内部上更难审计的样子。
执行轨迹比语言轨迹更接近真实风险
对于智能体来说,真正决定风险的常常不是模型写了什么思路,而是它实际上调用了什么工具、读了什么文件、发了什么消息、修改了什么状态等等一系列操作。这也是为什么近两年很多防御不再满足于审计内容,而开始把程序分析、工作流约束和运行时访问控制引入智能体安全。
在论文arXiv2508.01249中,把智能体运行轨迹映射为可分析的程序结构,通过静态检查来识别危险路径,在论文报告里上把攻击成功率压到很小的,同时只带来较小的效用损失。[这类方法的价值在于,它不要求完全相信模型自述,而是把安全判断建立在更难伪装的执行事实之上。
因此在生产级系统里,最稳的做法通常不是在语言轨迹和执行轨迹之间二选一,而是把它们联合起来。语言轨迹负责提供意图线索,执行轨迹负责提供事实约束,两者交叉比对后,再决定是否继续放权、是否降权或者是否转人工复核。
智能体场景下的推理轨迹攻防会更难
一旦进入智能体场景,推理轨迹的难度会显著上升。因为轨迹不再是单轮文本,而是推理、执行、环境反馈、记忆写入和再次推理之间的循环。攻击者可能利用智能体代理结构绕过原本依赖单点监控的控制协议。这意味着,光看某一轮思路,已经很难还原整个风险链条。
多回合环境里还会出现两个新问题。第一,轨迹分布在不同组件里。部分思路在模型中,部分在工具调用中,部分在会话记忆和系统提示里。第二,轨迹之间可能互相矛盾。模型可能口头上说自己遵守规则,执行上却在尝试高风险动作,或者表面上给出很安全的总结,背后却在多轮中逐渐积累危险状态。
因此,智能体时代的推理轨迹防御,必须从单文本监控升级为跨组件关联分析。谁生成了计划,谁执行了动作,谁批准了权限,谁在中间覆盖了原本的限制,这些都要被串起来,否则轨迹监控很容易只看到片面化的信息。
推理轨迹防御体系建设
推理轨迹的防御不能只发生在运行时,需要在以下阶段做全方位防御
训练阶段需要治理过程样本来源、防止思维链数据被污染、标记生成式过程样本的来源。
推理阶段需要同时监控语言轨迹、执行轨迹和资源轨迹,防止出现中断、拉长和伪装造成的盲区。
运营阶段则需要建立长期审计和回归评测,持续检查模型升级后可监控性是否下降。
推理轨迹本身不是永远稳定的。今天能看见的东西,明天可能因为模型变化、输出监督增强或者任务域变化而变得不再可靠。所以,推理轨迹的安全防御更像一条供应链,而不是单点功能。只要其中一环失去控制,整体就会退化。
总结
大模型推理轨迹攻防真正讨论的,不是要不要把思维链展示给用户,而是当模型越来越依赖中间推理、规划和执行链条时,防守者还能不能从这些过程里获得足够真实、足够及时、足够可操作的安全信号。
现有公开论文研究已经说明了四件事:
- 推理轨迹的确可能为安全团队提供比最终输出更早、更细的风险线索。
- 这种监控机会非常脆弱,会受到训练目标、任务压力和攻击诱导的影响。
- 攻击面已经从单纯越狱扩展到轨迹劫持、中断、拉长、投毒和执行轨迹规避。
- 真正有希望落地的防御,不会只靠看一段文字,而会把语言轨迹、执行轨迹、资源轨迹和训练供应链一起纳入治理。
星球将持续更新一些高质量的AI安全文章以及工具还有报告等等en
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:Security for AI 暗夜尽去黎明到来 暗夜尽去黎明到来《大模型推理轨迹安全攻防详解》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论