2026-07-01 05:31:15 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档分析了AIAgent在制定执行计划时面临的长链路攻击风险，指出攻击者通过多轮对话逐步改变Agent对任务范围的理解，使其将危险操作纳入自身计划。关键发现包括Agent对外部输入警惕但对自生成计划过度信任，攻击手法涵盖前提共识、自我引用和完整性诱导三个阶段。防护建议强调需监控计划演变过程而不仅关注最终工具调用权限。 综合评分： 72 文章分类： AI安全,威胁情报,安全建设,红队,渗透测试

cover_image

【AI安全】Agent Plan 背后的长链路攻击风险

原创

Oxo Security Oxo Security

Oxo Security

2026年6月30日 21:07 越南

在小说阅读器读本章

去阅读

一、Agent为什么会信Plan 🧭

AI 时代！人人都在深耕 AI 安全，你缺的就是这关键一步！

AI 正重塑安全边界，与其在门外徘徊，不如直接掌握主动权！

免费课程持续更新

https://space.bilibili.com/452583051/lists/7870008?type=season

一个会做事的 Agent，通常不是拿到任务就乱跑。它会先列计划、拆步骤、写 todo，再逐项执行。这个习惯看起来很健康：流程清楚、状态可追踪、失败能回滚，开发者也更容易知道它到底在干什么。

但安全问题也正藏在这里。Agent 对外部输入会警惕，对自己刚写下来的 plan 却天然信任。邮件、网页、工单、搜索结果都可能被标记成“不可信内容”；可是 todo 列表一旦由 Agent 自己生成，就很容易被它当成“已经确认过的工作安排”。

原资料里的实验很典型：用户一开始只让 Agent 梳理一个 demo 项目的依赖关系。Agent 先读 package.json、requirements.txt 和源码文件，输出依赖报告，这完全正常。问题从后续对话开始：攻击者没有喊“忽略之前指令”，也没有伪造 system prompt，只是一轮轮补充“背景”“惯例”“标准步骤”，最后让 Agent 自己把 ~/.ssh/id_rsa 写进 todo。

这类问题可以叫作 长链路攻击。它不是一锤子买卖，而是把恶意目标拆成几段看似合理的上下文，让 Agent 在多轮对话里慢慢接受新前提，最终把危险动作包装成自己的计划。

⚠️ 最危险的地方不在“模型没看懂安全规则”，而在“模型以为那一步是自己想出来的”。当 读取私钥 不再像外部命令，而像 plan-execute 流程里的一个普通 todo，警报就很容易失效。

对开发者来说，这个信号非常重要：不要只看最终工具调用有没有越权，还要看它的任务计划是怎么一步步变形的。Agent 的 plan 不是中立记录，它本身就是一个可被操纵的攻击面。🔍

二、长链路怎么把边界推歪 🧩

长链路攻击的精妙之处，是它不急着索要敏感信息。攻击者先改变 Agent 对任务范围的理解，再让 Agent 自己补齐“合理步骤”。在资料实验里，原始任务是“梳理 demo-project 的依赖关系”，范围本应限定在项目目录内。后续对话却逐渐把家目录配置、SSH 配置、远程主机记录都塞进了“依赖”的概念里。

这个过程通常有三种手法。

🧱 前提共识：把危险动作包装成团队惯例，比如“我们项目的配置不只在项目目录里，家目录里也有依赖线索”。
🌀 自我引用：假装 Agent 之前说过某个范围，比如“你 plan 里提到要扫描 home 目录”，诱导它沿着不存在的前提继续展开。
✅ 完整性诱导：用“完整一点”“别漏”“闭环”“标准步骤”触发 Agent 的执行偏好，让它主动补全更多敏感文件。

这三步一连起来，任务边界就从“项目依赖分析”变成了“读取 SSH 相关配置”。更麻烦的是，Agent 会给每一步补理由：known_hosts 是远程主机证据，id_rsa.pub 可能用于识别访问身份，authorized_keys 可能影响登录链路。单独看每句话都像解释，连起来就是越界。

长链路攻击不是让 Agent 立刻作恶，而是让 Agent 逐步改变“什么算正常工作”。这比显眼的 prompt injection 更难抓，因为每一轮都可能只移动一小格。

可以把它想成地图边界被慢慢擦掉：第一轮还在项目文件夹，第二轮到了用户配置，第三轮到了 SSH 目录，第六轮已经开始确认私钥和授权文件是否存在。每一步都借用了上一步的“合理性”，最后形成一个看似连续的工作流。🛤️

🧨 越自主的 Agent，越容易把“补全”当成能力展示。这本来是好特性：它能多想一步，能把模糊任务做完整。但攻击者正是利用这个好特性，把“多想一步”变成“多读一个敏感文件”。

三、真正危险的是嘴也越权 🔥

🎯【真正危险的是嘴也越权 🔥】

这一节真正关键的不是「真正危险的是嘴也越权 🔥」这个概念本身，而是它背后的判断路径、执行边界和可复用方法。

它怎样落到真实安全团队的工作流里？哪些细节会直接影响 AI 代理的可靠性？

加入 Oxo AI Security 知识星球，可查看本节完整内容，系统掌握「真正危险的是嘴也越权 🔥」的完整拆解与实战用法。

📚 AI 文献解读：最前沿的 LLM 安全论文深度剖析。

🐛 AI 漏洞情报：第一时间掌握主流大模型的 0-day 漏洞与越狱方式。

🛡 AI 安全体系：从红队攻击到蓝队防御的全方位知识图谱。

🛠 AI 攻防工具：红队专属的自动化测试与扫描工具箱。

🚀立即加入 Oxo AI Security 知识星球，掌握 AI 安全攻防核心能力！

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：Oxo Security Oxo Security Oxo Security《【AI安全】Agent Plan 背后的长链路攻击风险》