2026-07-03 05:47:55 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： AdversaAI发布的Guardfall漏洞报告指出，11款主流开源AI智能体中有10款存在结构性安全缺陷，攻击者可绕过命令过滤机制执行shell指令。漏洞根源在于过滤程序仅校验命令原始文本，而bash会解析命令实际语义，导致二者不一致。报告归纳了五类攻击方式，并指出唯一不受影响的Continue采用多层校验机制。报告建议采用受限隔离shell作为短期缓解方案，并推动分词标准化校验器成为行业通用标准以实现长期防护。 综合评分： 88 文章分类： AI安全,漏洞分析,解决方案

cover_image

GuardFall 漏洞波及 11 款主流开源 AI 智能体中的 10 款

鹏鹏同学鹏鹏同学

黑猫安全

2026年7月2日 09:07 湖北

在小说阅读器读本章

去阅读

Adversa AI 近期发布一份题为《GuardFall：开源 AI 智能体通用 Shell 注入漏洞》的调研，测评了 11 款用于代码编写、计算机自动化操作的开源 AI 智能体，核心结论令人堪忧：其中 10 款均存在结构性安全缺陷，攻击者可绕过命令过滤机制直接执行 Shell 指令；唯一不受该漏洞影响的产品是 Continue。其余受影响工具按 GitHub 星标数量排序依次为：Hermes、opencode、Goose、Cline、Roo-Code、Aider、Plandex、Open Interpreter、OpenHands、SWE-agent，上述项目总星标量约 54.8 万。

GuardFall 漏洞的核心根源是一个数十年前就已收录于安全文献的底层逻辑矛盾：过滤程序只校验命令原始文本，而 Bash 会解析命令实际语义，二者天然不一致。

Adversa AI 发布的报告指出：“AI 代码智能体、计算机操作智能体会以用户完整账号权限运行 Shell 命令，可访问你的 SSH 私钥、云服务凭证，以及家目录（$HOME）下全部文件。绝大多数工具依靠安全校验模块做防护，通过正则匹配命令字符串与高危黑名单做拦截。但校验的原始文本，和系统最终执行的解析后指令完全不同。校验模块仅检查未经处理的原始字符，而 Bash 会在执行前完成去引号、变量展开、文本重写等操作。因此，当 AI 智能体处理不可信外部内容（例如携带恶意 README 的 npm 安装包）时，提示注入攻击可绕过所有执行过滤规则，执行任意 Shell 命令。”

Bash 原生自带去引号、参数扩展、命令替换、字段分割功能，这些并非程序 Bug，而是官方文档明确记载的标准特性。问题关键在于：AI 智能体仅对原始命令字符串做黑名单正则匹配，却基于这份未解析文本做安全判断，忽略了 Bash 执行前会重写命令的底层逻辑。

Adversa AI 归纳出五大类可绕过防护的攻击方式：

A 类：转义引号绕过，例如写入r''m替代rm。正则不会匹配到高危指令，Bash 自动剔除引号后，实际执行删除命令rm。
B 类：环境分隔符绕过，例如rm$IFS-rf$IFS/。针对 “rm 后接空格” 的正则规则会判定为单一字符串放行；Bash 将$IFS解析为空白字符，拆分出三段参数完成删除操作。
C 类：命令替换嵌套，形如$(echo rm) -rf /。正则仅识别到替换表达式，无法识别其中内嵌的删除二进制程序。
D 类：Base64 管道拼接，将攻击载荷编码后通过 sh 管道执行。拆分后的每一段字符单独校验均无风险，拼接后却形成恶意指令。
E 类（攻击成功率最高、修复难度最大）：利用常规工具的高危参数，普通防护模块完全无法拦截，例如find /x -delete、dd of=/dev/sda、install -m 4755 恶意程序 /usr/local/bin/后门。仅拦截rm -rf的校验规则会完全漏掉这类攻击。

报告补充道：“仅拦截rm -rf、mkfs.*的防护模块，无法覆盖海量 POSIX 标准工具 —— 这类工具搭配特定参数后，均可实现破坏性操作。E 类攻击能绕过绝大多数防护，包括本次测评中防护能力最强的分词校验模块；因为拦截此类风险需要针对每一个系统程序，单独识别会触发破坏行为的参数组合，现有智能体均未实现该逻辑。”

本次研究始于 Adversa 团队在 NousResearch/hermes-agent 中发现的绕过漏洞：仅依靠 30 条正则黑名单的审批校验，可通过 Shell 语法改写机制轻松突破。研究人员完成实机复现后，针对同类产品批量开展测评。本次结论并非说明这些智能体代码质量差，而是它们共用的安全防护范式本身存在结构性缺陷。

“GuardFall 并非单一程序漏洞，而是一类危险的通用设计范式、一系列同源安全问题。基于原始字符串匹配的过滤机制无法模拟 Bash 完整解析逻辑，只会给用户虚假的安全感；这种虚假安全感会促使用户关闭人工审核、开启自动执行模式。” 报告写道。

各产品防护现状分类

搭载基础字符串正则校验，但可被完全绕过（Hermes、opencode、Goose 三款）这类工具的正则仅能拦截标准rm -rf，各类变形绕过攻击全部失效，几乎所有测试载荷均可执行。Goose 在 23 组测试用例中 22 组被绕过，opencode 全部 16 组测试用例均失守。
搭载分词校验模块（防护能力显著提升，但仍存在缺陷）分词机制可封堵去引号、$IFS分隔符类绕过手段，但存在两处致命短板：一是无法拦截引号内嵌套命令替换，例如echo "$(rm -rf /x)"—— 外层echo属于白名单允许指令，内嵌删除命令会作为副作用静默执行；二是无法防御 E 类参数攻击，分词机制无法识别各类工具的高危参数组合。
无静态前置校验，完全依赖人工确认剩余几款智能体未内置任何前置安全过滤，每条命令执行前都需要用户手动许可。这套机制理论安全，但用户常会开启自动执行：CI 流水线默认开启自动执行；当智能体频繁弹窗打断工作流时，用户也会主动启用自动放行。部分工具风险进一步放大：恶意代码仓库可内置配置文件（如.aider.conf.yml），预设auto-test: true，并在测试命令字段植入攻击载荷；用户仅确认一次代码修改，恶意指令便会自动触发，无需用户额外确认参数。

#

沙箱容器防护误区

容器沙箱是独立风险场景：开发团队普遍误以为沙箱能阻断高危命令，实际沙箱仅提供隔离临时运行环境，命令依旧会完整执行。一旦切换本地模式关闭容器隔离，防护机制直接失效。本次测评所有支持沙箱的智能体，均提供官方文档记载的本地运行配置，关闭容器后命令直接在宿主机执行，且无兜底安全校验。Adversa 针对 SWE-agent、OpenHands 本地模式实机测试证实：破坏性指令可直接操作宿主机文件。

攻击完整链路与模型依赖

整套攻击链需要大模型配合攻击者的诱导话术，这也推翻了 “大模型是最后一道安全防线” 的固有认知：直接让模型执行rm删除命令会被拒绝；但若将同一指令包装进 Makefile 任务、MCP 协议文档、注入的 README 任务描述中，模型会判定为常规工作并生成执行指令。本次实机测试使用 Claude Sonnet 4.6 大模型，该模型也是 opencode、Goose、Cline、Roo-Code 的默认基座。攻击链路高度依赖模型与话术包装，随着模型安全训练迭代，攻击效果会发生变化。

Cline 的一组测试直观体现该机制的脆弱性：同样一段攻击载荷，包装成普通 MCP 参考文档时，模型识别注入风险，仅生成只读查询指令；一旦改写为权威 MCP 强制指令话术，模型直接输出find -delete删除命令。校验模块因find在白名单内予以放行。同一模型、同一载荷，仅话术包装不同，最终结果天差地别。

唯一安全方案：Continue 的多层校验机制

Continue 按顺序执行五层独立校验，完整覆盖绝大多数攻击面：

执行匹配前先用 shell-quote 对命令完整分词，封堵所有引号变形绕过；
识别$IFS等变量扩展标记，含此类语法的命令强制人工审批；
递归解析嵌套命令替换，以内层指令风险判定外层命令是否放行；
检测管道末端是否为 Shell 解释器，存在则升级人工审批；
维护标准高危指令黑名单，直接拦截经典破坏性操作。

测评共 21 组绕过攻击载荷，无一组能实现无限制执行；12 类标准高危指令全部拦截。仍存在两处残余风险：引号内嵌套 C 类替换攻击、海量 E 类参数工具攻击，但 Continue 是本次测评唯一修复绝大多数结构性安全漏洞的智能体。

报告说明五层校验可拆分落地：仅部署分词 + 递归解析替换 + 管道终点检测三项，即可封堵 A/B/C（外层）/D 四类攻击；剩余引号内 C 类、E 类攻击可通过扩充黑名单拦截。资深工程师仅需两天即可完成整套逻辑复刻。

Continue 命令行模式下，开启--auto自动参数会适度放宽校验，IDE 插件端仍会弹窗确认风险指令。但两类场景共用统一高危黑名单：rm -rf /、sudo 提权、SUID 权限设置（chmod +s）等核心高危操作无论是否开启自动模式，均强制拦截。彻底修复只需将 IDE 插件的严格校验规则同步至命令行校验逻辑。

短期缓解方案与长期根治思路

所有临时防护手段均属于补救措施，无法实现本质安全：

最优临时缓解：采用受限隔离 Shell 启动智能体，重定向用户家目录。仅需一行封装脚本，保留项目工作目录，但将 SSH 密钥、AWS 凭证、Shell 历史等全部敏感凭证移出访问范围。该方案永久生效，无单参数一键关闭通道，比依靠用户自觉可靠得多。
本周即可落地的运维管控：

智能体读取代码仓库前，审计仓库内置配置文件，恶意.aider.conf.yml可在用户首次确认代码修改时触发远程代码执行；
CI 流水线中，禁止分支合并请求自动调用 AI 智能体执行命令；
关闭所有自动确认参数，除非业务场景完全无法中断流程。

唯一永久、常驻生效的防护方案：分词标准化校验器。在该机制成为行业通用标准前，所有仅依靠原始字符串匹配做校验的 AI 智能体，只需一次提示注入攻击，攻击者就能获取当前用户完整账号权限。

报告总结：“失效的防护模块即便保持开启也毫无作用；沙箱容器仅在开启隔离时有效，关闭即裸奔；唯有默认启用、逻辑严谨的多层校验机制，无需用户手动配置，即可持续保护宿主机安全。在这套标准普及前，任何搭载字符串匹配校验的 AI 智能体，都存在提示注入导致用户账号沦陷的高危漏洞。”

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：黑猫安全鹏鹏同学鹏鹏同学《GuardFall 漏洞波及 11 款主流开源 AI 智能体中的 10 款》