2026-04-21 01:31:51 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 该文档系统阐述了AARM（自主行为运行时管理）规范，旨在解决自主智能体因具备高权限执行能力而引发的安全问题。文章指出传统安全工具无法应对AI行为的不可逆性、机器速度等五个特征，提出以行为执行层为安全边界，通过四类行为分类框架（禁止/上下文拒绝/允许/延迟）实现实时裁决。关键方案包括四种实现架构、十一类威胁模型控制措施及九项合规要求，为企业评估或构建智能体运行时安全系统提供可操作框架。 综合评分： 85 文章分类： AI安全,安全建设,解决方案,技术标准,应用安全

cover_image

意图安全的实现：自主智能体的运行时管控方法-AARM

原创

孙志敏孙志敏

AI与安全

2026年4月19日 14:47 北京

在小说阅读器读本章

去阅读

从Openclaw(龙虾)开始，到最近的Hermes（爱马士）,以及Claude Code的持续发展上看，自主智能体在向复杂的自动化长任务发展。要完成复杂任务，需要多种权限，包括自主接管电脑、操作浏览器、运行脚本、调用 API，操作邮件，数据库等。一方面，通过直接赋予智能体这些权限，自动化程度得以快速提升。另一方面，由于智能体行为不可预知性及模型的幻觉，具备了这些权限，可能会导致各类安全问题的发生，比如著名的Meta安全高管邮件被删除的事件。在鱼与熊掌不可兼得的情况下，我们需要一种安全方法，既能使自主智能体拥有权限并高效自主完成任务，同时防止智能体的行为产生破坏。

传统的安全方法基本无法解决上述安全问题。有篇论文：自主动作运行时管理（AARM）：一种用于在运行时保护 AI 驱动动作的系统规范（Autonomous Action Runtime Management (AARM): A System Specification for Securing AI-Driven Actions at Runtime）,系统地分析了这些问题，并提出解决方案，可以参考。

AARM是意图安全的一个实现思路。作为生态，已经有32家公司参与，值得关注。

为什么智能体的安全需要新的范式

传统的网络安全体系是围绕人类操作者和确定性程序设计的：SIEM负责事后分析日志，API网关验证调用者身份，防火墙守卫网络边界，IAM/RBAC管理静态权限，AI护栏过滤有害文本。这些工具在各自的场景中行之有效。然而，当安全的对象从人类操作者变为自主智能体时，这套体系的底层假设被逐一击穿。AARM论文指出，AI驱动的行为具有五个显著特征，它们共同构成了一个现有安全范式无法覆盖的盲区：

表1: AI驱动行为的五个安全特征及现有方案的失效原因

上表清晰地展示了一个结构性困境：现有的每一类安全工具都只解决了问题的某个切面，却没有任何一种工具能够同时做到两件事——在行为执行前进行预防，并且基于累积的上下文做出判断。SIEM能关联上下文但只能事后响应，RBAC能在执行前判断权限但完全缺乏上下文感知，AI护栏能实时过滤但只看文本不看行为。这五个特征的交汇处，恰恰是一片安全真空地带。

更具体地说，当一个OpenClaw智能体先查询客户数据库获取PII，再将结果通过邮件发送给外部地址时，IAM会分别允许这两个操作（用户确实有读取权限和邮件发送权限），但组合起来这就是一次数据外泄。当一个Hermes Agent在处理文档时被嵌入的恶意提示劫持，改为执行攻击者的指令时，文本护栏根本无法察觉——因为智能体调用的是合法的工具接口，只是参数被篡改了。这些场景所需要的，是一种能够持续追踪会话状态、理解行为语义、并在执行前实时做出裁决的全新安全机制。这正是AARM规范试图填补的空白——一种专为自主智能体时代设计的运行时安全范式。

AARM的设计思想

2.1 核心定义

AARM（Autonomous Action Runtime Management，自主行为运行时管理）是一套开放的系统规范，用于在运行时保护AI驱动的行为。它定义的是一个运行时安全系统必须做什么，而非如何构建。AARM具有模型无关、框架无关、厂商中立的特性，将行为执行层（action layer）视为稳定的安全边界。

AARM的核心设计原则是：处理不可信输入的编排层不能作为可靠的安全边界。安全决策必须在运行时、在决策变为行动的精确时刻发生——即行为中介层（Action Mediation Layer），即AI决策物化为外部系统操作的边界。

系统包含六个关键组件

2.2 四类行为分类框架

AARM的一个关键创新是认识到安全决策不是简单的二元判定（允许/拒绝），而是需要根据上下文做出更精细的判断。

AARM将行为分为四类，并针对四类行为分别设计了不同的评估策略，每种策略都结合了不同层次的安全检查：

表2: AARM四类行为的策略评估逻辑

四关行为按静态策略+上下文累积作为决策依据。当然，上下文的积累评估还需要依赖AI,这也是用AI保障AI的方法。

这种分类方式的深层含义在于：一个孤立看起来完全合规的行为，放在特定上下文中可能构成安全违规；而一个看似危险的行为，如果上下文确认它正是用户明确请求的操作，则可能应当被允许执行。这要求安全系统同时具备静态策略评估能力和上下文累积能力。

2.3四种实现架构

AARM定义了四种不同的实现架构，各具不同的信任属性和适用场景，包括协议网关，SDK埋点，内核eBPF和厂商集成，最佳实践是分层部署，多种方法结合。值得注意的是，内核级eBPF实现由于缺乏语义理解能力，无法独立满足AARM对上下文相关分类的合规性要求，必须作为纵深防御的兜底层与语义感知架构配合部署。

其实现原理图如下，关键动作都在执行层处理。

AARM策略能较好的处理威胁

AARM的基本假设是：AI编排层不能被信任为安全边界。基于此，论文形式化了十一类威胁向量，并为每一类设计了对应的AARM控制措施：

表3: AARM威胁模型 — 十一类威胁向量及对应控制措施

AARM定义了九项合规性要求，分为核心层（R1-R6，必须满足）和扩展层（R7-R9，建议满足）两个级别，是更具体的操作指导：

| | | | | | — | — | — | — | | 编号 | 级别 | 要求 | 层级 | | R1 | MUST | 执行前拦截 — 在执行前阻断或延迟行为 | 核心层 | | R2 | MUST | 上下文累积 — 追踪先前行为、数据分类和原始请求 | 核心层 | | R3 | MUST | 带意图对齐的策略评估 — 支持四类行为分类 | 核心层 | | R4 | MUST | 五种授权决策 — ALLOW/DENY/MODIFY/STEP_UP/DEFER | 核心层 | | R5 | MUST | 防篡改凭据 — 加密签名，绑定完整上下文 | 核心层 | | R6 | MUST | 身份绑定 — 人类、服务、智能体、会话和角色/权限范围 | 核心层 | | R7 | SHOULD | 语义距离追踪 — 通过嵌入相似度检测意图漂移 | 扩展层 | | R8 | SHOULD | 遥测导出 — 向SIEM/SOAR平台发送结构化事件 | 扩展层 | | R9 | SHOULD | 最小权限执行 — 范围化的即时凭据 | 扩展层 |

表4: AARM合规性要求 (R1-R6为核心层, R7-R9为扩展层)

小结

针对自主智能体的防护需要新的范式，而AARM作为一套开放的系统规范，提供了应对这一挑战的系统性框架。其核心贡献在于：

•明确了行为执行边界作为稳定安全边界的定位，取代不可信的编排层；

•建立了四类行为分类框架，使安全决策从二元判定升级为上下文感知的精细化裁决；

•形式化了十一类威胁模型，为每类威胁设计了明确的控制措施；

•提出了四种实现架构和分层部署策略，兼顾不同组织的控制能力和信任需求；

•定义了九项合规性要求，使买方能够客观评估厂商方案是否真正满足规范。

目前AARM生态已有32家公司参与构建合规或对齐方案，14位来自Vanta、Elastic、Darktrace等企业的技术工作组成员参与规范定义。对于企业安全团队而言，无论是评估现有的智能体安全产品，还是自行构建运行时管控系统，AARM都提供了一个清晰、可验证的参考标准。

在智能体自主性日益增强的今天，安全不再是事后的补救，而必须成为运行时的实时守护。AARM的出现，标志着行业开始从原则性讨论迈向可操作的工程实践。

论文链接

https://arxiv.org/pdf/2602.09433v1

AARM官网

https://aarm.dev/

关联阅读

意图安全，智能体行为安全的控制方法，AI安全的重要方向

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：AI与安全孙志敏孙志敏《意图安全的实现：自主智能体的运行时管控方法-AARM》