文章总结: MetaAI团队提出智能体安全黄金法则’代理二元规则’,将智能体特权能力分为处理不可信输入、访问敏感数据、修改状态或外部通信三类,规定单次会话中智能体只能同时具备其中两种特权能力,以防范提示注入攻击带来的严重后果。该规则提供了实用的安全框架,帮助开发者在AI代理设计中平衡功能与安全,当必须同时具备三种特权时需引入人工审核机制。 综合评分: 87 文章分类: AI安全,安全建设,安全开发,漏洞分析,威胁情报
Meta AI团队提出智能体安全黄金法则:特权无法兼得
安全内参编译
安全内参
2025年11月10日 17:51 北京
关注我们
带你读懂网络安全
该规则将智能体的特权能力分为三类:能处理不可信输入、能访问敏感系统或私人数据、能修改状态或与外部通信;
智能体应用在单次会话中只能同时具备两种特权能力,即三特权无法同时相容,如果必须同时具备就需要引入人工审核,以避免造成最严重的后果。
前情回顾·AI Agent安全研究
- 深度:OpenAI如何打造AI Agent防护体系
- AI Agent安全该怎么做?微软安全打了个样
- 首个AI Agent零点击漏洞曝光:一封邮件窃取企业AI任意敏感数据
- AI Agents越来越火,它可能存在一个严重安全隐患
安全内参11月10日消息,想象一下,一个叫邮件机器人(Email-Bot)的个人AI代理,它专门帮你管理邮箱。为了高效运行并真正发挥作用,邮件机器人可能需要具备以下功能:
- 访问来自不同发件人的未读邮件内容,以便生成有用的摘要;
- 阅读您的收件箱,追踪重要的更新、提醒或上下文;
- 帮您回邮件或发送后续跟进邮件。
虽然这样的自动邮件助手能带来极大便利,但它也揭示了AI代理带来的新型安全风险。其中,业界当前面临的最大挑战之一就是:提示注入攻击。
提示注入是所有大模型中一个根本性弱点,尚未得到解决。当某些不可信的字符串或数据被输入代理的上下文窗口时,就可能导致意想不到的后果:例如忽略开发者的指令和安全指南,或执行未经授权的操作。这种漏洞足以让攻击者控制代理,从而对用户造成实质性损害。
以邮件机器人为例,如果攻击者在发送给用户的邮件里植入提示注入代码,一旦该邮件被处理,他们就可能劫持这个AI代理。攻击方式包括窃取敏感信息(如私人邮件内容),或执行不希望发生的操作(如向目标用户的朋友发送钓鱼邮件)。
和许多同行一样,Meta AI团队对“具备代理能力的AI”在提升生产力、改善生活方面的潜力感到兴奋。要实现这一愿景,像邮件机器人这样的AI代理需要更多能力,包括:
- 访问未知来源的数据(例如收件的邮件或来自互联网的内容);
- 调用授权的私人或敏感数据,以便规划并实现更个性化的服务;
- 自主调用各种工具替用户完成任务。
Meta AI团队正在深入思考,如何在提供最大实用性与灵活性的同时,尽量降低提示注入带来的负面影响,比如隐私泄露、被迫代表用户执行任务或系统中断。为此,该团队提出了一个名为“代理二元规则”(Agents Rule of Two)的安全框架,用于最大程度保护用户和系统免受这类已知风险。遵循这一框架,可以显著降低安全风险的严重性。
这个框架的灵感来自Chromium的命名方式,以及Simon Willison提出的“致命三重奏”(LethalTrifecta)概念,旨在帮助开发者更好地理解并权衡当前强大代理系统的风险与收益。
什么是“代理二元规则”
总体来说,“代理二元规则”规定:在我们还无法可靠检测并阻断提示注入之前,AI代理在单次会话中最多只能同时具备以下三项特性中的两项,以避免提示注入造成最严重的后果:
- 能处理不可信输入;
- 能访问敏感系统或私人数据;
- 能修改状态或与外部通信。
当然,有时执行某个请求确实需要三项特性兼具。若代理在不重启会话(即不重置上下文)的情况下必须同时拥有三项能力,就不应让它完全自主运行,至少需要人工介入监督。例如,可通过“人在环中”(human-in-the-loop)审批或其他可靠验证机制来保障安全。
图:三选二
代理二元规则如何阻止攻击
让我们回到邮件机器人的例子,看看“代理二元规则”如何防止数据外泄攻击。
攻击场景:一封垃圾邮件中含有提示注入代码,指使邮件机器人收集用户收件箱中的私人内容,并通过“发送新邮件”工具把这些数据转发给攻击者。
攻击成功的原因在于:
- [A]代理能访问不可信数据(垃圾邮件);
- [B]代理能访问私人数据(收件箱);
- [C]代理能与外部通信(发送新邮件)。
根据“代理二元规则”,可以通过以下几种方式阻止攻击:
- [BC]配置:代理只处理来自可信发件人的邮件(如亲密好友),阻止恶意提示注入进入上下文窗口;
- [AC]配置:代理无法访问任何敏感系统或数据(例如仅在测试环境中运行),即使提示注入成功,也不会造成实际损害;
- [AB]配置:代理只能向可信收件人发送邮件,或在人工审核草稿后再发送,从而切断攻击链。
通过“代理二元规则”,开发者可以权衡不同设计之间的取舍(例如操作复杂度与功能限制),找出最符合用户需求的方案。
“代理二元规则”的假设示例与实践
下面举三个假设场景,看看不同类型的代理如何遵循这一框架。
旅行助理代理[AB]
- 这是一个面向公众的旅行助理,可以回答问题并代用户执行操作。
- 它需要通过网络搜索目的地的最新信息[A],并访问用户的私人资料来完成预订与购买[B]。
- 为符合“代理二元规则”,我们在其通信能力[C]上增加预防性控制:任何操作(如预订或支付定金)都需人工确认;限制网络请求仅访问可信来源的URL,避免代理随意生成地址。
网页浏览研究助理[AC]
- 该代理可与浏览器交互,代表用户进行资料研究。
- 它需要填写表单、向任意URL发送请求[C],并分析返回结果[A]以便根据需要重新规划。
- 为满足“代理二元规则”,我们在访问敏感系统与私人数据[B]方面增加预防性控制:在受限沙箱环境中运行浏览器,不加载任何预设会话信息;限制代理访问初始提示之外的私人数据,并告知用户数据的共享方式。
高速内部编码代理[BC]
- 该代理能在公司内部基础设施中生成并执行代码,帮助解决工程问题。
- 为解决实际问题,它必须访问部分生产系统[B],并可对这些系统进行有状态更改[C]。虽然“人类在环”仍是一种重要的纵深防御手段,但开发者希望尽量减少人工干预,以提升运行效率。
- 为遵循“代理二元规则”,我们在不可信数据[A]上增加预防性控制:通过作者来源追踪(author-lineage)机制过滤代理上下文窗口中处理的所有数据源;提供人工审核流程,标记误报并授权代理访问必要数据。
正如所有通用安全框架一样,关键往往在细节。为了支持更多使用场景,可以允许代理在同一会话中安全地从一种“代理二元规则”配置切换到另一种。例如,代理可先以[AC]配置访问互联网,再在访问内部系统时禁用通信,单向切换至[B]配置。
虽然具体实现细节略去,但只要能阻断攻击路径,即防止攻击完成[A]→[B]→[C]的完整链条,这种转换就是安全的。
局限性
需要强调的是,遵循“代理二元规则”并不意味着能防御所有代理常见威胁,如攻击者能力升级、垃圾内容泛滥、代理失误、幻觉、权限过高等问题。它同样无法防止提示注入导致的低影响事件(例如代理回复中的错误信息)。
此外,“代理二元规则”也不是风险控制的终点。即使满足规则,系统仍可能因用户误操作(如在未仔细确认的情况下点击警告框“确认”按钮)而失效。在单层防御不足的情况下,纵深防御依然是应对高风险场景的关键。“代理二元规则”应被视为对传统安全原则(如最小权限原则)的补充,而非替代。
与“代理二元规则”配合使用的AI防护机制,可以参考Meta AI的Llama安全体系。
它的功能包括:用于协调代理防护的LlamaFirewall、防御潜在提示注入的PromptGuard、减少不安全代码建议的CodeShield,以及识别潜在有害内容的LlamaGuard。
下一步
Meta AI团队认为,“代理二元规则”是当前对开发者最有价值的安全框架,并对其在安全规模化开发中的潜力充满期待。
随着通过模型上下文协议(MCP)等机制实现的即插即用型代理工具调用逐渐普及,该团队看到了新的风险与机遇。虽然盲目地将代理连接到新工具可能带来严重后果,但如果在设计阶段就内建“二元规则”意识,即从默认安全出发,便有望实现真正安全的自动化。例如,在工具调用时声明当前“代理二元规则”配置,开发者即可更准确地判断某个操作是否会成功、失败,或需要额外审批。
Meta AI团队也意识到,随着代理功能增强、用途拓展,一些高需求场景可能难以完全遵循“代理二元规则”,例如无法加入人工环节的后台进程。因此,虽然传统软件防护与人工审批仍是目前实现该规则的主要方式,该团队也在研究如何通过一致性控制(如监督代理与开源的LlamaFirewall平台)来实现基于“代理二元规则”的自动化审批。
参考资料:meta.com
推荐阅读
- 网安智库平台长期招聘兼职研究员
- 欢迎加入“安全内参热点讨论群”
点击下方卡片关注我们,
带你一起读懂网络安全 ↓
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全内参 安全内参编译《Meta AI团队提出智能体安全黄金法则:特权无法兼得》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论