关于AIAgent安全,你是不是也有很多疑问?

admin 2026-01-17 01:51:57 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 文章类比人类进化,指出AI智能体处于形态剧变期,难以固化安全标准。引用NIST公告,承认智能体安全尚在摸索期,正征集关于威胁识别、系统级控制及环境管控的观点。作者建议接纳不确定性,从模型安全转向系统安全,实施动态治理与持续评估,以应对自主决策与工具调用带来的独特风险。 综合评分: 87 文章分类: AI安全,政策法规,安全建设


cover_image

关于AI Agent安全,你是不是也有很多疑问?

原创

DIMU DIMU

AI简化安全

2026年1月16日 00:41 广东

一、从人类进化看智能体发展

    “关于智能体(AI Agent )安全,你是不是也有很多疑问?”

    笔者是有很多疑问的,但是并不焦虑。如今AI“光速”发展,一个对象还没有被定义好,就出现了另外一种形态。笔者说的就是智能体 (AI Agent ) ,感觉和物种进化一样,人类从猿进化到人,样貌、结构、能力等等都在不断变化,但是当快到人之后,速度就越来越慢了。

智能体目前的样貌、结构、能力在快速变化,那是不是意味着,智能体离“终极”状态还有很远?笔者查阅了一些人类的进化数据,确实在一定程度上支撑了此观点。

可以发现,最近3万年,人类在宏观生物形态上几乎“冻结”了

脑容量变化更直观:

  300万年前 ≈ 450 cc

  150万年前 ≈ 900 cc

  30万年前 ≈ 1350 cc

  现代 ≈ 1350 cc(局部甚至略有下降)

早期是“脑爆式”增长,智人出现后进入平台期。进化没停止,只是换了赛道:从基因突变 → 文化、技术、制度、语言的复合进化。这才是现代人类真正的“加速器”。

图:人类脑容量演化曲线图,曲线来自Smithsonian Human Origins Program及相关学术来源

图:人类进化线性时间线(行走序列 + 时间尺度)

二、那智能体现在处于哪个“进化”阶段?

简单对照一下:

结论清晰:智能体远未到“趋稳期”,它更像早期智人之前的“狂飙分化阶段”——形态未定、边界模糊、可能性爆炸。

正因如此,任何试图“一劳永逸”定义其安全的尝试,都天然带有时间上的脆弱性。

三、西方人对智能体安全也在“认知摸索期”

    虽然IT技术发源于西方,但是对于智能体安全,他们也在努力试图摸清。2026年1月,美国国家标准与技术研究院(NIST)下属的AI标准与创新中心(CAISI)正式发布了一份重磅文件:

关于人工智能智能体系统安全考量的征求信息公告(RFI)》 (Request for Information Regarding Security Considerations for Artificial Intelligence Agents)

    这份公告没有给出“标准答案”,反而向全球开发者、研究者、安全专家、产业界和公众公开征集观点。连全球权威的标准制定机构,都坦承:智能体安全仍处于“理解与共识构建”的早期阶段

    他们特别关注的智能体,是那些能够自主规划、决策、调用工具并对真实世界产生影响的系统(而非单纯的聊天模型)。

核心提问如下:


1. 影响AI智能体系统的安全威胁、风险和漏洞

(a) 当前影响AI智能体系统的独特安全威胁、风险或漏洞是什么,这些与影响传统软件系统的有何区别?

(b) 安全威胁、风险或漏洞如何根据模型能力、智能体支架软件(agent scaffold software)、工具使用、部署方式(包括内部部署 vs. 外部部署)、托管环境(包括本地、云端或边缘组件)、使用场景以及其他因素而变化?

(c) 影响AI智能体系统的安全威胁、风险或漏洞在多大程度上构成了AI智能体系统更广泛采用或使用的障碍?

(d) 这些威胁、风险或漏洞随时间如何变化?它们在未来可能如何演变?

(e) 当前影响多智能体系统(multi-agent systems)的独特安全威胁、风险或漏洞是什么,这些与影响单一AI智能体系统的有何区别?

2. AI智能体系统的安全实践

(a) 哪些技术控制、流程和其他实践能够在开发和部署中确保或提升AI智能体系统的安全性?这些方法在研究和实践中的成熟度如何?类别可能包括:

i. 模型级控制,例如增强模型对提示注入鲁棒性的措施;

ii. 智能体系统级控制,例如提示工程、数据或工具限制、持续监控方法;

iii. 人工监督控制,例如对重大行动的审批、对敏感和不可信数据的管理、网络访问权限或其他控制。

(b) 技术控制、流程和其他实践的有效性在多大程度上(如果有的话)会随着模型能力、智能体支架软件、工具使用、部署方式(包括内部 vs. 外部部署)、使用场景、多智能体系统使用以及其他因素的变化而变化?

(c) 针对AI智能体系统能力或其面临的威胁、风险、漏洞的预期未来演变,技术控制、流程和其他实践可能需要如何变化?

(d) 在整个生命周期中修补或更新AI智能体系统有哪些相关方法、风险和其他考虑因素,这些与同时影响传统软件系统和非智能体AI的因素有何区别?

(e) 哪些网络安全指南、框架和最佳实践与AI智能体系统的安全性最相关?

i. AI智能体系统开发者和部署者对这些相关指南、框架和最佳实践的采用程度如何?

ii. 采用这类指南、框架或最佳实践存在哪些障碍、挑战或误解?

iii. 现有网络安全最佳实践在哪些方面可能不适用于AI智能体系统的安全性?

3. 评估AI智能体系统的安全性

(a) 在AI智能体系统开发过程中,有哪些方法可用于预测、识别和评估安全威胁、风险或漏洞?

i. 在AI智能体系统部署后,有哪些方法可用于检测安全事件?

ii. 这些方法与传统信息安全实践(包括供应链安全)如何对齐(或有何不同)?

iii. 这些方法在研究和实际应用中的成熟度如何?

iv. 有哪些资源或信息有助于预测、识别和评估安全威胁、风险或漏洞?

(b) 并非所有安全威胁、风险或漏洞都必然适用于每一个AI智能体系统;如何评估特定AI智能体系统的安全性?有哪些类型的信息有助于进行该评估?

(c) 来自AI模型及其相关组件的上游开发者的哪些文档或数据,可能有助于下游AI智能体系统提供者在部署的AI智能体系统中评估、预测和管理安全威胁、风险或漏洞?

i. 这些数据或文档在开源和闭源AI模型及AI智能体系统之间是否存在差异?如果有,差异如何?

ii. 哪些种类的披露(如果强制或公开)可能潜在地制造新的漏洞?

iii. 此类披露(如有)应如何在各方之间保持安全,以保护系统完整性?

(d) 支持安全部署的AI智能体系统面向用户的文档实践现状如何?

4. 限制、修改和监控部署环境

(a) AI智能体系统可能部署在各种环境中,即系统行动发生的位置。以何种方式和通过哪些技术手段,可以限制AI智能体系统的部署环境的访问权限或范围?

(b) 如何修改虚拟或物理环境,以缓解影响AI智能体系统的安全威胁、风险或漏洞?在为已部署AI智能体系统的不良行动或轨迹(行动序列)实施撤销、回滚或否定方面的实际应用现状如何?

(c) 管理AI智能体系统与对手方(counterparties)交互相关风险的现状如何?实践、采用程度及其相对成熟度可能因交互中的对手方不同而异,包括:

i. 与未直接使用AI智能体系统的人类的交互;

ii. 与数字资源(包括网络服务、服务器和遗留系统)的交互;

iii. 与机械系统、机器或物联网(IoT)的交互;

iv. 与认证机制、操作系统访问、源代码访问或类似网络级访问向量的交互;

v. 与其他AI智能体系统的交互。

(d) 有哪些方法可用于监控部署环境中的安全威胁、风险或漏洞?

i. 部署传统威胁、风险或漏洞监控方法存在哪些挑战?

ii. 监控部署环境的安全威胁、风险或漏洞是否存在法律和/或隐私挑战?

iii. 这些方法在研究和实践中的成熟度如何?

(e) 当前AI智能体系统是否广泛部署在开放互联网上,或其他无边界环境中?如何随时间跟踪开放互联网或其他无边界环境中的流量体积?

5. 其他考虑因素

(a) 有哪些方法、指南、资源、信息或工具,能够帮助AI生态系统快速采用影响AI智能体系统的安全实践,并促进AI智能体系统安全创新生态?

(b) 在哪些政策或实践领域,政府与AI生态系统的合作最为紧迫,或最有可能在当前及未来改善AI智能体系统安全状态?

(c) 为了改善当前影响AI智能体系统的安全实践状态,应在哪些关键领域集中研究?

i. 未来研究应朝向何处,以解锁安全且具韧性的AI智能体系统采用的好处?

ii. 应优先哪些研究方法,以推进对影响AI智能体系统的安全威胁、风险和漏洞的科学理解和缓解?

(d) 其他国家如何应对这些挑战?它们的做法有哪些优势和劣势?

(e) 人工智能和网络安全领域之外的其他领域,是否存在实践、规范或实证洞见,可能有益于我们对AI智能体系统安全性的理解或评估?


CAISI明确表示:他们期待真实案例、最佳实践、失败教训,希望通过汇聚全球经验,逐步形成可操作的共识。也可以看出CAISI系统性地提出了一个面向 AI 智能体系统安全的整体问题框架,围绕“威胁识别—安全建设—安全评估—部署与环境约束—政策与生态协作”五个方面,全面梳理了智能体在自主决策与行动能力增强背景下面临的独特安全风险。内容强调,智能体系统在模型能力、系统架构、工具使用、多智能体协作以及部署环境等方面的差异,会显著影响安全威胁的形态与防护措施的有效性,传统软件和非智能体 AI 的安全方法难以直接适用。同时,该框架也指出,随着智能体能力的持续演进,安全建设与评估必须具备动态调整能力,并需要在技术实践、运行环境控制、信息披露机制以及政府与产业协作等层面形成合力,从而支撑智能体系统在现实场景中的安全、可控与可持续应用。

四、既然“大家都不清楚”,那怎么办?

一个必须接受的认知升级:智能体安全不是“定义出来”的,而是“在演化中共同锻造”的

所以笔者认为以下几个认知很关键:

一、把“不确定性”当作默认状态 任何静态、一次性的安全定义,都可能在下一次模型/工具迭代中失效。接受这一点,反而能解放行动。

二、从“模型安全”转向“系统安全” 智能体 = 模型 + 工具 + 记忆 + 权限 + 环境交互的复合体。安全必须分层设计、端到端考虑。

三、用“动态治理”替代“静态规范”

四、把评估变成持续过程

  • 它在哪些条件下会失控?
  • 风险边界是否可观测、可收敛?
  • 一旦偏离,我们能否及时发现并干预?

五、写在最后

人类进化史告诉我们:在形态剧变期,不确定性才是常态;只有趋稳后,进化才悄然换轨

智能体正处在最剧烈的“形态剧变期”,这个阶段会持续多久,没人知道。对于智能体安全问题,我们的探索也好,CAISI的RFI也罢,都是一种极其诚实的姿态——公开承认未知,一起摸着石头过河

《完》

CAISI的RFI原文:点击阅读原文


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:AI简化安全 DIMU DIMU《关于AI Agent安全,你是不是也有很多疑问?》

评论:0   参与:  0