荐读丨英伟达发布AI智能体安全评估框架

admin 2025-12-25 02:38:24 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: 英伟达联合LakeraAI发布AI智能体安全评估框架,针对AgenticAI系统交互风险提出新视角。框架建立组件风险与系统危害分类法,通过嵌入式红队测试和探针方法量化风险,并开源攻击防御数据集。研究强调需从静态测试转向持续评估,构建多层护栏以应对权限受损和记忆投毒等高影响风险。 综合评分: 85 文章分类: AI安全,红队,解决方案,漏洞分析


cover_image

荐读丨英伟达发布AI智能体安全评估框架

工业安全产业联盟平台

2025年12月24日 18:31 北京

随着企业竞相部署能自主规划、使用工具并做出决策的AI智能体(Agentic AI)系统,一种全新的风险随之产生。这些风险潜伏在模型、工具、数据源和记忆存储的交互过程中,难以被传统的测试方法捕捉。

针对这一挑战,NVIDIA(英伟达)与Lakera AI的联合研究团队发布了一套全新的安全与安保框架。该框架旨在绘制并量化真实工作流中的智能体风险。除了提出新的风险分类法和动态评估方法外,研究团队还详细剖析了NVIDIA AI-Q Research Assistant的案例,并开源了一个包含超过一万条攻击与防御轨迹的数据集,以支持行业研究。

以下是该框架的核心内容及研究发现:

传统测试失效:智能体系统面临新挑战

研究指出,代理式AI系统的行为更加难以预测和测试。与传统的LLM(大语言模型)不同,智能体系统依赖模型生成计划和行动,即使输入相同,输出路径也可能不同。

传统的LLM测试通常局限于“提示词-响应”层面,而作者认为这种方法忽略了系统级风险。在智能体工作流中,工具使用、记忆调用和其他组件的交互会产生“连锁效应”,导致单一环节的微小风险在后续步骤中被放大。

该框架提出了一个新的视角:将“安全(Safety,防止不可接受的后果)”与“安保(Security,防御对抗性入侵)”结合考量。因为在智能体系统中,一次安保失败(如提示注入、记忆投毒、工具滥用)往往直接导致安全危害。

建立实用的风险分类法

为了系统性地应对威胁,研究团队提出了一套连接“组件风险”与“系统危害”的操作性分类法:

  • 低影响风险:工具选择错误、检索内容的接地性(Grounding)问题。

  • 中等影响风险:个人身份信息(PII)泄露、记忆泄漏。

  • 高影响风险:权限受损、智能体欺骗、多智能体合谋。

这种分类设计不仅帮助团队追踪需要关注的系统模块,还支持组合风险评估——即评估多个组件级风险如何相互作用,最终引发意想不到的系统级故障。这也强调了对智能体系统进行“端到端”可观测性的需求,包括审计日志和中间状态的追踪。

动态框架:嵌入式红队测试

该论文的核心是一套嵌入在智能体工作流内部的安全框架。它包含两个阶段:

  • 风险发现与评估:攻击者和评估者智能体在沙箱环境中运行。

  • 防御与监控:部署缓解措施,评估者智能体在实时运行中持续监控新问题。

架构上,该框架引入了多角色的智能体协作:

  • 全局安全智能体(Global Safety Agent):制定策略并维护权威状态。

  • 本地攻击者(Local Attacker):在检索文档、工具输出或中间步骤中注入威胁。

  • 本地防御者(Local Defender):验证函数调用、检查输入输出、执行权限规则。

  • 本地评估者(Local Evaluator):记录工具选择质量、文本接地性及危险动作率等指标。

创新方法:通过探针进行智能体红队测试

针对由于系统复杂性导致的测试难题,作者引入了“通过探针进行智能体红队测试”(Agent Red Teaming via Probes)的方法。

不同于试图构建能够绕过检索排名或工具路由的“通用提示注入”,该方法允许评估人员直接在工作流的特定节点(Injection Points)注入对抗性内容。这些注入点与评估探针配对,探针会观察威胁在系统中移动时的行为变化。

通过定义“威胁快照”(Threat Snapshot)——包含攻击目标、注入点、评估点和评分指标——团队可以测试现实场景(如直接用户滥用或RAG中的间接攻击),并跨版本追踪结果。

案例研究:NVIDIA AI-Q的实测数据

研究团队利用该框架对AI-Q Research Assistant(一个用于生物医学和金融报告的多步骤RAG系统)进行了实测。

  • 测试规模:在用户输入、搜索工具输出和所有摘要阶段部署探针。

  • 场景覆盖:创建了22个威胁快照,涵盖记忆投毒、拒绝服务(DoS)、越狱、偏见、内容安全、PII泄露及网络安全风险。

  • 执行密度:每个场景使用21种攻击,每种攻击执行5次以捕捉非确定性行为,最终在三个评估节点产生了超过6000次风险测量。

关键发现:

  • 风险具有流动性:攻击行为随着对抗性内容从早期摘要流向后期细化阶段而发生变化。某些风险在经过更多处理步骤后减弱,而另一些则持续存在。

  • 多层防护的重要性:研究验证了多层护栏的必要性。例如,通过将自动评估指标与人工标签进行比对,发现其匹配度达到76.8%,这有助于校准自动化评估的误差范围。

展望:从静态测试走向持续评估

作者最后强调,静态测试无法揭示智能体系统中所有涌现的风险。为了实现规模化的安全部署,企业需要将安全智能体、探针工具和持续评估器直接嵌入到工作流中。

随论文发布的数据集包含了大量真实的攻击与防御轨迹,英伟达希望以此推动社区对智能体风险进行更深入的研究。

论文链接:

https://arxiv.org/pdf/2511.21990

· end ·

来源 | GoUpSec

责任编辑 | 赫敏

声明:本文由工业安全产业联盟平台微信公众号(微信号:ICSISIA)转发,如有版权问题,请联系删除。

如需合作或咨询,请联系工业安全产业联盟平台小秘书微信号:ICSISIA20140417

往期荐读

重磅 |《自动化博览》2025年第一期暨《工业控制系统信息安全专刊(第十一辑)》上线

征求意见稿丨网络安全技术 工业控制系统网络安全防护能力成熟度模型(附下载)

工信部丨关于防范针对DeepSeek本地化部署实施网络攻击的风险提示

干货丨长输油气管网工控安全防护:策略、实践与展望

DeepSeek分析丨零信任安全架构在工业领域的发展现状与未来展望

数字化安全丨工信部印发《高标准数字园区建设指南》(附全文+图解)

AI安全丨人工智能安全治理框架2.0版(附下载)

干货丨工业可编程控制系统加密技术研究

荐读 |安全人视角的DeepSeek洞察与思考

可信数据丨中国城市可信数据空间行业研究报告(附全文)

关注丨网络关键设备安全检测结果(第19批)

数据安全|国家标准支撑《网络数据安全管理条例》生效施行(v1.0)

工信部、国家标准委联合印发丨云计算综合标准化体系建设指南(2025版)

国家标准丨数据安全国家标准体系(2025版),附下载


免责声明:

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。

任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我

本文转载自:工业安全产业联盟平台 《荐读丨英伟达发布AI智能体安全评估框架》

评论:0   参与:  2