2025-12-25 02:38:24 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 英伟达联合LakeraAI发布AI智能体安全评估框架，针对AgenticAI系统交互风险提出新视角。框架建立组件风险与系统危害分类法，通过嵌入式红队测试和探针方法量化风险，并开源攻击防御数据集。研究强调需从静态测试转向持续评估，构建多层护栏以应对权限受损和记忆投毒等高影响风险。 综合评分： 85 文章分类： AI安全,红队,解决方案,漏洞分析

cover_image

荐读丨英伟达发布AI智能体安全评估框架

工业安全产业联盟平台

2025年12月24日 18:31 北京

随着企业竞相部署能自主规划、使用工具并做出决策的AI智能体（Agentic AI）系统，一种全新的风险随之产生。这些风险潜伏在模型、工具、数据源和记忆存储的交互过程中，难以被传统的测试方法捕捉。

针对这一挑战，NVIDIA（英伟达）与Lakera AI的联合研究团队发布了一套全新的安全与安保框架。该框架旨在绘制并量化真实工作流中的智能体风险。除了提出新的风险分类法和动态评估方法外，研究团队还详细剖析了NVIDIA AI-Q Research Assistant的案例，并开源了一个包含超过一万条攻击与防御轨迹的数据集，以支持行业研究。

以下是该框架的核心内容及研究发现：

传统测试失效：智能体系统面临新挑战

研究指出，代理式AI系统的行为更加难以预测和测试。与传统的LLM（大语言模型）不同，智能体系统依赖模型生成计划和行动，即使输入相同，输出路径也可能不同。

传统的LLM测试通常局限于“提示词-响应”层面，而作者认为这种方法忽略了系统级风险。在智能体工作流中，工具使用、记忆调用和其他组件的交互会产生“连锁效应”，导致单一环节的微小风险在后续步骤中被放大。

该框架提出了一个新的视角：将“安全（Safety，防止不可接受的后果）”与“安保（Security，防御对抗性入侵）”结合考量。因为在智能体系统中，一次安保失败（如提示注入、记忆投毒、工具滥用）往往直接导致安全危害。

建立实用的风险分类法

为了系统性地应对威胁，研究团队提出了一套连接“组件风险”与“系统危害”的操作性分类法：

低影响风险：工具选择错误、检索内容的接地性（Grounding）问题。
中等影响风险：个人身份信息（PII）泄露、记忆泄漏。
高影响风险：权限受损、智能体欺骗、多智能体合谋。

这种分类设计不仅帮助团队追踪需要关注的系统模块，还支持组合风险评估——即评估多个组件级风险如何相互作用，最终引发意想不到的系统级故障。这也强调了对智能体系统进行“端到端”可观测性的需求，包括审计日志和中间状态的追踪。

动态框架：嵌入式红队测试

该论文的核心是一套嵌入在智能体工作流内部的安全框架。它包含两个阶段：

风险发现与评估：攻击者和评估者智能体在沙箱环境中运行。
防御与监控：部署缓解措施，评估者智能体在实时运行中持续监控新问题。

架构上，该框架引入了多角色的智能体协作：

全局安全智能体（Global Safety Agent）：制定策略并维护权威状态。
本地攻击者（Local Attacker）：在检索文档、工具输出或中间步骤中注入威胁。
本地防御者（Local Defender）：验证函数调用、检查输入输出、执行权限规则。
本地评估者（Local Evaluator）：记录工具选择质量、文本接地性及危险动作率等指标。

创新方法：通过探针进行智能体红队测试

针对由于系统复杂性导致的测试难题，作者引入了“通过探针进行智能体红队测试”（Agent Red Teaming via Probes）的方法。

不同于试图构建能够绕过检索排名或工具路由的“通用提示注入”，该方法允许评估人员直接在工作流的特定节点（Injection Points）注入对抗性内容。这些注入点与评估探针配对，探针会观察威胁在系统中移动时的行为变化。

通过定义“威胁快照”（Threat Snapshot）——包含攻击目标、注入点、评估点和评分指标——团队可以测试现实场景（如直接用户滥用或RAG中的间接攻击），并跨版本追踪结果。

案例研究：NVIDIA AI-Q的实测数据

研究团队利用该框架对AI-Q Research Assistant（一个用于生物医学和金融报告的多步骤RAG系统）进行了实测。

测试规模：在用户输入、搜索工具输出和所有摘要阶段部署探针。
场景覆盖：创建了22个威胁快照，涵盖记忆投毒、拒绝服务（DoS）、越狱、偏见、内容安全、PII泄露及网络安全风险。
执行密度：每个场景使用21种攻击，每种攻击执行5次以捕捉非确定性行为，最终在三个评估节点产生了超过6000次风险测量。

关键发现：

风险具有流动性：攻击行为随着对抗性内容从早期摘要流向后期细化阶段而发生变化。某些风险在经过更多处理步骤后减弱，而另一些则持续存在。
多层防护的重要性：研究验证了多层护栏的必要性。例如，通过将自动评估指标与人工标签进行比对，发现其匹配度达到76.8%，这有助于校准自动化评估的误差范围。

展望：从静态测试走向持续评估

作者最后强调，静态测试无法揭示智能体系统中所有涌现的风险。为了实现规模化的安全部署，企业需要将安全智能体、探针工具和持续评估器直接嵌入到工作流中。

随论文发布的数据集包含了大量真实的攻击与防御轨迹，英伟达希望以此推动社区对智能体风险进行更深入的研究。

论文链接：

https://arxiv.org/pdf/2511.21990

· end ·

来源 | GoUpSec

责任编辑 | 赫敏

声明：本文由工业安全产业联盟平台微信公众号（微信号：ICSISIA）转发，如有版权问题，请联系删除。

如需合作或咨询，请联系工业安全产业联盟平台小秘书微信号：ICSISIA20140417

往期荐读

重磅 |《自动化博览》2025年第一期暨《工业控制系统信息安全专刊（第十一辑）》上线

征求意见稿丨网络安全技术工业控制系统网络安全防护能力成熟度模型（附下载）

工信部丨关于防范针对DeepSeek本地化部署实施网络攻击的风险提示

干货丨长输油气管网工控安全防护：策略、实践与展望

DeepSeek分析丨零信任安全架构在工业领域的发展现状与未来展望

数字化安全丨工信部印发《高标准数字园区建设指南》（附全文+图解）

AI安全丨人工智能安全治理框架2.0版（附下载）

干货丨工业可编程控制系统加密技术研究

荐读 |安全人视角的DeepSeek洞察与思考

可信数据丨中国城市可信数据空间行业研究报告（附全文）

关注丨网络关键设备安全检测结果（第19批）

数据安全｜国家标准支撑《网络数据安全管理条例》生效施行（v1.0）

工信部、国家标准委联合印发丨云计算综合标准化体系建设指南（2025版）

国家标准丨数据安全国家标准体系（2025版），附下载

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：工业安全产业联盟平台《荐读丨英伟达发布AI智能体安全评估框架》