文章总结: OWASP发布AI红队服务商与工具厂商评估标准v1.0,旨在帮助买家评估AI红队测试服务商和自动化工具。标准强调需区分简单GenAI系统与高级智能体系统的不同测试要求,前者需测试越狱、提示注入等传统风险,后者需评估工具调用、多智能体交互等新风险。指南提供了快速筛选供应商的绿旗与红旗指标,并建议关注可衡量、透明的测试指标及运维适配性。 综合评分: 78 文章分类: AI安全,红队,安全建设,技术标准,渗透测试
挑选人工智能红队服务商越来越难
原创
OWASP OWASP
安全行者老霍
2026年2月19日 09:00 北京
写在前面:从2025年年底到现在,OWASP发布了这四个和AI 安全相关的指南。
OWASP Top 10 for Agentic Applications 2026(智能体应用安全 Top 10 2026)
OWASP AI Security Testing Guide(AI 安全测试指南,约 250 页)
OWASP AI Vulnerability Scoring System (AIVSS)(AI 漏洞评分系统)
OWASP Vendor Evaluation Criteria for AI Red Teaming Providers & Tooling v1.0(AI 红队服务商与工具厂商评估标准 v1.0)
本文是对第四个文档的简要介绍。虽然AI红队的业务还不是很多,但由于AI及其相关技术的快速发展,对AI 红队测试的要求已经非常之高了。在这篇评估标准中,OWASP对每个方向的评估都提出了很明确的要求,大致看了一下, 感觉能做到的只是一部分,还远远不够。如果做好AI红队服务商的话,还得把这四个基础文档先好好学习一下。本文的题目是挑选AI红队服务商越来越难,实际上,做一个合格的AI红队服务商也不容易。
在传统安全测试中,供应商的干扰已经是一个问题。人工智能红队测试又增加了一层复杂性,供应商提供的服务从咨询业务到自动化测试平台,不一而足。许多买家仍然难以判断供应商是能够测试真实世界的人工智能系统行为,或只是运行一套打包好的越狱提示。
这个问题在OWASP的《人工智能红队测试服务商与工具提供商评估标准》中得到了直接阐述,这是一本实用指南,用于评估基础通用人工智能(GenAI)部署和高级代智能体系统中的红队测试服务公司和自动化工具。该指南面向需要在压力下做出决策的买家,包括首席信息安全官(CISO)、安全架构师、治理团队和采购负责人。
- 简单的通用人工智能系统仍然存在严重风险
大多数企业部署仍然属于“简单系统”范畴。这包括面向客户的聊天机器人、人力资源或信息技术部门的内部辅助人员、工作流程助手以及与内部文档相连的检索增强生成(RAG)系统。
这些系统往往以熟悉的方式失败。越狱仍然很常见。提示注入在许多环境中仍然有效。当员工将输出视为可信答案时,会产生幻觉,从而带来商业风险。敏感数据会通过对话历史、检索链或弱访问控制导致泄露。
评估标准强调,供应商应能够通过多轮对抗性对话、基于角色的操纵以及检索增强生成(RAG)特定的攻击(如检索覆盖和语义劫持)来测试这些风险。供应商还应能够在重复尝试下对安全行为进行压力测试,因为许多模型在不同会话中的表现会有所不同。
- 先进的系统需要不同的测试技能
越来越多的组织正在部署能够采取行动而不仅仅是生成文本的人工智能系统。这些系统包括工具调用智能体、基于MCP的架构以及跨不同组件协调任务的多智能体工作流。
该指南将这些系统视为一个单独的类别,因为其风险面迅速扩大。工具调用会引入模式操作风险。MCP工具注册表会产生能力暴露问题。多智能体系统会引入消息传递漏洞和跨智能体污染。持久化内存为投毒和指令植入创造了机会。
本评估标准还指出了权限提升的途径,包括用户级智能体被操纵调用管理员级工具的情况。由于许多此类系统会在会话之间存储上下文或在智能体之间传递内存,因此状态化测试成为基本要求。
- 绿旗和红旗有助于快速筛选供应商
高管速查章节,内容形式类似于一份快速辩别核查清单。
优质厂商会展示可复现的多轮对话评估、能够发现新问题的定制化测试,以及可将技术缺陷映射到业务影响的报告体系。对高严重性问题,人工核验被视为核心要求。对有状态系统的测试能力,是体现可信度的另一项关键指标。
能力稍弱厂商则表现出模式化、套路化的特征。将公开越狱漏洞库冒充为原创成果是一个重要信号。另一类问题是含糊宣称 “一键测试” 或 “全覆盖检测”。若厂商仅关注模型输出,却不测试工具调用与工作流执行动作,便无法评估智能体部署场景中最关键的风险。
注:在评估标准文档中,会显著标明红旗和绿旗的要求。红旗指一般厂商,绿旗指优质厂商。
- 指标比市场排名更重要
许多人工智能安全产品依赖于听起来科学且可重复的评分系统。该指南鼓励买家要求与现实风险相关的可衡量且透明的指标。
对于简单系统,示例包括越狱成功率、护栏绕过率、幻觉频率和泄漏严重程度。对于RAG部署,指标应衡量对抗性负载下的检索可靠性。
对于高级系统,指标需要捕捉工具误触发频率、不安全工具调用率、MCP能力误用覆盖率以及多智能体污染率。
该指南还警告了不透明的评分系统,这些系统不解释严重性的计算方式或如何再现结果。它认为可再现性至关重要,尤其是在非确定性模型行为导致结果在不同运行中不一致的情况下。
- 运维适配性是安全测试的一部分
评估标准还侧重于实际集成问题。可靠的供应商应支持用于回归测试的持续集成/持续部署(CI/CD)集成、用于破坏性工具调用的安全沙箱,以及支持多步骤攻击确定性重放的日志记录。
数据治理被视为供应商评估的关键部分。买家应期待获得有关数据保留政策、敏感提示和输出的隔离、访问控制,以及第三方模型提供商是否接收客户数据。对于敏感环境,内部部署和自托管选项被视为至关重要。
Picking an AI red teaming vendor is getting harder
(完)
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全行者老霍 OWASP OWASP《挑选人工智能红队服务商越来越难》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论