文章总结: XBowBenchmark是一个开源的AIWeb渗透测试能力评估工具,包含104个不同的Web安全挑战,涵盖SSRF、XSS、SQL注入等多种漏洞类型。与传统靶机不同,XBow使用独立的Docker容器确保测试的可重复性和状态持久性,更适合AI全自动化测试。该基准已成为评估攻击性安全工具的黄金标准,专业渗透测试人员成功率约59-85%,而XBowAI系统仅用28分钟就达到85%的成功率。文章还介绍了其他安全评估基准如CyBench等,为AI安全能力评估提供了多样化选择。 综合评分: 85 文章分类: AI安全,WEB安全,渗透测试,安全工具,漏洞分析
用于评估AI Web渗透测试能力的工具:XBow Benchmark,比靶机更好
原创
孙志敏
AI与安全
2025年10月26日 10:11 北京 标题已修改
一直在做一些开源渗透测试工具的验证分析工作,对这些开源渗透测试工具的具体能力评估是个非常重要的问题。之前习惯了用靶机测试,有些效果,但这不是理想的评估方法,因为靶机基本还是为人类训练的目的设计,不太适合AI的全自动化,漏洞评分,列表也不够理想,无法做完全的自动化测试。
幸运的是,针对这个问题,业界也一直在发展,针对AI渗透能力的评估,已经有了一些不错的基准,今天介绍第一个,XBow Benchmark,已经在github上开源。
XBow致力于AI的渗透测试能力,是第一个在Hackone登顶的AI,其AI评估能力必然很强。他们的Benchmark已经受到较广泛的接受。在论文 Web 多代理渗透测试 AI 中,明确使用BOW Benchmark作为评估标准,他们的开源MAPTA 总体成功率为76.9%。另一个Cyber-AutoAgent 也使用了此评估,成功率达到81%.
01
XBOW 基准是什么?
XBOW 基准测试包含 104 个不同的 Web 安全挑战,每个挑战都代表一类特定的 Web 漏洞。这些精心挑选的挑战涵盖了一系列漏洞,包括服务器端请求伪造 (SSRF)、安全配置错误、授权失效、各种形式的注入(例如,服务器端模板注入、SQL 注入、命令注入)、跨站脚本 (XSS) 和 SQL 盲注入。每个挑战都提供了一个适用于端到端漏洞验证的受控场景,从而能够评估候选系统的实际可利用性,而不仅仅是理论上的检测。
该基准测试的设计通过在整个测试生命周期内使用隔离的、每个作业独立的 Docker 容器来确保可重复性和状态持久性。这使得每次测试执行期间都能保留身份验证构建、会话状态和顺序枚举。
XBow Benchmark 已成为评估攻击性安全工具的黄金标准。
数据集由第三方渗透测试公司构建,以确保真实性和新颖性:
- 来源多样:挑战来自 PortSwigger 和 PentesterLab 等领先的培训供应商、公开的 CTF 竞赛以及原始问题
- 现实场景:涵盖所有类型的漏洞,包括常见的 OWASP 十大问题和复杂的业务逻辑缺陷
- 新颖的内容:原始基准保证不会出现在人工智能训练数据中,迫使系统生成新的解决方案,而不是回忆记忆的例子
- 明确的成功标准:每个挑战都遵循 CTF 风格的旗帜夺取机制进行自动验证
人类与人工智能性能基准比较
XBOW 自身的验证研究为我们的研究结果提供了至关重要的背景。他们给五名专业渗透测试人员(从初级到高级)40个小时来解决104个基准测试:
- 表现最佳:首席渗透测试人员成功率达到85%
- 其他人员:员工级渗透测试人员成功率达到 59%,表明挑战的难度
- XBOW AI系统:仅用28分钟就匹配成功率达到85%
02
开源主要内容
benchmark的104个场景,对应104个服务,每个服务有独立的 Dockerfile,包含应用代码和配置文件,每个容器的重点文件包括:
1. 元数据文件 (benchmark.json)
{
"name": "基准测试名称",
"description": "挑战描述",
"level": "1/2/3",
"win_condition": "flag",
"tags": ["漏洞类型"],
"canaries": ["防污染标记"]
}
2. 服务编排 (docker-compose.yml)
- 定义多个服务(Web、数据库等)
- 配置网络和端口映射
- 设置健康检查和依赖关系
3. Flag 注入机制
- 构建时通过 –build-arg FLAG=xxx 注入
- 默认使用基准测试名称的 SHA256 哈希
- 存储在容器内(如 /flag 文件)
03
编译构建
基于docker 文件的编译构建非常容易,不再详细介绍。
以第一个为例,构建完成后启动docker,会在32768端口生成一个web界面,有点象传统靶机了。
这是一个非常容易自动化的系统,一个容器一个容器的启动,然后让你的AI Agent去找到flag文件,如果找到并正确,就是成功,找不到就失败。最后做个统计运算就可以了,非常方便。
04
小结
各种Benchmark是评估AI Agent能力的基本方法,在网络安全领域,这些评测基准对于衡量AI在漏洞挖掘、渗透测试和安全防护等方面的能力尤为重要。随着AI技术的迅速发展,安全领域的Benchmark也日益丰富。除了XBow Benchmark,还有著名的CyBench专注于评估AI在真实网络攻防场景中的表现,此外还涌现出InterCode-CTF用于测试capture-the-flag挑战解决能力、NYU CTF Dataset提供多样化的安全竞赛题目、PurpleLlama CyberSec评估大模型的代码安全能力等专业基准。这些Benchmark不仅涵盖了Web安全、二进制分析、密码学等传统安全领域,还扩展到了AI自身的安全性评估。
我们将根据项目进展,持续跟踪这些安全领域的测试基准发展,特别关注其在自动化漏洞挖掘和智能安全防御方面的评测标准更新,为提升AI Agent的安全能力提供参考依据。
开源网址
https://github.com/xbow-engineering/validation-benchmarks
参考文献
Web 多代理渗透测试 AI
https://arxiv.org/html/2508.20816
Cyber-AutoAgent ,从单一代理到元代理,构建领先的开源自主网络代理
https://medium.com/data-science-collective/from-single-agent-to-meta-agent-building-the-leading-open-source-autonomous-cyber-agent-e1b704f81707
查看原文:《用于评估AI Web渗透测试能力的工具:XBow Benchmark,比靶机更好》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。










评论