2025-12-22 04:32:56 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： XBowBenchmark是一个开源的AIWeb渗透测试能力评估工具，包含104个不同的Web安全挑战，涵盖SSRF、XSS、SQL注入等多种漏洞类型。与传统靶机不同，XBow使用独立的Docker容器确保测试的可重复性和状态持久性，更适合AI全自动化测试。该基准已成为评估攻击性安全工具的黄金标准，专业渗透测试人员成功率约59-85%，而XBowAI系统仅用28分钟就达到85%的成功率。文章还介绍了其他安全评估基准如CyBench等，为AI安全能力评估提供了多样化选择。 综合评分： 85 文章分类： AI安全,WEB安全,渗透测试,安全工具,漏洞分析

cover_image

用于评估AI Web渗透测试能力的工具：XBow Benchmark,比靶机更好

原创

孙志敏

AI与安全

2025年10月26日 10:11 北京 标题已修改

一直在做一些开源渗透测试工具的验证分析工作，对这些开源渗透测试工具的具体能力评估是个非常重要的问题。之前习惯了用靶机测试，有些效果，但这不是理想的评估方法，因为靶机基本还是为人类训练的目的设计，不太适合AI的全自动化，漏洞评分，列表也不够理想，无法做完全的自动化测试。

幸运的是，针对这个问题，业界也一直在发展，针对AI渗透能力的评估，已经有了一些不错的基准，今天介绍第一个，XBow Benchmark，已经在github上开源。

XBow致力于AI的渗透测试能力，是第一个在Hackone登顶的AI，其AI评估能力必然很强。他们的Benchmark已经受到较广泛的接受。在论文 Web 多代理渗透测试 AI 中，明确使用BOW Benchmark作为评估标准，他们的开源MAPTA 总体成功率为76.9%。另一个Cyber-AutoAgent 也使用了此评估，成功率达到81%.

XBOW 基准是什么？

XBOW 基准测试包含 104 个不同的 Web 安全挑战，每个挑战都代表一类特定的 Web 漏洞。这些精心挑选的挑战涵盖了一系列漏洞，包括服务器端请求伪造 (SSRF)、安全配置错误、授权失效、各种形式的注入（例如，服务器端模板注入、SQL 注入、命令注入）、跨站脚本 (XSS) 和 SQL 盲注入。每个挑战都提供了一个适用于端到端漏洞验证的受控场景，从而能够评估候选系统的实际可利用性，而不仅仅是理论上的检测。

该基准测试的设计通过在整个测试生命周期内使用隔离的、每个作业独立的 Docker 容器来确保可重复性和状态持久性。这使得每次测试执行期间都能保留身份验证构建、会话状态和顺序枚举。

XBow Benchmark 已成为评估攻击性安全工具的黄金标准。

数据集由第三方渗透测试公司构建，以确保真实性和新颖性：

来源多样：挑战来自 PortSwigger 和 PentesterLab 等领先的培训供应商、公开的 CTF 竞赛以及原始问题
现实场景：涵盖所有类型的漏洞，包括常见的 OWASP 十大问题和复杂的业务逻辑缺陷
新颖的内容：原始基准保证不会出现在人工智能训练数据中，迫使系统生成新的解决方案，而不是回忆记忆的例子
明确的成功标准：每个挑战都遵循 CTF 风格的旗帜夺取机制进行自动验证

人类与人工智能性能基准比较

XBOW 自身的验证研究为我们的研究结果提供了至关重要的背景。他们给五名专业渗透测试人员（从初级到高级）40个小时来解决104个基准测试：

表现最佳：首席渗透测试人员成功率达到85%
其他人员：员工级渗透测试人员成功率达到 59%，表明挑战的难度
XBOW AI系统：仅用28分钟就匹配成功率达到85%

开源主要内容

benchmark的104个场景，对应104个服务，每个服务有独立的 Dockerfile，包含应用代码和配置文件，每个容器的重点文件包括：

1. 元数据文件 (benchmark.json)

{
&nbsp;&nbsp;"name":&nbsp;"基准测试名称",
&nbsp;&nbsp;"description":&nbsp;"挑战描述",
&nbsp;&nbsp;"level":&nbsp;"1/2/3",
&nbsp;&nbsp;"win_condition":&nbsp;"flag",
&nbsp;&nbsp;"tags": ["漏洞类型"],
&nbsp;&nbsp;"canaries": ["防污染标记"]
}

2. 服务编排 (docker-compose.yml)

定义多个服务（Web、数据库等）
配置网络和端口映射
设置健康检查和依赖关系

3. Flag 注入机制

构建时通过 –build-arg FLAG=xxx 注入
默认使用基准测试名称的 SHA256 哈希
存储在容器内（如 /flag 文件）

编译构建

基于docker 文件的编译构建非常容易，不再详细介绍。

以第一个为例，构建完成后启动docker，会在32768端口生成一个web界面，有点象传统靶机了。

这是一个非常容易自动化的系统，一个容器一个容器的启动，然后让你的AI Agent去找到flag文件，如果找到并正确，就是成功，找不到就失败。最后做个统计运算就可以了，非常方便。

小结

各种Benchmark是评估AI Agent能力的基本方法，在网络安全领域，这些评测基准对于衡量AI在漏洞挖掘、渗透测试和安全防护等方面的能力尤为重要。随着AI技术的迅速发展，安全领域的Benchmark也日益丰富。除了XBow Benchmark,还有著名的CyBench专注于评估AI在真实网络攻防场景中的表现，此外还涌现出InterCode-CTF用于测试capture-the-flag挑战解决能力、NYU CTF Dataset提供多样化的安全竞赛题目、PurpleLlama CyberSec评估大模型的代码安全能力等专业基准。这些Benchmark不仅涵盖了Web安全、二进制分析、密码学等传统安全领域，还扩展到了AI自身的安全性评估。

我们将根据项目进展，持续跟踪这些安全领域的测试基准发展，特别关注其在自动化漏洞挖掘和智能安全防御方面的评测标准更新，为提升AI Agent的安全能力提供参考依据。

开源网址

https://github.com/xbow-engineering/validation-benchmarks

参考文献

Web 多代理渗透测试 AI

https://arxiv.org/html/2508.20816

Cyber-AutoAgent ,从单一代理到元代理，构建领先的开源自主网络代理

https://medium.com/data-science-collective/from-single-agent-to-meta-agent-building-the-leading-open-source-autonomous-cyber-agent-e1b704f81707

查看原文：《用于评估AI Web渗透测试能力的工具：XBow Benchmark,比靶机更好》