用于评估AIWeb渗透测试能力的工具:XBowBenchmark,比靶机更好

admin 2025-12-22 04:32:56 网络安全文章 来源:ZONE.CI 全球网 0 阅读模式

文章总结: XBowBenchmark是一个开源的AIWeb渗透测试能力评估工具,包含104个不同的Web安全挑战,涵盖SSRF、XSS、SQL注入等多种漏洞类型。与传统靶机不同,XBow使用独立的Docker容器确保测试的可重复性和状态持久性,更适合AI全自动化测试。该基准已成为评估攻击性安全工具的黄金标准,专业渗透测试人员成功率约59-85%,而XBowAI系统仅用28分钟就达到85%的成功率。文章还介绍了其他安全评估基准如CyBench等,为AI安全能力评估提供了多样化选择。 综合评分: 85 文章分类: AI安全,WEB安全,渗透测试,安全工具,漏洞分析


cover_image

用于评估AI Web渗透测试能力的工具:XBow Benchmark,比靶机更好

原创

孙志敏

AI与安全

2025年10月26日 10:11 北京 标题已修改

一直在做一些开源渗透测试工具的验证分析工作,对这些开源渗透测试工具的具体能力评估是个非常重要的问题。之前习惯了用靶机测试,有些效果,但这不是理想的评估方法,因为靶机基本还是为人类训练的目的设计,不太适合AI的全自动化,漏洞评分,列表也不够理想,无法做完全的自动化测试。

幸运的是,针对这个问题,业界也一直在发展,针对AI渗透能力的评估,已经有了一些不错的基准,今天介绍第一个,XBow Benchmark,已经在github上开源。

XBow致力于AI的渗透测试能力,是第一个在Hackone登顶的AI,其AI评估能力必然很强。他们的Benchmark已经受到较广泛的接受。在论文 Web 多代理渗透测试 AI 中,明确使用BOW Benchmark作为评估标准,他们的开源MAPTA 总体成功率为76.9%。另一个Cyber-AutoAgent 也使用了此评估,成功率达到81%.

01

XBOW 基准是什么?

XBOW 基准测试包含 104 个不同的 Web 安全挑战,每个挑战都代表一类特定的 Web 漏洞。这些精心挑选的挑战涵盖了一系列漏洞,包括服务器端请求伪造 (SSRF)、安全配置错误、授权失效、各种形式的注入(例如,服务器端模板注入、SQL 注入、命令注入)、跨站脚本 (XSS) 和 SQL 盲注入。每个挑战都提供了一个适用于端到端漏洞验证的受控场景,从而能够评估候选系统的实际可利用性,而不仅仅是理论上的检测。

该基准测试的设计通过在整个测试生命周期内使用隔离的、每个作业独立的 Docker 容器来确保可重复性和状态持久性。这使得每次测试执行期间都能保留身份验证构建、会话状态和顺序枚举。

XBow Benchmark 已成为评估攻击性安全工具的黄金标准。

数据集由第三方渗透测试公司构建,以确保真实性和新颖性:

  • 来源多样:挑战来自 PortSwigger 和 PentesterLab 等领先的培训供应商、公开的 CTF 竞赛以及原始问题
  • 现实场景:涵盖所有类型的漏洞,包括常见的 OWASP 十大问题和复杂的业务逻辑缺陷
  • 新颖的内容:原始基准保证不会出现在人工智能训练数据中,迫使系统生成新的解决方案,而不是回忆记忆的例子
  • 明确的成功标准:每个挑战都遵循 CTF 风格的旗帜夺取机制进行自动验证

人类与人工智能性能基准比较

XBOW 自身的验证研究为我们的研究结果提供了至关重要的背景。他们给五名专业渗透测试人员(从初级到高级)40个小时来解决104个基准测试:

  • 表现最佳:首席渗透测试人员成功率达到85%
  • 其他人员:员工级渗透测试人员成功率达到 59%,表明挑战的难度
  • XBOW AI系统:仅用28分钟就匹配成功率达到85%

02

开源主要内容

benchmark的104个场景,对应104个服务,每个服务有独立的 Dockerfile,包含应用代码和配置文件,每个容器的重点文件包括:

1. 元数据文件 (benchmark.json)

{
  "name": "基准测试名称",
  "description": "挑战描述",
  "level": "1/2/3",
  "win_condition": "flag",
  "tags": ["漏洞类型"],
  "canaries": ["防污染标记"]
}

2. 服务编排 (docker-compose.yml)

  • 定义多个服务(Web、数据库等)
  • 配置网络和端口映射
  • 设置健康检查和依赖关系

3. Flag 注入机制

  • 构建时通过 –build-arg FLAG=xxx 注入
  • 默认使用基准测试名称的 SHA256 哈希
  • 存储在容器内(如 /flag 文件)

03

编译构建

基于docker 文件的编译构建非常容易,不再详细介绍。

以第一个为例,构建完成后启动docker,会在32768端口生成一个web界面,有点象传统靶机了。

这是一个非常容易自动化的系统,一个容器一个容器的启动,然后让你的AI Agent去找到flag文件,如果找到并正确,就是成功,找不到就失败。最后做个统计运算就可以了,非常方便。

04

小结

各种Benchmark是评估AI Agent能力的基本方法,在网络安全领域,这些评测基准对于衡量AI在漏洞挖掘、渗透测试和安全防护等方面的能力尤为重要。随着AI技术的迅速发展,安全领域的Benchmark也日益丰富。除了XBow Benchmark,还有著名的CyBench专注于评估AI在真实网络攻防场景中的表现,此外还涌现出InterCode-CTF用于测试capture-the-flag挑战解决能力、NYU CTF Dataset提供多样化的安全竞赛题目、PurpleLlama CyberSec评估大模型的代码安全能力等专业基准。这些Benchmark不仅涵盖了Web安全、二进制分析、密码学等传统安全领域,还扩展到了AI自身的安全性评估。

我们将根据项目进展,持续跟踪这些安全领域的测试基准发展,特别关注其在自动化漏洞挖掘和智能安全防御方面的评测标准更新,为提升AI Agent的安全能力提供参考依据。

开源网址

https://github.com/xbow-engineering/validation-benchmarks

参考文献

Web 多代理渗透测试 AI

https://arxiv.org/html/2508.20816

Cyber-AutoAgent ,从单一代理到元代理,构建领先的开源自主网络代理

https://medium.com/data-science-collective/from-single-agent-to-meta-agent-building-the-leading-open-source-autonomous-cyber-agent-e1b704f81707


查看原文:《用于评估AI Web渗透测试能力的工具:XBow Benchmark,比靶机更好》

评论:0   参与:  1