文章总结: 本文提出AutoBaxBuilder,利用LLM自动化构建代码安全基准,解决人工基准扩展难、易污染及高成本问题。该框架自动生成场景、功能测试及漏洞利用脚本,构建了AUTOBAXBENCH。实验表明,其生成质量媲美甚至超越专家基准,能以低成本高效发现更多高危漏洞,精准评估并揭示了主流LLM在安全编码上的显著短板。 综合评分: 90 文章分类: AI安全,代码审计,漏洞分析,安全工具
【论文速读】| AutoBaxBuilder:代码安全基准测试的自动化构建方法
原创
知识分享者
安全极客
2025年12月30日 17:35 北京
基本信息
原文标题:AUTOBAXBUILDER: BOOTSTRAPPING CODE SECURITY BENCHMARKING
原文作者:Tobias von Arx, Niels Mündler, Mark Vero, Maximilian Baader, Martin Vechev
作者单位:ETH Zurich(瑞士联邦理工学院苏黎世分校)、Snyk、INSAIT(保加利亚索菲亚大学)
关键词:大语言模型(LLM)、代码安全、基准测试、自动化、端到端漏洞检测、BAXBENCH
原文链接:https://arxiv.org/pdf/2512.21132
开源代码:https://github.com/eth-sri/autobaxbuilder
论文要点
论文简介:随着大语言模型(LLM)在软件工程领域的广泛应用,对其生成代码的正确性和安全性进行可靠评估日益重要。然而,以往的研究表明,LLM常常忽视安全性,导致生成代码存在严重漏洞,相关评测主要依赖安全专家耗时大量手工打造的基准(如BAXBENCH)。这种人工基准存在训练污染、任务扩展和难度升级受限等问题,难以满足长期、安全评估的需求。
为此,本文提出AUTOBAXBUILDER——一个能够“从零自动构建”代码安全基准任务与测试的全自动流程式框架,充分利用LLM理解能力,自动生成场景、功能测试用例以及端到端漏洞利用脚本,并内嵌多层次可行性校验机制。作者对比了AUTOBAXBUILDER生成的任务与专家人工基准的质效,系统性地扩展和增强BAXBENCH,同时通过该工具大规模指标化分析主流LLM的安全编码能力,发现新构造任务的效率和成本非常可观。
研究目的:
论文旨在从根本上解决当前代码安全基准构建高度依赖专家手工、扩展和难度升级受限、训练污染风险大等问题,提出一种能够自动化、低成本、大规模、动态生成新型安全评测基准的技术路线,支撑长期可持续地严苛评估LLM驱动代码生成的功能正确性和安全性。作者的目标包括匹配或超越人工基准在功能和安全性判别的严格性,实现任务场景的快速多样化生成,显著降低人工审核投入,并支撑评测场景的动态升级、扩展至更多漏洞类型与应用场景。
研究贡献:
- 首次提出一套可自动生成新型代码安全评测基准(自动化任务、功能测试、安全利用脚本三位一体),所需人工极低,严格遵循BAXBENCH的设计原则。
- 实验证明,本方法生成的功能和安全基准,在同一任务上与专家手写基准匹配度高、判别性甚至更强,能发掘更多类型的漏洞,提升整体安全覆盖率。
- 利用AUTOBAXBUILDER自动生成40个全新场景(AUTOBAXBENCH),涵盖三种难度分档,任务规模和难度均实现倍增,并系统评测多个SOTA LLM模型,全面揭示其在安全编码方面的显著短板。
- 公开发布AUTOBAXBUILDER工具链以及全新自动化安全基准数据集,极大促进长远的LLM代码安全评测与研究。
引言
当前,基于大语言模型生成的代码在实际应用中日益普及,但随之而来的安全风险成为重大隐患。一次微小的代码漏洞泄露到生产环境,可能造成整个系统的沦陷。尤其是在Web应用后端等面向公网和高价值目标领域,代码安全评测日益成为刚需。然而,现有LLM生成代码的评测体系在“正确性”和“安全性”两个维度上往往割裂,缺乏端到端、一体化的安全评测。此前工作如BAXBENCH通过执行完整利用(exploit)验证方法,可以有效检测出“真正危及系统”的实际漏洞,而不受静态分析误报影响,但这类基准完全基于安全专家手工构建,每扩展一个新场景都需耗费数小时。
长远看来,手工基准构建模式面临三大难题:(i)基准内容容易被LLM训练语料污染,从而评估结果失真;(ii)人工扩展效率低,难以跟上LLM能力提升需求,易导致任务单调、覆盖面有限;(iii)易错失更具挑战性的新型攻击矢量,无法满足未来更强LLM的评测升级。
为解决上述瓶颈,作者提出探索全自动化的代码安全基准构建流程,希望借助LLM的强大代码理解与推理能力,令模型不仅生成代码,还能自主产出“高质量难题”——包括全新任务描述、功能测试、漏洞分析和自动化exploit脚本。该流程需内嵌多轮迭代与精细校验,确保自动生成的基准在功能、无限制性和攻击严苛度等方面与专家手工基准相媲美。最终目标,是实现持续、高效、安全、动态升级的LLM自动化安全评测体系,推动代码生成模型由“正确”到“安全可靠”跨越。
研究背景
当前关于LLM代码安全能力的评测主要存在两大技术路径:一类是依赖静态分析工具,对生成代码中的潜在安全风险进行扫描(如SAST工具、静态漏洞检测等);另一类则强调动态端到端利用测试,通过实际攻击流程验证系统真实安全性。静态分析虽然自动化程度高,但存在高误报、低覆盖、受限于语言和框架等局限性。动态利用方法——如BAXBENCH——通过OpenAPI描述驱动的多框架、多语言后端场景构建,结合功能和安全两类自动测试脚本,大大提升了评测的现实相关性和判别能力。
除了源于人工构建的基准,多项研究尝试从真实开源项目中挖掘安全与功能测例,或利用LLM自动化生成补丁、测试用例等,但全面、难度可控且能一体化涵盖功能与端到端漏洞利用的自动化“基准生成”仍是空白。仅有少量工作尝试利用LLM协助生成单函数层面的安全测试,而本文则首次实现了完整从任务场景到全链路测试用例、再到自动化脚本的生成与迭代。BAXBENCH的成功验证了这种“可复现、可攻击”的基准能够有效揭示LLM安全短板,但其高人力消耗瓶颈始终悬而未解。因此,急需一条大规模、低成本、智能化升级的代码安全基准生成技术路径,推动领域评测与基准建设迈入新阶段。
AUTOBAXBUILDER方法框架详解
AUTOBAXBUILDER提出了一套由大语言模型(LLMs)驱动、三步法迭代的自动化代码安全基准生成管线。整体设计目标是无需人工干预,自动产出结构清晰、判别性强且能复现实际漏洞攻击全过程的评测基准。该流程覆盖三个关键子模块:
- 任务场景与参考实现生成
自动化流程的第一环由主控LLM(Orchestrator LLM)触发,其输入仅包括基础prompt和用于去重的已生成场景列表。模型首先自主生成一个全新、具备现实攻击面的Web后端应用场景(如“SVG徽章生成器”),要求用OpenAPI形式精确定义接口规格,并补充自然语言任务描述。此过程通过严格的可行性和去重检查,确保场景既新颖又合理。随后,辅助LLM集合被动用以实现这些场景的不同参考实现,为后续功能与安全性测试的生成和差异化校验提供多样语境。
- 功能测试用例自动生成与精细迭代
在功能测试生成阶段,主控LLM基于自然语言描述和OpenAPI规范,自动提出覆盖核心功能的测试需求点,如接口返回、状态码校验、输出内容一致性等。每一个需求点均被转化为可执行的、判别性强的自动化测试脚本。难点在于LLM需通过连续迭代,判断测试失败的根因属于实现缺陷还是测试逻辑不准。流程采用双向精细校验法:首先对实现做无歧义的技术修正(如类型/框架适配等非功能性错误),确保所有测试仅捕捉真正的功能错误。再由LLM结合抽象化错误分析,对测试脚本和参考实现双向微调,直至至少存在一份完善实现能通过全部功能测试,从而证明测试判别力的充分性且无过拟合。
- 漏洞挖掘与安全利用脚本生成
安全性评测子模块聚焦从场景和实现中自动挖掘隐含的攻击面,主控LLM首先对规范与参考实现分别做系统漏洞分析,罗列所有可能真实触发的高风险CWE攻击路径。如发现“用户输入未做转义”则对应XSS或SQL注入等。对应每一漏洞策略,LLM自动生成端到端可复现的exploit脚本,再对拍板实现分别做“去安全化”与“加固”,以严格判定攻击实际是否生效。该轮回在每个漏洞和实现之间执行,直到找到可区分“加固/未加固”两类实现的最小化利用脚本,且剔除所有测试误报与不成立点。整个流程内置pseudocode/流程图、外部执行反馈和辅助小工具(如临时文件、随机flag生成等),以大幅度提升自动基准判别严谨度和鲁棒性。
综上,AUTOBAXBUILDER自主输出的每一份安全评测基准,均包括:明确定义的API场景、全覆盖功能测试用例、可复现且严格划分攻击成功与失败的端到端安全利用脚本,确保既能高效扩充基准规模,又保障测评公正性、通用性和可复现性。
实验评估
作者通过全面实验,系统性地评估了AUTOBAXBUILDER的流程效能、生成基准质量以及对主流LLM代码安全能力的判别力。
- 验证自动生成基准的质量与人工基准对齐度
实验首步对比了AUTOBAXBUILDER自动生成的测试用例和攻击脚本与BAXBENCH中3小时专家人工打造的基准。量化指标涵盖功能判别准确率(pass@1)、安全判别准确率(sec_pass@1)、覆盖CWE类型数、判别难度等维度。
结果显示:自动基准能高度还原甚至超越专家标准,在39%的场景下发现了BAXBENCH未检测到的新型漏洞或攻击向量(如额外发现OS注入等);21%场景下实现了更优漏洞覆盖度。自动化评测在功能判别正负一致率达83.5%;在安全判别上,自动基准对同一实现揭示出更多真实安全隐患,其判别粒度和严苛度全面优于人工基准。
- 构建并分析全新大规模安全基准AUTOBAXBENCH
利用AUTOBAXBUILDER,作者自动扩展出了40个全新评测场景,涵盖三种难度梯度(EASY/MEDIUM/HARD),对BAXBENCH实现倍量增长。每个场景平均包含更多API接口、token长度和漏洞类型,难度显著提升。所有新基准仅需平均2小时/成本不足4美元生成,极大降低了人工审查和维护压力。
统计分析表明,AUTOBAXBENCH在难度、判别能力、场景丰富性和功能安全双重测试上均超越以往标准,为小模型提供了易测版本,为最顶尖模型设置了极具挑战的难度边界(最高模型在HARD集仅有25%安全通过率)。
- LLM横向安全能力评测
在新旧基准上,作者对包括GPT-5、Claude 4.5、Gemini 2.5 Pro、Grok4、Qwen等8款代表性LLM,以及多范式闭源/开源模型,进行自动化功能和安全双重评测。结果显示,各模型在功能通过率与原BAXBENCH高度一致,但在自动化安全基准下“安全通过率”大幅下降,且SOTA模型在多场景下依然存在明显安全漏洞。
专家评审进一步确认生成测试/漏洞脚本的高质量与实际有效性,验证了自动化基准拉高了LLM安全能力的评估门槛和判别准确性。
此外,实验还考察了流程中各LLM组合、Ablation测试和CWE类别的适应性,证实AUTOBAXBUILDER极具模型和任务泛化能力。
研究讨论
本文提出的AUTOBAXBUILDER,响应了LLM自动化评测系统长期可持续发展的核心需求。其通过LLM强引导下的多轮判别与迭代,成功将人力密集型基准更新“端到端自动化”,具备高效扩展、动态升级、自动调控难度等优势。多轮内置验证机制与专家评审保障了输出基准的判别性与鲁棒性,即便自动化生成亦可媲美专家标准,甚至发现更多未被人工覆盖的新型高危漏洞。
然而,方法当前仍存在部分挑战,如对某些类型漏洞(CWE-400资源消耗)存在过敏判别或误报、部分攻击覆盖未完全穷举、极小概率被单一解决方案误导等。未来工作将致力于提升漏洞扫描和攻击用例的多样性、泛化性及对新兴攻击面的覆盖能力,并推向ABI接口、CLI等更广泛后端领域,以及支持更复杂的身份认证、权限管控等高级安全机制场景。持续动态迭代、协同人机校验,以及与各类自动化基准融合,有望推动LLM安全性能评测形成“不断进化-自动升级”的闭环体系,助力安全可信代码自动生成和部署。
论文结论
论文提出的AUTOBAXBUILDER,创新性地解决了LLM代码安全基准长期依赖人工打造、难以扩展和动态升级的制约,实现了以极低人工成本、严格判别力和强扩展性为核心特征的自动化基准生成框架。得益于方法强大自动化能力和多轮迭代性,所生成新任务和测试覆盖面广、攻击方式丰富,能有效弥补人工基准盲点并提升难度等级,为LLM模型安全可靠性评测提供了可持续、动态、可复现的一体化新范式。尽管目前仍存在部分类型漏洞误报范围难以精确控制、部分高级攻击矢量仍需探索等局限,但该工作为未来大规模、动态升级的LLM代码安全评测体系奠定了扎实技术基础。公开的数据集及工具链为学界和产业带来重要参考与资源,有力促进代码自动生成领域的安全性、可靠性与前瞻性发展。
-End-
免责声明:
本文所载程序、技术方法仅面向合法合规的安全研究与教学场景,旨在提升网络安全防护能力,具有明确的技术研究属性。
任何单位或个人未经授权,将本文内容用于攻击、破坏等非法用途的,由此引发的全部法律责任、民事赔偿及连带责任,均由行为人独立承担,本站不承担任何连带责任。
本站内容均为技术交流与知识分享目的发布,若存在版权侵权或其他异议,请通过邮件联系处理,具体联系方式可点击页面上方的联系我。
本文转载自:安全极客 知识分享者《【论文速读】| AutoBaxBuilder:代码安全基准测试的自动化构建方法》
版权声明
本站仅做备份收录,仅供研究与教学参考之用。
读者将信息用于其他用途的,全部法律及连带责任由读者自行承担,本站不承担任何责任。









评论