2025-12-31 00:56:15 网络安全文章来源：ZONE.CI 全球网 0 阅读模式

文章总结： 本文提出AutoBaxBuilder，利用LLM自动化构建代码安全基准，解决人工基准扩展难、易污染及高成本问题。该框架自动生成场景、功能测试及漏洞利用脚本，构建了AUTOBAXBENCH。实验表明，其生成质量媲美甚至超越专家基准，能以低成本高效发现更多高危漏洞，精准评估并揭示了主流LLM在安全编码上的显著短板。 综合评分： 90 文章分类： AI安全,代码审计,漏洞分析,安全工具

cover_image

【论文速读】| AutoBaxBuilder：代码安全基准测试的自动化构建方法

原创

知识分享者

安全极客

2025年12月30日 17:35 北京

基本信息

原文标题：AUTOBAXBUILDER: BOOTSTRAPPING CODE SECURITY BENCHMARKING

原文作者：Tobias von Arx, Niels Mündler, Mark Vero, Maximilian Baader, Martin Vechev

作者单位：ETH Zurich（瑞士联邦理工学院苏黎世分校）、Snyk、INSAIT（保加利亚索菲亚大学）

关键词：大语言模型（LLM）、代码安全、基准测试、自动化、端到端漏洞检测、BAXBENCH

原文链接：https://arxiv.org/pdf/2512.21132

开源代码：https://github.com/eth-sri/autobaxbuilder

论文要点

论文简介：随着大语言模型（LLM）在软件工程领域的广泛应用，对其生成代码的正确性和安全性进行可靠评估日益重要。然而，以往的研究表明，LLM常常忽视安全性，导致生成代码存在严重漏洞，相关评测主要依赖安全专家耗时大量手工打造的基准（如BAXBENCH）。这种人工基准存在训练污染、任务扩展和难度升级受限等问题，难以满足长期、安全评估的需求。

为此，本文提出AUTOBAXBUILDER——一个能够“从零自动构建”代码安全基准任务与测试的全自动流程式框架，充分利用LLM理解能力，自动生成场景、功能测试用例以及端到端漏洞利用脚本，并内嵌多层次可行性校验机制。作者对比了AUTOBAXBUILDER生成的任务与专家人工基准的质效，系统性地扩展和增强BAXBENCH，同时通过该工具大规模指标化分析主流LLM的安全编码能力，发现新构造任务的效率和成本非常可观。

研究目的：

论文旨在从根本上解决当前代码安全基准构建高度依赖专家手工、扩展和难度升级受限、训练污染风险大等问题，提出一种能够自动化、低成本、大规模、动态生成新型安全评测基准的技术路线，支撑长期可持续地严苛评估LLM驱动代码生成的功能正确性和安全性。作者的目标包括匹配或超越人工基准在功能和安全性判别的严格性，实现任务场景的快速多样化生成，显著降低人工审核投入，并支撑评测场景的动态升级、扩展至更多漏洞类型与应用场景。

研究贡献：

首次提出一套可自动生成新型代码安全评测基准（自动化任务、功能测试、安全利用脚本三位一体），所需人工极低，严格遵循BAXBENCH的设计原则。
实验证明，本方法生成的功能和安全基准，在同一任务上与专家手写基准匹配度高、判别性甚至更强，能发掘更多类型的漏洞，提升整体安全覆盖率。
利用AUTOBAXBUILDER自动生成40个全新场景（AUTOBAXBENCH），涵盖三种难度分档，任务规模和难度均实现倍增，并系统评测多个SOTA LLM模型，全面揭示其在安全编码方面的显著短板。
公开发布AUTOBAXBUILDER工具链以及全新自动化安全基准数据集，极大促进长远的LLM代码安全评测与研究。

引言

当前，基于大语言模型生成的代码在实际应用中日益普及，但随之而来的安全风险成为重大隐患。一次微小的代码漏洞泄露到生产环境，可能造成整个系统的沦陷。尤其是在Web应用后端等面向公网和高价值目标领域，代码安全评测日益成为刚需。然而，现有LLM生成代码的评测体系在“正确性”和“安全性”两个维度上往往割裂，缺乏端到端、一体化的安全评测。此前工作如BAXBENCH通过执行完整利用（exploit）验证方法，可以有效检测出“真正危及系统”的实际漏洞，而不受静态分析误报影响，但这类基准完全基于安全专家手工构建，每扩展一个新场景都需耗费数小时。

长远看来，手工基准构建模式面临三大难题：（i）基准内容容易被LLM训练语料污染，从而评估结果失真；（ii）人工扩展效率低，难以跟上LLM能力提升需求，易导致任务单调、覆盖面有限；（iii）易错失更具挑战性的新型攻击矢量，无法满足未来更强LLM的评测升级。

为解决上述瓶颈，作者提出探索全自动化的代码安全基准构建流程，希望借助LLM的强大代码理解与推理能力，令模型不仅生成代码，还能自主产出“高质量难题”——包括全新任务描述、功能测试、漏洞分析和自动化exploit脚本。该流程需内嵌多轮迭代与精细校验，确保自动生成的基准在功能、无限制性和攻击严苛度等方面与专家手工基准相媲美。最终目标，是实现持续、高效、安全、动态升级的LLM自动化安全评测体系，推动代码生成模型由“正确”到“安全可靠”跨越。

研究背景

当前关于LLM代码安全能力的评测主要存在两大技术路径：一类是依赖静态分析工具，对生成代码中的潜在安全风险进行扫描（如SAST工具、静态漏洞检测等）；另一类则强调动态端到端利用测试，通过实际攻击流程验证系统真实安全性。静态分析虽然自动化程度高，但存在高误报、低覆盖、受限于语言和框架等局限性。动态利用方法——如BAXBENCH——通过OpenAPI描述驱动的多框架、多语言后端场景构建，结合功能和安全两类自动测试脚本，大大提升了评测的现实相关性和判别能力。

除了源于人工构建的基准，多项研究尝试从真实开源项目中挖掘安全与功能测例，或利用LLM自动化生成补丁、测试用例等，但全面、难度可控且能一体化涵盖功能与端到端漏洞利用的自动化“基准生成”仍是空白。仅有少量工作尝试利用LLM协助生成单函数层面的安全测试，而本文则首次实现了完整从任务场景到全链路测试用例、再到自动化脚本的生成与迭代。BAXBENCH的成功验证了这种“可复现、可攻击”的基准能够有效揭示LLM安全短板，但其高人力消耗瓶颈始终悬而未解。因此，急需一条大规模、低成本、智能化升级的代码安全基准生成技术路径，推动领域评测与基准建设迈入新阶段。

AUTOBAXBUILDER方法框架详解

AUTOBAXBUILDER提出了一套由大语言模型（LLMs）驱动、三步法迭代的自动化代码安全基准生成管线。整体设计目标是无需人工干预，自动产出结构清晰、判别性强且能复现实际漏洞攻击全过程的评测基准。该流程覆盖三个关键子模块：

任务场景与参考实现生成

自动化流程的第一环由主控LLM(Orchestrator LLM)触发，其输入仅包括基础prompt和用于去重的已生成场景列表。模型首先自主生成一个全新、具备现实攻击面的Web后端应用场景（如“SVG徽章生成器”），要求用OpenAPI形式精确定义接口规格，并补充自然语言任务描述。此过程通过严格的可行性和去重检查，确保场景既新颖又合理。随后，辅助LLM集合被动用以实现这些场景的不同参考实现，为后续功能与安全性测试的生成和差异化校验提供多样语境。

功能测试用例自动生成与精细迭代

在功能测试生成阶段，主控LLM基于自然语言描述和OpenAPI规范，自动提出覆盖核心功能的测试需求点，如接口返回、状态码校验、输出内容一致性等。每一个需求点均被转化为可执行的、判别性强的自动化测试脚本。难点在于LLM需通过连续迭代，判断测试失败的根因属于实现缺陷还是测试逻辑不准。流程采用双向精细校验法：首先对实现做无歧义的技术修正（如类型/框架适配等非功能性错误），确保所有测试仅捕捉真正的功能错误。再由LLM结合抽象化错误分析，对测试脚本和参考实现双向微调，直至至少存在一份完善实现能通过全部功能测试，从而证明测试判别力的充分性且无过拟合。

漏洞挖掘与安全利用脚本生成

安全性评测子模块聚焦从场景和实现中自动挖掘隐含的攻击面，主控LLM首先对规范与参考实现分别做系统漏洞分析，罗列所有可能真实触发的高风险CWE攻击路径。如发现“用户输入未做转义”则对应XSS或SQL注入等。对应每一漏洞策略，LLM自动生成端到端可复现的exploit脚本，再对拍板实现分别做“去安全化”与“加固”，以严格判定攻击实际是否生效。该轮回在每个漏洞和实现之间执行，直到找到可区分“加固/未加固”两类实现的最小化利用脚本，且剔除所有测试误报与不成立点。整个流程内置pseudocode/流程图、外部执行反馈和辅助小工具（如临时文件、随机flag生成等），以大幅度提升自动基准判别严谨度和鲁棒性。

综上，AUTOBAXBUILDER自主输出的每一份安全评测基准，均包括：明确定义的API场景、全覆盖功能测试用例、可复现且严格划分攻击成功与失败的端到端安全利用脚本，确保既能高效扩充基准规模，又保障测评公正性、通用性和可复现性。

实验评估

作者通过全面实验，系统性地评估了AUTOBAXBUILDER的流程效能、生成基准质量以及对主流LLM代码安全能力的判别力。

验证自动生成基准的质量与人工基准对齐度

实验首步对比了AUTOBAXBUILDER自动生成的测试用例和攻击脚本与BAXBENCH中3小时专家人工打造的基准。量化指标涵盖功能判别准确率（pass@1）、安全判别准确率（sec_pass@1）、覆盖CWE类型数、判别难度等维度。

结果显示：自动基准能高度还原甚至超越专家标准，在39%的场景下发现了BAXBENCH未检测到的新型漏洞或攻击向量（如额外发现OS注入等）；21%场景下实现了更优漏洞覆盖度。自动化评测在功能判别正负一致率达83.5%；在安全判别上，自动基准对同一实现揭示出更多真实安全隐患，其判别粒度和严苛度全面优于人工基准。

构建并分析全新大规模安全基准AUTOBAXBENCH

利用AUTOBAXBUILDER，作者自动扩展出了40个全新评测场景，涵盖三种难度梯度（EASY/MEDIUM/HARD），对BAXBENCH实现倍量增长。每个场景平均包含更多API接口、token长度和漏洞类型，难度显著提升。所有新基准仅需平均2小时/成本不足4美元生成，极大降低了人工审查和维护压力。

统计分析表明，AUTOBAXBENCH在难度、判别能力、场景丰富性和功能安全双重测试上均超越以往标准，为小模型提供了易测版本，为最顶尖模型设置了极具挑战的难度边界（最高模型在HARD集仅有25%安全通过率）。

LLM横向安全能力评测

在新旧基准上，作者对包括GPT-5、Claude 4.5、Gemini 2.5 Pro、Grok4、Qwen等8款代表性LLM，以及多范式闭源/开源模型，进行自动化功能和安全双重评测。结果显示，各模型在功能通过率与原BAXBENCH高度一致，但在自动化安全基准下“安全通过率”大幅下降，且SOTA模型在多场景下依然存在明显安全漏洞。

专家评审进一步确认生成测试/漏洞脚本的高质量与实际有效性，验证了自动化基准拉高了LLM安全能力的评估门槛和判别准确性。

此外，实验还考察了流程中各LLM组合、Ablation测试和CWE类别的适应性，证实AUTOBAXBUILDER极具模型和任务泛化能力。

研究讨论

本文提出的AUTOBAXBUILDER，响应了LLM自动化评测系统长期可持续发展的核心需求。其通过LLM强引导下的多轮判别与迭代，成功将人力密集型基准更新“端到端自动化”，具备高效扩展、动态升级、自动调控难度等优势。多轮内置验证机制与专家评审保障了输出基准的判别性与鲁棒性，即便自动化生成亦可媲美专家标准，甚至发现更多未被人工覆盖的新型高危漏洞。

然而，方法当前仍存在部分挑战，如对某些类型漏洞（CWE-400资源消耗）存在过敏判别或误报、部分攻击覆盖未完全穷举、极小概率被单一解决方案误导等。未来工作将致力于提升漏洞扫描和攻击用例的多样性、泛化性及对新兴攻击面的覆盖能力，并推向ABI接口、CLI等更广泛后端领域，以及支持更复杂的身份认证、权限管控等高级安全机制场景。持续动态迭代、协同人机校验，以及与各类自动化基准融合，有望推动LLM安全性能评测形成“不断进化-自动升级”的闭环体系，助力安全可信代码自动生成和部署。

论文结论

论文提出的AUTOBAXBUILDER，创新性地解决了LLM代码安全基准长期依赖人工打造、难以扩展和动态升级的制约，实现了以极低人工成本、严格判别力和强扩展性为核心特征的自动化基准生成框架。得益于方法强大自动化能力和多轮迭代性，所生成新任务和测试覆盖面广、攻击方式丰富，能有效弥补人工基准盲点并提升难度等级，为LLM模型安全可靠性评测提供了可持续、动态、可复现的一体化新范式。尽管目前仍存在部分类型漏洞误报范围难以精确控制、部分高级攻击矢量仍需探索等局限，但该工作为未来大规模、动态升级的LLM代码安全评测体系奠定了扎实技术基础。公开的数据集及工具链为学界和产业带来重要参考与资源，有力促进代码自动生成领域的安全性、可靠性与前瞻性发展。

-End-

免责声明：

本文所载程序、技术方法仅面向合法合规的安全研究与教学场景，旨在提升网络安全防护能力，具有明确的技术研究属性。

任何单位或个人未经授权，将本文内容用于攻击、破坏等非法用途的，由此引发的全部法律责任、民事赔偿及连带责任，均由行为人独立承担，本站不承担任何连带责任。

本站内容均为技术交流与知识分享目的发布，若存在版权侵权或其他异议，请通过邮件联系处理，具体联系方式可点击页面上方的联系我。

本文转载自：安全极客知识分享者《【论文速读】| AutoBaxBuilder：代码安全基准测试的自动化构建方法》