five

AUTOBAXBENCH

收藏
arXiv2025-12-24 更新2025-12-26 收录
下载链接:
https://github.com/eth-sri/autobaxbuilder
下载链接
链接失效反馈
官方服务:
资源简介:
AUTOBAXBENCH是由苏黎世联邦理工学院等机构联合开发的代码安全基准测试数据集,旨在评估大语言模型生成代码的安全性和功能性。该数据集包含40个全新场景任务,每个任务配备OpenAPI规范描述、功能测试用例及端到端安全漏洞利用脚本,支持14种框架和6种编程语言的跨平台验证。数据通过LLM驱动的AUTOBAXBUILDER管道自动生成,采用细粒度合理性检查确保质量,平均每个任务生成耗时不到2小时且成本低于10美元。该数据集专门用于检测SQL注入、路径遍历等常见安全漏洞,为安全关键领域(如Web应用后端)的代码生成能力评估提供可靠基准。

AUTOBAXBENCH is a code security benchmark dataset jointly developed by ETH Zurich and other research institutions, designed to evaluate the security and functional performance of code generated by large language models (LLMs). This dataset comprises 40 newly constructed scenario-based tasks, each equipped with an OpenAPI specification, functional test cases, and end-to-end security vulnerability exploit scripts, enabling cross-platform validation across 14 frameworks and 6 programming languages. The dataset is automatically generated through the LLM-powered AUTOBAXBUILDER pipeline, with fine-grained sanity checks employed to guarantee data quality. On average, each task requires less than 2 hours to generate and incurs a cost of under $10. Specifically, this dataset is tailored to detect common security vulnerabilities such as SQL injection and path traversal, serving as a reliable benchmark for assessing code generation capabilities in safety-critical domains including web application backends.
提供机构:
苏黎世联邦理工学院, Snyk, 索非亚大学圣克莱门特奥赫里德斯基INSAIT研究所
创建时间:
2025-12-24
原始信息汇总

AutoBaxBuilder 数据集概述

基本信息

数据集内容与结构

数据集包含通过AutoBaxBuilder框架生成的代码安全基准测试场景(scenarios)。这些场景可用于评估代码安全性和生成测试。

场景类型

数据集包含两种类型的场景:

  • 包含CWE-400的场景:位于 src/scenarios/with_cwe_400 目录
  • 不包含CWE-400的场景:位于 src/scenarios/without_cwe_400 目录

生成模式

框架支持三种生成模式:

  1. 生成场景:创建新的基准测试场景
  2. 生成测试:为特定场景生成功能测试
  3. 生成漏洞利用:为特定场景生成安全测试

生成产物结构

对于生成的场景(例如 FooBarScenario),产物包括:

  • FooBarScenario.json:初始场景规范
  • FooBarScenario_iu{t}:经过t步测试迭代后的场景规范(JSON和Python文件)
  • FooBarScenario_iw{t}:经过t步安全迭代后的场景规范(JSON和Python文件)
  • FooBarScenario_implementations_it{t}:经过t步解决方案迭代后的解决方案
  • FooBarScenario_implementations_iu{t}:经过t步测试迭代后的解决方案
  • FooBarScenario_implementations_iw{t}:经过t步安全迭代后的解决方案
  • FooBarScenario_results_{it/iu/iw}{t}:在每个中间步骤中运行测试的结果(JSON和迭代矩阵PNG)
  • FooBarScenario_tasklist.json:存储的解决方案代码路径
  • token_usage.txtverdicts.txt:诊断日志

使用与评估

生成的 .py 产物可直接作为BaxBench框架中的新场景使用。评估过程包括:

  1. 将生成的场景文件复制到BaxBench的 src/scenarios/ 目录
  2. 在BaxBench的 src/scenarios/__init__.py 中注册新场景
  3. 运行BaxBench评估流程:
    • 为场景生成解决方案
    • 测试生成的解决方案
    • 评估结果

引用信息

bibtex @article{vonarx2025autobaxbuilderbootstrappingcodesecurity, title={AutoBaxBuilder: Bootstrapping Code Security Benchmarking}, author={Tobias von Arx and Niels Mündler and Mark Vero and Maximilian Baader and Martin Vechev}, year={2025}, eprint={2512.21132}, archivePrefix={arXiv}, }

许可证

MIT许可证。

搜集汇总
数据集介绍
main_image_url
构建方式
在代码安全评估领域,传统基准测试依赖安全专家手动构建,面临数据污染、任务扩展性和难度提升等挑战。AUTOBAXBENCH通过AUTOBAXBUILDER框架实现自动化构建,采用基于大语言模型的智能管道,从零生成包含场景描述、功能测试和安全漏洞利用的完整任务实例。该管道首先生成新颖的后端应用场景,随后分析功能需求并迭代生成测试用例,最后识别潜在漏洞并生成端到端的安全探测脚本,整个过程通过细粒度的合理性检查和执行反馈进行验证,确保生成的基准测试任务既符合现实场景又具备可重复性。
特点
AUTOBAXBENCH作为代码安全评估数据集,其核心特点在于完全自动化生成且具备可扩展的难度分级。数据集包含40个全新场景,覆盖11种高严重性通用弱点枚举(CWE),如SQL注入、跨站脚本和路径遍历等。这些场景被划分为易、中、难三个子集,分别针对不同能力的大语言模型设计,其中困难子集即使对最优模型也具有挑战性,安全通过率低于9%。与人工构建的基准相比,该数据集生成的测试更为全面,能够发现更多漏洞类型,且每个场景的平均构建成本低于4美元,时间控制在2小时以内,显著提升了基准测试的可持续性和适应性。
使用方法
该数据集主要用于评估大语言模型在生成安全后端代码方面的能力。研究人员可通过提供的REST API端点,要求模型在多种编程语言和框架中实现指定功能,随后在隔离的Docker环境中部署生成代码并执行功能测试与安全漏洞探测。评估指标包括功能正确率(pass@1)和安全正确率(sec_pass@1),后者要求代码同时通过功能测试和安全测试。数据集支持14种框架和6种编程语言,确保了评估的广泛性和语言无关性。通过动态生成不同难度的任务,该数据集能够持续适应模型能力的提升,为代码生成安全性的长期评估提供可靠基准。
背景与挑战
背景概述
AUTOBAXBENCH是由苏黎世联邦理工学院(ETH Zurich)的研究团队于2025年提出的代码安全基准数据集,旨在评估大型语言模型(LLM)生成代码的安全性与功能性。该数据集基于AUTOBAXBUILDER框架自动构建,通过生成新颖的后端应用场景、功能测试及端到端安全漏洞利用脚本,为LLM在安全关键领域(如Web应用后端)的代码生成能力提供系统化评估工具。其核心研究问题聚焦于解决传统手动构建基准的局限性,包括训练数据污染、任务扩展性不足以及难度适应性欠缺,从而推动代码生成模型在安全编码方面的可靠测评。
当前挑战
AUTOBAXBENCH面临的挑战主要体现在两个方面:其一,在领域问题层面,数据集旨在评估LLM生成代码的安全性与正确性,但现有模型在复杂后端应用中仍易产生安全漏洞(如SQL注入、路径遍历等),且模型性能随任务复杂度提升而显著下降,突显了安全编码能力的普遍不足;其二,在构建过程中,自动生成高质量基准需克服场景新颖性保障、功能测试与漏洞利用脚本的精确生成,以及避免过拟合与误报等难题,例如资源消耗类漏洞(CWE-400)的测试脚本常因阈值设定模糊而可靠性较低。
常用场景
经典使用场景
在大型语言模型(LLM)广泛用于软件工程代码生成的背景下,AUTOBAXBENCH数据集为评估LLM生成代码的安全性提供了标准化基准。该数据集通过自动化流程生成包含功能测试和安全漏洞探测脚本的完整任务实例,模拟真实后端应用场景,如网络服务接口的实现。研究者利用该数据集对LLM生成的代码进行端到端的安全测试,通过执行漏洞利用脚本来检测SQL注入、路径遍历等常见安全弱点,从而系统评估模型在生成安全代码方面的能力。
实际应用
在工业界,AUTOBAXBENCH可用于持续集成管道中,自动化测试由LLM辅助生成的代码模块的安全性。开发团队可以借助该数据集生成的测试用例,验证后端服务在部署前是否包含常见漏洞,从而降低生产环境中的安全风险。此外,安全审计工具可集成该数据集的评估框架,对LLM代码生成工具进行基准测试,帮助开发者选择更安全的代码生成模型,提升软件供应链的整体安全性。
衍生相关工作
AUTOBAXBENCH的构建方法启发了后续研究,如将自动化基准生成扩展到其他接口类型(如CLI或ABI)和更多CWE漏洞类别。相关经典工作包括基于代码仓库挖掘的基准生成方法(如SecRepoBench),以及专注于单元测试生成的LLM应用(如SWT-bench)。同时,该数据集的动态测试框架为后续研究(如Cybergym)提供了基础,促进了LLM在渗透测试和漏洞发现领域的工具化发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作