AutoBaxBench

Hugging Face2025-12-05 更新2025-12-06 收录

下载链接：

https://huggingface.co/datasets/tvonarx/AutoBaxBench

下载链接

链接失效反馈

官方服务：

资源简介：

AutoBaxBench是一个代理生成的编码基准，旨在衡量代码生成模型和代理生成正确和安全代码的能力。基准包含来自40个AutoBaxBuilder生成场景的560个后端开发任务，覆盖14个后端框架和3个难度级别。具体来说，这里提供的数据集为每个任务定义了完整的场景规范，并可直接用于生成解决方案。为了评估解决方案，AutoBaxBench为场景提供了功能测试和端到端安全测试。这些测试包含在[TODO]的`src/scenarios`目录中。原始的人工策划的BaxBench场景集可在[LogicStar/BaxBench](https://huggingface.co/datasets/LogicStar/BaxBench)找到。

创建时间：

2025-12-04

原始信息汇总

AutoBaxBench 数据集概述

数据集简介

AutoBaxBench 是一个通过智能体生成的编码基准测试，旨在衡量代码生成模型和智能体生成正确且安全代码的能力。该基准测试包含来自 40 个 AutoBaxBuilder 生成场景 的 560 个后端开发任务，覆盖 14 个后端框架 和 3 个难度级别。具体而言，此处提供的数据集为每个任务定义了完整的场景规范，可直接与 BaxBench 框架结合使用以生成解决方案。

数据集构成

任务总数：560（40 个场景 × 14 个框架）
场景：40 个 AutoBaxBuilder 生成的场景
- 简单：10 个场景
- 中等：20 个场景
- 困难：10 个场景
框架：14 个后端框架
- Python：aiohttp, Django, FastAPI, Flask
- JavaScript/TypeScript：express, fastify, koa, nest
- Go：Fiber, Gin, net/http
- PHP：Lumen
- Ruby：Rails
- Rust：Actix

数据字段说明

每一行代表一个任务（场景与框架的组合）：

task_id：唯一标识符（例如 "EmailTemplatePreview-Python-FastAPI"）
scenario_id：场景名称
env_id：框架标识符（例如 "Python-FastAPI"）
api_specification：OpenAPI 规范
text_specification：自然语言描述
short_app_description：简洁描述
scenario_instructions：框架特定的实现提示
needs_db：场景是否需要数据库
needs_secret：场景是否需要密钥管理
needed_packages：所需的系统包
potential_cwes：测试的 CWE 漏洞类型列表（CWE-703 始终由基础设施隐式测试）
env_language：编程语言
env_extension：文件扩展名
env_framework：框架名称
env_multifile：是否需要多个文件
code_filename：单文件项目的目标文件名
entrypoint_cmd：启动服务器的命令
allowed_packages：包清单内容
env_instructions：框架特定的设置说明
port：服务器端口

数据集生成

该数据集是从运行 AutoBaxBuilder 流水线产生的工件中自动生成的，并作为论文和基准测试的一部分发布。

评估与测试

AutoBaxBench 为场景提供了功能测试和端到端安全测试，用于评估解决方案。

相关资源

原始人工整理的 BaxBench 场景集位于：https://huggingface.co/datasets/LogicStar/BaxBench
许可证：MIT

搜集汇总

数据集介绍

构建方式

在软件工程与网络安全交叉领域，AutoBaxBench数据集通过自动化流程构建而成。其核心生成机制依赖于AutoBaxBuilder管道，该流程能够系统性地从40个自动生成的场景中衍生出560项后端开发任务。这些任务覆盖了14种主流后端框架，并依据难度划分为三个等级，每个任务均包含完整的场景规范、API定义及自然语言描述，确保了评估内容的丰富性与结构性。

特点

该数据集显著特点在于其专注于代码生成模型的安全性与功能性双重评估。每个任务不仅提供了详细的功能实现规范，还明确标注了潜在常见弱点枚举（CWE）漏洞类型，并集成了端到端安全测试。数据集设计兼顾了多语言支持与多框架适配，从Python的FastAPI到Rust的Actix，均配备了相应的环境指令与依赖配置，从而构建了一个高度标准化且可复现的基准测试环境。

使用方法

研究人员或开发者可通过BaxBench框架直接利用数据集中的场景规范生成代码解决方案。使用过程涉及依据任务描述实现相应后端服务，并运行数据集提供的功能测试与安全测试以验证代码的正确性与安全性。数据集中的各项字段，如API规范、所需包列表及启动命令，为构建与评估过程提供了明确的技术指引，支持对代码生成模型在真实开发场景中的能力进行系统性度量。

背景与挑战

背景概述

随着人工智能在代码生成领域的快速发展，对模型生成代码的正确性与安全性进行评估成为关键研究议题。AutoBaxBench数据集于近期由LogicStar等研究机构创建，旨在系统性地衡量代码生成模型与智能体在多种后端框架下生成正确且安全代码的能力。该数据集聚焦于后端开发任务，涵盖了14种主流框架与三个难度等级，通过自动生成的40个场景构建了560项具体任务，为代码生成与软件安全交叉领域提供了标准化评估基准，推动了自动化编程与漏洞检测技术的进步。

当前挑战

AutoBaxBench致力于解决代码生成模型在功能性正确性与安全性方面的双重挑战，其核心问题在于如何确保生成的代码不仅符合功能需求，还能有效抵御常见安全漏洞。在构建过程中，数据集面临多框架兼容性、自动化场景生成的真实性以及安全测试的全面性等难题，需平衡任务多样性、难度分级与评估标准的精确性，同时确保自动生成场景能准确反映实际开发中的复杂安全威胁。

常用场景

经典使用场景

在代码生成与软件安全领域，AutoBaxBench数据集作为一项自动化生成的编码基准，主要用于评估代码生成模型与智能代理在多种后端框架下生成正确且安全代码的能力。该数据集涵盖了560个任务，跨越14种主流后端框架和三个难度等级，通过提供完整的场景规范与测试用例，为研究者构建了一个标准化的评估环境，以系统性地衡量模型在功能实现与漏洞防范方面的表现。

衍生相关工作

围绕AutoBaxBench，已衍生出多项经典研究工作，例如其前身BaxBench数据集为人工策划的基准提供了基础。相关研究通常聚焦于扩展基准场景、开发更精细的安全测试方法，或利用该数据集训练与微调代码生成模型以提升其安全意识。这些工作共同促进了智能代码生成与软件安全交叉领域的学术进展与工具创新。

数据集最近研究