BaxBench

github2025-02-26 更新2025-02-22 收录

下载链接：

https://github.com/logic-star-ai/baxbench

下载链接

链接失效反馈

官方服务：

资源简介：

BaxBench是一个编码基准测试，用于评估LLM在生成正确和安全代码的能力，特别是在现实世界的安全关键设置中。

BaxBench is a coding benchmark dedicated to evaluating the capabilities of Large Language Models (LLMs) in generating correct and secure code, particularly in real-world safety-critical scenarios.

创建时间：

2025-02-12

原始信息汇总

BaxBench 数据集概述

数据集简介

BaxBench 是一个编码基准测试，用于评估大型语言模型（LLMs）在现实、安全关键的设置中生成正确和安全代码的能力。每个编码任务包括一个场景（描述后端应用程序应该实现的 API）和一个框架（指定实现语言和后端框架）。

数据集结构

场景（Scenarios）：位于 src/scenarios/。
框架（Frameworks）：位于 src/env/。

安装与使用

环境依赖：Python 3.12、Docker、pipenv。
安装环境：使用 pipenv install。
运行脚本：使用 pipenv run python <path_to_python_script> <args>。
设置 API 密钥：在 .bashrc 或系统等效配置文件中设置。

贡献指南

添加场景、新框架、测试，或提出问题。

使用说明

生成程序：使用命令 pipenv run python src/main.py --models gpt-4o --mode generate --n_samples 10 --temperature 0.4。
测试生成程序：使用命令 pipenv run python src/main.py --models gpt-4o --mode test --n_samples 10 --temperature 0.4。
评估与打印结果：使用命令 pipenv run python src/main.py --models gpt-4o --mode evaluate --n_samples 10 --temperature 0.4。

引用

bib @article{vero2025baxbenchllmsgeneratecorrect, title={BaxBench: Can LLMs Generate Correct and Secure Backends?}, author={Mark Vero and Niels Mündler and Victor Chibotaru and Veselin Raychev and Maximilian Baader and Nikola Jovanović and Jingxuan He and Martin Vechev}, year={2025}, eprint={2502.11844}, archivePrefix={arXiv}, }

许可

MIT。查看 LICENSE。

搜集汇总

数据集介绍

构建方式

BaxBench数据集的构建基于真实场景下的安全关键编码任务，每个编码任务包含一个场景描述以及一个指定的后端框架和实现语言。场景描述定义了后端应用程序应实现的API，而后端框架则规定了具体的实现细节。数据集通过整合不同场景和框架，形成了对大型语言模型在生成正确和安全代码方面的综合评估。

使用方法

使用BaxBench数据集时，用户需要配置相应的环境，包括Python 3.12、Docker以及pipenv等。通过命令行工具，用户可以生成、测试和评估代码。具体使用时，用户可以根据需要选择不同的模型、场景和框架，以及调整样本数量和生成参数。数据集的生成结果和日志将被保存在`results`目录中，便于后续的分析和评估。

背景与挑战

背景概述

BaxBench是一个针对评估大型语言模型（LLM）在现实、安全性关键环境中生成正确且安全代码能力的编码基准。该数据集由Mark Vero等人于2025年创建，其核心研究问题是探讨LLM在生成后端代码时的正确性和安全性。BaxBench通过设定场景（scenario）和框架（framework）来定义编码任务，旨在评估LLM在不同后端框架中的表现。该数据集的研究成果已发布在论文'BaxBench: Can LLMs Generate Secure and Correct Backends?'中，并在相关领域产生了显著影响。

当前挑战

BaxBench在构建过程中所遇到的挑战主要包括：1）设计能够全面覆盖后端应用安全性和正确性的场景和框架；2）确保生成的代码能够在不同环境中正确执行且具有良好的安全性；3）构建一个能够高效评估LLM生成代码质量和安全性的评估体系。此外，该数据集在解决领域问题，即评估LLM生成后端代码的能力时，面临的挑战包括：如何确保LLM生成的代码不仅符合功能性要求，同时也能抵御潜在的安全威胁。

常用场景

经典使用场景

BaxBench作为一项编码基准，旨在评估大型语言模型在现实、安全关键环境中生成正确且安全的代码的能力。其经典使用场景在于为研究提供一种评估标准，通过设定一系列后端应用应实现的API场景，并固定使用的编程语言和后端框架，以此来测试和比较不同模型在生成安全且正确的后端代码方面的性能。

解决学术问题

该数据集解决了在学术研究中如何有效评估大型语言模型在安全关键编程任务中的表现问题，提供了量化的性能指标，有助于推动相关领域研究的进展。其意义在于为研究社区提供了一个共同的基准，以促进对模型生成代码质量与安全性的深入理解和改进。

实际应用

在实际应用中，BaxBench可以帮助开发者评估和选择适用于安全关键系统的编程模型，通过模拟真实场景下的编码任务，辅助开发者识别潜在的安全漏洞和性能问题，从而提高软件质量和安全性。

数据集最近研究