SWEE-Bench，SWA-Bench

Name: SWEE-Bench，SWA-Bench
Creator: LogicStar AI，ETH Zurich
Published: 2025-03-11 01:42:49
License: 暂无描述

arXiv2025-03-11 更新2025-03-13 收录

下载链接：

http://arxiv.org/abs/2503.07701v1

下载链接

链接失效反馈

官方服务：

资源简介：

SWEE-Bench是一个包含数百个代码库的扩展版SWEBench，而SWA-Bench则是一个关注应用的代码库的基准。这两个数据集旨在代表真实世界的用例，考虑了许多代码库，以实现多样化的基准，并且可以频繁更新以避免污染和过拟合。SWEE-Bench关注多样性以及不太受欢迎的项目，包含了366个Python代码库；SWA-Bench关注软件应用，包含44个项目。这些数据集在代码库的年龄、创建时的受欢迎程度、关注近期问题以及代码修复的复杂性等方面与SWE-Bench存在显著差异，且对于某些模型，性能差异显著，表明在代表性基准上进行评估的重要性。

SWEE-Bench is an extended version of SWEBench that includes hundreds of code repositories, while SWA-Bench is a benchmark focused on application-oriented code bases. These two datasets are designed to represent real-world use cases, incorporating a wide range of code repositories to enable a diverse benchmark, and can be updated frequently to avoid data contamination and overfitting. SWEE-Bench focuses on diversity and less popular projects, containing 366 Python code repositories; SWA-Bench focuses on software applications and includes 44 projects. These datasets differ significantly from SWEBench in terms of code repository age, initial popularity, focus on recent issues, and complexity of code fixes, and exhibit notable performance differences for certain models, highlighting the importance of evaluating models on representative benchmarks.

提供机构：

LogicStar AI，ETH Zurich

创建时间：

2025-03-11

搜集汇总

数据集介绍

构建方式

SWEE-Bench 和 SWA-Bench 是通过 SETUPAGENT 系统自动生成的。SETUPAGENT 能够自动设置历史准确的执行环境，执行测试，并解析结果。在提取阶段，SETUPAGENT 分析相关上下文，如 README.md 文件、CI/CD 配置和引用的网页，以提出安装和测试命令。在迭代改进阶段，SETUPAGENT 在一个干净的环境中执行这些命令，并利用 LLM 系统地诊断和解决问题。最后，在验证阶段，SETUPAGENT 通过验证测试结果来确保生成的命令的可靠性，只接受满足预定义成功阈值的配置。

使用方法

使用 SETUPAGENT 生成数据集非常简单，只需要提供存储库列表即可。SETUPAGENT 会自动设置执行环境，执行测试，并解析结果。生成的数据集格式与 SWE-Bench 兼容，可以直接用于评估代码生成模型的性能。

背景与挑战

背景概述

代码生成是大型语言模型（LLM）应用中最活跃的研究领域之一，而SWEE-Bench和SWA-Bench是两个新兴的基准数据集，旨在评估代码生成代理在解决真实世界软件工程任务方面的能力。这些数据集的创建旨在解决现有基准数据集的局限性，例如代表性不足、多样性不足和容易污染训练数据等问题。SWEE-Bench和SWA-Bench分别关注应用程序和多样性项目，通过自动化生成执行环境，提高了数据集的多样性和代表性，减少了过拟合和数据污染的风险。

当前挑战

SWEE-Bench和SWA-Bench的创建过程中，研究者面临的主要挑战包括：1) 自动化生成历史准确的执行环境；2) 评估解决方案的正确性需要执行代码库的测试套件；3) 设置历史准确的执行环境需要手动设置，限制了可考虑的代码库数量；4) 现有基准数据集通常只关注流行的代码库，可能导致分布不匹配，无法代表真实世界的场景。为了解决这些挑战，研究者提出了SETUPAGENT，一个能够自动化历史准确的依赖设置、测试执行和结果解析的系统。通过使用SETUPAGENT，研究者生成了SWEE-Bench和SWA-Bench两个数据集，并发现与SWE-Bench相比，它们在问题描述质量、修复复杂性和代理成功率方面存在显著差异。

常用场景

经典使用场景

SWEE-Bench 和 SWA-Bench 数据集旨在为代码代理开发提供可靠的性能评估标准。这两个数据集挑战代码代理生成修复 GitHub 问题的补丁，并使用从存储库中提取的人类编写的测试套件来评估生成的补丁的正确性。这些数据集通过模拟现实世界中的软件工程任务，帮助研究人员评估和指导代码代理的发展。

解决学术问题

SWEE-Bench 和 SWA-Bench 数据集解决了现有代码生成基准的局限性，例如缺乏多样性、覆盖范围有限以及容易受到污染等问题。它们通过自动生成历史准确的执行环境，从而能够考虑更多的存储库，并频繁更新基准，从而提高了基准的代表性和可靠性。

实际应用

SWEE-Bench 和 SWA-Bench 数据集在实际应用中可以用于评估代码代理在解决现实世界软件工程任务中的性能。它们可以帮助研究人员和开发者了解代码代理在不同类型的项目和应用中的表现，并为代码代理的进一步发展提供指导。

数据集最近研究