nebius/SWE-rebench

Name: nebius/SWE-rebench
Creator: nebius
Published: 2025-12-23 19:41:57
License: 暂无描述

Hugging Face2025-12-23 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/nebius/SWE-rebench

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-rebench是一个大规模的数据集，用于支持基于大型语言模型的软件工程（SWE）代理的训练和评估。该数据集通过完全自动化的管道，持续从GitHub仓库中提取真实的交互式软件工程任务。它包含了超过21000个问题-拉取请求对，来自3400多个Python仓库，每个任务都通过自动化的环境设置和测试执行进行了验证。数据集在原有的SWE-bench基础上进行了扩展，增加了新的字段以支持更丰富的分析。

SWE-rebench is a large-scale dataset designed to support the training and evaluation of LLM-based software engineering (SWE) agents. It is constructed using a fully automated pipeline that continuously extracts real-world interactive SWE tasks from GitHub repositories. The dataset currently comprises over 21,000 issue-pull request pairs from 3,400+ Python repositories, each validated for correctness through automated environment setup and test execution. The dataset extends the original SWE-bench schema with additional fields to support richer analysis.

提供机构：

nebius

搜集汇总

数据集介绍

构建方式

在软件工程智能化研究领域，大规模、高质量的基准数据集对于评估大型语言模型驱动的智能体至关重要。SWE-rebench数据集通过一套全自动化的流水线构建而成，该流水线持续从数千个GitHub仓库中提取真实的交互式软件工程任务。具体而言，构建过程始于从超过3400个Python仓库中自动收集问题与拉取请求对，随后通过自动化环境设置与测试执行对每个任务进行正确性验证。此外，该流程还集成了由大型语言模型驱动的环境安装指令提取与验证机制，并采用自动化质量评估流水线为任务标注清晰度、复杂性等元数据，从而确保了数据集的规模与质量。

特点

作为软件工程智能体评估领域的前沿资源，SWE-rebench数据集展现出若干显著特征。其核心在于扩展了原始SWE-bench的架构，引入了丰富的元数据字段，例如详细的环境安装配置、许可证信息以及由大型语言模型评定的任务难度分数。数据集包含超过21000个经过验证的任务实例，并提供了7500个预构建的Docker镜像，极大简化了评估环境的复现过程。这些设计使得数据集不仅规模庞大，而且具备高度的结构化和可执行性，为研究提供了可靠且可重复的基准。

使用方法

为有效利用该数据集进行软件工程智能体的训练与评估，研究者可通过Hugging Face的`datasets`库直接加载数据。执行具体任务时，推荐使用项目提供的SWE-bench框架分支，该分支已适配数据集的`install_config`字段，能够自动化处理环境搭建、补丁应用与测试运行。用户可选择直接克隆该分支仓库并利用其脚本，亦可将解析`install_config`的类似功能集成至自有代码库。通过这种方式，数据集的结构化信息得以充分利用，确保了评估过程的准确性与一致性。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，自动化代码修复与任务执行已成为前沿研究方向。由Nebius研究团队于2025年构建的SWE-rebench数据集，旨在为基于大语言模型的软件工程智能体提供大规模、高质量的评估基准。该数据集在SWE-bench与SWE-bench-extra基础上扩展，通过全自动化流水线从数千个真实GitHub仓库中持续提取问题与拉取请求对，并经过环境配置与测试执行的严格验证。其核心研究聚焦于如何构建一个动态、去污染的评估框架，以准确衡量智能体在复杂软件维护任务中的实际效能，对推动自动化软件工程工具的发展具有深远影响。

当前挑战

SWE-rebench致力于解决软件工程智能体在真实世界代码库中执行复杂任务（如缺陷修复、功能实现）的评估难题，其挑战在于如何确保任务样本的多样性、真实性与可复现性，同时避免数据污染导致评估偏差。在构建过程中，研究团队面临多重挑战：一是自动化提取流水线需精准解析异构的仓库结构、依赖关系与环境配置；二是需设计可靠的测试验证机制以保证任务解决路径的正确性；三是必须处理大规模任务下的计算资源与执行效率瓶颈；四是如何动态更新数据集以反映开源生态的持续演进，保持基准的时效性与相关性。

常用场景

经典使用场景

在软件工程智能化研究领域，SWE-rebench数据集为大型语言模型驱动的软件工程代理提供了标准化的训练与评估平台。该数据集通过自动化流程从真实GitHub仓库中提取了超过21,000个问题-拉取请求对，每个实例均包含完整的代码库环境配置、问题描述及验证测试。研究者可利用其结构化任务，系统性地评估代理在代码修复、功能实现等复杂软件维护任务中的性能，从而推动自动化编程技术的迭代发展。

解决学术问题

该数据集有效应对了软件工程代理评估中普遍存在的任务真实性不足与评估环境污染问题。通过构建基于真实开源项目历史的问题解决轨迹，并引入自动化环境配置与测试验证机制，SWE-rebench为学术界提供了去污染的基准测试框架。其贡献在于解决了传统合成数据与真实场景脱节的局限，使得模型在复杂依赖环境下的泛化能力与实际问题解决效能的评估成为可能，显著提升了研究的严谨性与可复现性。

衍生相关工作

围绕SWE-rebench数据集，学术界已衍生出多项重要研究工作。其前身SWE-bench为软件工程代理评估奠定了初步基础，而本数据集通过引入全自动任务收集管道与LLM驱动的质量评估机制，进一步扩展了评估维度。相关研究聚焦于环境感知的代码生成、测试驱动的代理优化以及跨仓库任务泛化等方向，推动了如SWE-rebench排行榜等持续评估体系的建立，为领域发展提供了动态演进的参照基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集