SWE-bench_Pro-ABS

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/OpenAgentLab/SWE-bench_Pro-ABS

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-bench_Pro-ABS 是一个包含 731 个软件工程实例的数据集，源自 SWE-bench-pro，并扩展了模型生成的测试补丁用于评估。其中 150 个实例被增强了模型生成的 `test_patch`，其余实例的 `test_patch` 设置为空字符串。每个实例对应一个真实的 GitHub 问题和拉取请求，包含原始 SWE-bench-pro 的字段，其中 `test_patch` 被替换为模型生成的测试补丁，原始补丁保存在 `original_test_patch` 中。数据集字段包括唯一标识符、GitHub 仓库、基础环境提交哈希、修复补丁（ground truth）、原始测试补丁（ground truth）、GitHub 问题描述、仓库需求、接口描述、仓库主要编程语言、测试用例、问题特异性级别、问题类别、仓库设置前命令、选择的测试文件、Docker 镜像标签等。此外，还添加了 `test_patch`（模型生成的测试补丁）和 `is_augmented`（是否增强）字段。该数据集适用于文本生成和软件工程相关任务。

创建时间：

2026-03-01

原始信息汇总

SWE-bench_Pro-ABS 数据集概述

数据集基本信息

数据集名称：SWE-bench_Pro-ABS
发布者：OpenAgentLab
许可证：apache-2.0
任务类别：文本生成
主要语言：英语
标签：swe-bench, swe-bench-pro, code, agent, software-engineering
数据规模：小于1K
配置：默认配置（仅包含测试集）
数据来源：基于SWE-bench-pro（https://github.com/logic-star-ai/SWE-bench-Pro）构建

数据规模与结构

总实例数：731
增强实例数：150（包含模型生成的测试补丁）
测试集大小：29,387,453字节（731个示例）
下载大小：9,519,728字节
数据集大小：29,387,453字节
数据分割：仅包含测试集（test）

字段说明

继承自SWE-bench-pro的字段

字段名	描述
`instance_id`	唯一标识符
`repo`	GitHub仓库（例如 `django/django`）
`base_commit`	基础环境的提交哈希值
`patch`	黄金修复补丁（真实值）
`original_test_patch`	来自SWE-bench-pro的黄金测试补丁（真实值）
`problem_statement`	原始GitHub问题描述
`requirements`	仓库要求
`interface`	接口描述
`repo_language`	仓库的主要编程语言
`fail_to_pass`	修复后应从失败转为通过的测试
`pass_to_pass`	应保持通过的测试
`issue_specificity`	问题的具体程度
`issue_categories`	问题类别
`before_repo_set_cmd`	设置仓库前运行的命令
`selected_test_files_to_run`	为评估选择的测试文件
`dockerhub_tag`	评估环境的Docker镜像标签

本数据集修改或新增的字段

字段名	描述
`test_patch`	如果`is_augmented`为`True`，则为模型生成的测试补丁；否则为SWE-bench-pro的原始黄金测试补丁
`is_augmented`	如果实例已通过模型生成的测试补丁增强，则为`True`，否则为`False`

数据集描述

每个实例对应一个真实的GitHub问题和拉取请求。
数据集包含原始的SWE-bench-pro字段。
test_patch字段被替换为模型生成的测试补丁，原始补丁保存在original_test_patch字段中。
在731个实例中，150个已通过模型生成的test_patch增强，其余实例的test_patch设置为空字符串。

相关资源

GitHub仓库：https://github.com/OpenAgentEval/SWE-ABS

搜集汇总

数据集介绍

构建方式

在软件工程领域，SWE-bench_Pro-ABS数据集基于SWE-bench-pro构建，通过精选真实GitHub问题与拉取请求，形成了731个实例。其核心创新在于引入了模型生成的测试补丁，其中150个实例经过增强处理，将原始黄金测试补丁替换为自动化生成的版本，同时保留原始数据作为基准参考。这种构建方式不仅继承了原有数据集的严谨结构，还通过智能增强技术扩展了评估维度，为代码修复与测试生成任务提供了更丰富的实验素材。

特点

该数据集的特点体现在其双重测试补丁设计上，每个实例均包含原始黄金测试补丁与模型生成版本，并通过布尔标志区分增强状态。字段设计全面覆盖软件工程问题的关键要素，如仓库信息、提交哈希、问题描述与测试规范，确保了数据的一致性与可追溯性。数据集规模适中，聚焦于实际开发场景中的代码变更与测试用例，为研究自动化软件工程工具提供了高度结构化的评估基础。

使用方法

使用该数据集时，可通过HuggingFace的datasets库直接加载，并利用is_augmented字段筛选增强实例进行分析。研究人员可对比原始与生成测试补丁的性能差异，评估模型在代码测试生成任务上的有效性。数据集支持在Docker环境中复现实验条件，便于进行端到端的软件工程代理评估，为自动化代码修复与测试生成研究提供标准化基准。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码修复与测试生成已成为前沿研究方向。SWE-bench_Pro-ABS数据集由OpenAgentLab团队于近期构建，其核心研究问题聚焦于评估智能体在真实软件开发场景中解决GitHub问题并生成测试补丁的能力。该数据集基于SWE-bench-pro扩展而成，涵盖了731个源自实际开源项目的实例，每个实例对应具体的GitHub问题与拉取请求，旨在为代码智能体提供更贴近工程实践的评估基准，推动自动化软件工程工具的发展。

当前挑战

该数据集致力于应对自动化软件工程中代码修复与测试生成的复杂性挑战，其核心问题在于如何让智能体准确理解自然语言描述的问题、代码库上下文及测试需求，并生成符合功能与语法规范的补丁。在构建过程中，挑战主要体现于从真实GitHub项目中提取高质量、多样化的实例，确保问题与补丁的对应关系准确无误，同时为部分实例生成可靠的模型驱动测试补丁，以平衡数据集的真实性与评估的严谨性。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，SWE-bench_Pro-ABS数据集为评估代码生成与软件修复模型的性能提供了标准化基准。其经典使用场景集中于自动化软件维护任务，例如基于自然语言描述的GitHub问题生成相应的代码补丁和测试用例。研究者利用该数据集训练和测试智能代理，使其能够理解复杂的问题陈述，并自动生成修复代码及关联测试，从而模拟真实开发环境中的缺陷解决流程。

衍生相关工作

围绕SWE-bench_Pro-ABS数据集，已衍生出一系列聚焦于代码智能体的经典研究工作。这些工作通常探索大型语言模型在软件工程任务上的微调策略、多步骤推理机制，以及如何将问题描述、代码上下文与测试用例进行联合建模。相关研究不仅提升了模型在基准测试上的性能，也推动了更通用的代码理解与生成架构的发展，形成了从基准构建到模型创新再到实际部署的完整研究生态。

数据集最近研究