SWE-Bench_Verified_ABS

Hugging Face2026-03-02 更新2026-03-03 收录

下载链接：

https://huggingface.co/datasets/OpenAgentLab/SWE-Bench_Verified_ABS

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-Bench_Verified_ABS 是一个包含500个软件工程实例的数据集，源自SWE-bench，并扩展了用于评估的模型生成测试补丁。每个实例对应一个真实的GitHub问题和拉取请求。数据集保留了原始SWE-bench字段，其中'test_patch'被替换为模型生成的测试补丁，原始测试补丁保存在'original_test_patch'字段中。数据集包含多个字段：唯一标识符(instance_id)、GitHub仓库(repo)、问题描述(problem_statement)、修复补丁(patch)、原始测试补丁(original_test_patch)、基础提交(base_commit)、版本标签(version)、难度级别(difficulty)、测试用例(FAIL_TO_PASS和PASS_TO_PASS)、讨论提示(hints_text)、创建时间(created_at)和环境设置提交(environment_setup_commit)。该数据集专为评估修复正确性而设计，适用于文本生成和软件工程相关任务。

创建时间：

2026-02-22

原始信息汇总

SWE-Bench_Verified_ABS 数据集概述

数据集基本信息

名称：SWE-Bench_Verified_ABS
来源：基于 SWE-bench 构建
许可证：apache-2.0
任务类别：文本生成
主要语言：英语
标签：swe-bench, code, agent, software-engineering
规模类别：小于 1K 样本
配置：默认配置
数据文件：测试集 (data/test-*)
GitHub 仓库：OpenAgentEval/SWE-ABS

数据集规模与结构

总样本数：500 个实例
数据拆分：仅包含测试集
测试集样本数：500
测试集大小（字节）：11,163,905
下载大小（字节）：3,168,881
数据集大小（字节）：11,163,905

数据集描述

该数据集包含 500 个软件工程实例，源自真实的 GitHub 问题和拉取请求。每个实例对应 SWE-bench 中的原始字段，但将 test_patch 替换为模型生成的测试补丁，原始测试补丁保存在 original_test_patch 字段中。

数据字段说明

继承自 SWE-bench 的字段

字段名	描述
`instance_id`	唯一标识符（例如 `django__django-10097`）
`repo`	GitHub 仓库（例如 `django/django`）
`problem_statement`	原始 GitHub 问题描述
`patch`	黄金修复补丁（真实值）
`original_test_patch`	来自 SWE-bench 的黄金测试补丁（真实值）
`base_commit`	基础环境的提交哈希值
`version`	仓库版本标签
`difficulty`	任务难度级别
`FAIL_TO_PASS`	修复后应从失败转为通过的测试
`PASS_TO_PASS`	应保持通过的测试
`hints_text`	来自问题讨论的提示
`created_at`	问题创建时间戳
`environment_setup_commit`	用于设置评估环境的提交

本数据集修改的字段

字段名	描述
`test_patch`	用于评估修复正确性的模型生成测试补丁

使用方法

python from datasets import load_dataset

返回一个仅包含 "test" 拆分的 DatasetDict

ds = load_dataset("OpenAgentLab/SWE-Bench_Verified_ABS") print(ds["test"][0]["instance_id"]) # 例如 "django__django-10097" print(ds["test"][0]["problem_statement"]) # 问题描述 print(ds["test"][0]["original_test_patch"]) # 黄金测试补丁 print(ds["test"][0]["test_patch"]) # swe-abs 生成的测试补丁

搜集汇总

数据集介绍

构建方式

在软件工程领域，SWE-Bench_Verified_ABS数据集构建于SWE-bench基础之上，专注于代码修复与测试生成任务。该数据集从真实GitHub问题与拉取请求中提取了500个实例，每个实例对应一个具体的软件缺陷场景。构建过程中，保留了原始SWE-bench的核心字段，如问题描述、修复补丁及基础环境信息，同时创新性地将原始测试补丁替换为模型生成的测试补丁，并将原始版本保留为参考标准。这一设计旨在模拟自动化代码修复与测试生成的评估环境，为研究提供更贴近实际开发流程的数据支撑。

使用方法

使用该数据集时，研究者可通过HuggingFace的datasets库直接加载，数据集仅包含测试分割，便于快速进行模型评估。典型流程包括加载数据、访问实例字段如问题描述、修复补丁及生成的测试补丁，并利用环境设置信息复现评估场景。数据集适用于训练或评估代码生成模型、测试生成系统及软件工程代理，通过对比模型生成结果与黄金标准，量化性能指标。其结构化格式与丰富元数据支持定制化实验设计，例如基于难度分层的分析或跨仓库泛化能力测试，为软件自动化研究提供可靠基准。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码修复与测试生成已成为前沿研究方向。SWE-Bench_Verified_ABS数据集由OpenAgentLab团队于2024年构建，基于SWE-bench基准扩展而成，旨在评估智能体在真实软件开发场景中的问题解决能力。该数据集聚焦于从GitHub实际议题与拉取请求中提取的500个实例，每个实例均包含原始问题描述、修复补丁及模型生成的测试补丁，核心研究问题在于如何通过自动化手段准确理解并修复复杂代码缺陷，同时生成有效的测试验证。其构建不仅推动了代码智能体的评估标准化，也为软件维护自动化提供了关键数据支撑，显著促进了智能编程助手与自动化软件工程工具的发展。

当前挑战

该数据集致力于解决软件工程中自动化代码修复与测试生成的挑战，其核心问题在于如何使智能体准确理解自然语言描述的问题、定位代码缺陷并生成正确修复，同时确保修复后的代码通过测试验证。构建过程中的挑战包括：从真实GitHub项目中提取高质量、多样化的议题与补丁对，确保数据实例的复杂性与代表性；处理不同代码库的依赖与环境配置，以复现原始开发场景；以及生成可靠的模型测试补丁，以替代人工编写的黄金测试，从而在保持评估效度的同时降低人工标注成本。这些挑战对数据集的真实性、可复现性与评估鲁棒性提出了严格要求。

常用场景

经典使用场景

在软件工程与代码智能领域，SWE-Bench_Verified_ABS数据集为评估代码修复模型的性能提供了基准测试环境。该数据集源自真实GitHub问题与拉取请求，通过引入模型生成的测试补丁，模拟了自动化代码调试与修复的完整流程。研究人员利用其500个实例，系统性地检验智能体在理解问题描述、生成正确补丁以及通过测试验证方面的能力，从而推动代码生成与软件维护任务的进展。

解决学术问题

该数据集有效应对了代码修复评估中测试依赖与真实场景脱节的学术挑战。传统方法常依赖人工编写的测试用例，难以全面反映实际软件工程的复杂性。SWE-Bench_Verified_ABS通过整合模型生成的测试补丁，提供了更贴近开发实践的评估框架，解决了自动化测试生成与代码修正协同验证的难题，为衡量智能体在动态环境中的鲁棒性与泛化能力奠定了坚实基础。

实际应用

在实际软件开发中，该数据集可用于构建智能代码助手与自动化调试工具。企业能够基于其评估框架，训练模型以识别开源项目中的常见缺陷，并自动生成修复方案。这不仅加速了软件维护流程，降低了人工干预成本，还为持续集成与部署管道提供了质量保障，助力开发团队高效应对日益增长的代码库管理需求。

数据集最近研究