five

SWE-Bench_Verified_ABS

收藏
Hugging Face2026-03-02 更新2026-03-03 收录
下载链接:
https://huggingface.co/datasets/OpenAgentLab/SWE-Bench_Verified_ABS
下载链接
链接失效反馈
官方服务:
资源简介:
SWE-Bench_Verified_ABS 是一个包含500个软件工程实例的数据集,源自SWE-bench,并扩展了用于评估的模型生成测试补丁。每个实例对应一个真实的GitHub问题和拉取请求。数据集保留了原始SWE-bench字段,其中'test_patch'被替换为模型生成的测试补丁,原始测试补丁保存在'original_test_patch'字段中。数据集包含多个字段:唯一标识符(instance_id)、GitHub仓库(repo)、问题描述(problem_statement)、修复补丁(patch)、原始测试补丁(original_test_patch)、基础提交(base_commit)、版本标签(version)、难度级别(difficulty)、测试用例(FAIL_TO_PASS和PASS_TO_PASS)、讨论提示(hints_text)、创建时间(created_at)和环境设置提交(environment_setup_commit)。该数据集专为评估修复正确性而设计,适用于文本生成和软件工程相关任务。
创建时间:
2026-02-22
原始信息汇总

SWE-Bench_Verified_ABS 数据集概述

数据集基本信息

  • 名称:SWE-Bench_Verified_ABS
  • 来源:基于 SWE-bench 构建
  • 许可证:apache-2.0
  • 任务类别:文本生成
  • 主要语言:英语
  • 标签:swe-bench, code, agent, software-engineering
  • 规模类别:小于 1K 样本
  • 配置:默认配置
  • 数据文件:测试集 (data/test-*)
  • GitHub 仓库OpenAgentEval/SWE-ABS

数据集规模与结构

  • 总样本数:500 个实例
  • 数据拆分:仅包含测试集
  • 测试集样本数:500
  • 测试集大小(字节):11,163,905
  • 下载大小(字节):3,168,881
  • 数据集大小(字节):11,163,905

数据集描述

该数据集包含 500 个软件工程实例,源自真实的 GitHub 问题和拉取请求。每个实例对应 SWE-bench 中的原始字段,但将 test_patch 替换为模型生成的测试补丁,原始测试补丁保存在 original_test_patch 字段中。

数据字段说明

继承自 SWE-bench 的字段

字段名 描述
instance_id 唯一标识符(例如 django__django-10097
repo GitHub 仓库(例如 django/django
problem_statement 原始 GitHub 问题描述
patch 黄金修复补丁(真实值)
original_test_patch 来自 SWE-bench 的黄金测试补丁(真实值)
base_commit 基础环境的提交哈希值
version 仓库版本标签
difficulty 任务难度级别
FAIL_TO_PASS 修复后应从失败转为通过的测试
PASS_TO_PASS 应保持通过的测试
hints_text 来自问题讨论的提示
created_at 问题创建时间戳
environment_setup_commit 用于设置评估环境的提交

本数据集修改的字段

字段名 描述
test_patch 用于评估修复正确性的模型生成测试补丁

使用方法

python from datasets import load_dataset

返回一个仅包含 "test" 拆分的 DatasetDict

ds = load_dataset("OpenAgentLab/SWE-Bench_Verified_ABS") print(ds["test"][0]["instance_id"]) # 例如 "django__django-10097" print(ds["test"][0]["problem_statement"]) # 问题描述 print(ds["test"][0]["original_test_patch"]) # 黄金测试补丁 print(ds["test"][0]["test_patch"]) # swe-abs 生成的测试补丁

搜集汇总
数据集介绍
构建方式
在软件工程领域,SWE-Bench_Verified_ABS数据集构建于SWE-bench基础之上,专注于代码修复与测试生成任务。该数据集从真实GitHub问题与拉取请求中提取了500个实例,每个实例对应一个具体的软件缺陷场景。构建过程中,保留了原始SWE-bench的核心字段,如问题描述、修复补丁及基础环境信息,同时创新性地将原始测试补丁替换为模型生成的测试补丁,并将原始版本保留为参考标准。这一设计旨在模拟自动化代码修复与测试生成的评估环境,为研究提供更贴近实际开发流程的数据支撑。
使用方法
使用该数据集时,研究者可通过HuggingFace的datasets库直接加载,数据集仅包含测试分割,便于快速进行模型评估。典型流程包括加载数据、访问实例字段如问题描述、修复补丁及生成的测试补丁,并利用环境设置信息复现评估场景。数据集适用于训练或评估代码生成模型、测试生成系统及软件工程代理,通过对比模型生成结果与黄金标准,量化性能指标。其结构化格式与丰富元数据支持定制化实验设计,例如基于难度分层的分析或跨仓库泛化能力测试,为软件自动化研究提供可靠基准。
背景与挑战
背景概述
在软件工程与人工智能交叉领域,自动化代码修复与测试生成已成为前沿研究方向。SWE-Bench_Verified_ABS数据集由OpenAgentLab团队于2024年构建,基于SWE-bench基准扩展而成,旨在评估智能体在真实软件开发场景中的问题解决能力。该数据集聚焦于从GitHub实际议题与拉取请求中提取的500个实例,每个实例均包含原始问题描述、修复补丁及模型生成的测试补丁,核心研究问题在于如何通过自动化手段准确理解并修复复杂代码缺陷,同时生成有效的测试验证。其构建不仅推动了代码智能体的评估标准化,也为软件维护自动化提供了关键数据支撑,显著促进了智能编程助手与自动化软件工程工具的发展。
当前挑战
该数据集致力于解决软件工程中自动化代码修复与测试生成的挑战,其核心问题在于如何使智能体准确理解自然语言描述的问题、定位代码缺陷并生成正确修复,同时确保修复后的代码通过测试验证。构建过程中的挑战包括:从真实GitHub项目中提取高质量、多样化的议题与补丁对,确保数据实例的复杂性与代表性;处理不同代码库的依赖与环境配置,以复现原始开发场景;以及生成可靠的模型测试补丁,以替代人工编写的黄金测试,从而在保持评估效度的同时降低人工标注成本。这些挑战对数据集的真实性、可复现性与评估鲁棒性提出了严格要求。
常用场景
经典使用场景
在软件工程与代码智能领域,SWE-Bench_Verified_ABS数据集为评估代码修复模型的性能提供了基准测试环境。该数据集源自真实GitHub问题与拉取请求,通过引入模型生成的测试补丁,模拟了自动化代码调试与修复的完整流程。研究人员利用其500个实例,系统性地检验智能体在理解问题描述、生成正确补丁以及通过测试验证方面的能力,从而推动代码生成与软件维护任务的进展。
解决学术问题
该数据集有效应对了代码修复评估中测试依赖与真实场景脱节的学术挑战。传统方法常依赖人工编写的测试用例,难以全面反映实际软件工程的复杂性。SWE-Bench_Verified_ABS通过整合模型生成的测试补丁,提供了更贴近开发实践的评估框架,解决了自动化测试生成与代码修正协同验证的难题,为衡量智能体在动态环境中的鲁棒性与泛化能力奠定了坚实基础。
实际应用
在实际软件开发中,该数据集可用于构建智能代码助手与自动化调试工具。企业能够基于其评估框架,训练模型以识别开源项目中的常见缺陷,并自动生成修复方案。这不仅加速了软件维护流程,降低了人工干预成本,还为持续集成与部署管道提供了质量保障,助力开发团队高效应对日益增长的代码库管理需求。
数据集最近研究
最新研究方向
在软件工程与代码智能领域,SWE-Bench_Verified_ABS数据集正推动着自动化代码修复与测试生成的前沿探索。该数据集通过整合模型生成的测试补丁,为评估智能体在真实GitHub问题上的修复能力提供了更贴近实际开发场景的基准。当前研究聚焦于结合大语言模型的推理能力,提升智能体在复杂软件环境中的多步骤问题解决效率,同时探索测试生成与代码修复的协同优化机制,以应对开源项目中日益增长的维护需求。这一方向不仅呼应了AI辅助编程的热潮,也为软件自动化工具的可靠性与泛化性设定了新的评估标准。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作