SWE-bench_Verified

Hugging Face2025-12-09 更新2025-12-10 收录

下载链接：

https://huggingface.co/datasets/codeset/SWE-bench_Verified

下载链接

链接失效反馈

官方服务：

资源简介：

SWE-bench Verified是SWE-bench测试集的一个子集，包含500个经过人工验证的样本，用于测试系统自动解决GitHub问题的能力。该数据集收集了来自流行Python仓库的500个测试问题-拉取请求对，评估通过使用拉取请求后的行为作为参考解决方案的单元测试验证进行。原始SWE-bench数据集是作为SWE-bench: Can Language Models Resolve Real-World GitHub Issues?的一部分发布的。数据集主要包含问题描述、基础提交、补丁、测试补丁等特征，支持的任务是给定完整仓库和GitHub问题的问题解决。数据集文本主要为英文。

SWE-bench Verified is a subset of the SWE-bench benchmark dataset, which comprises 500 manually verified samples for evaluating a system's ability to automatically resolve GitHub issues. This dataset gathers 500 test problem-pull request pairs from popular Python repositories, with evaluation performed via unit test validation that uses the behavior post the pull request's application as the reference solution. The original SWE-bench dataset was released as part of the academic paper *SWE-bench: Can Language Models Resolve Real-World GitHub Issues?*. The dataset primarily includes features such as problem descriptions, base commits, patches, test patches and other related items, and supports the task of solving problems given a complete code repository and a GitHub issue. The textual content of this dataset is predominantly in English.

创建时间：

2025-12-06

原始信息汇总

SWE-bench Verified 数据集概述

数据集简介

SWE-bench Verified 是 SWE-bench 测试集的一个子集，包含 500 个经过人工验证的样本。该数据集用于测试系统自动解决 GitHub 问题的能力。数据收集自流行的 Python 仓库，包含 500 个测试用的 Issue-Pull Request 对。评估通过单元测试验证进行，以 PR 后的行为作为参考解决方案。

数据集结构

数据格式：包含 13 个特征字段。
数据划分：仅包含一个 test 划分，共有 500 个样本。
下载大小：2,090,700 字节。
数据集大小：7,784,544 字节。

特征字段说明

repo：GitHub 仓库所有者/名称标识符。
instance_id：格式化的实例标识符，通常为 repo_owner__repo_name-PR-number。
base_commit：应用解决方案 PR 前，仓库 HEAD 的提交哈希。
patch：解决该问题的黄金补丁（由 PR 生成，不含测试相关代码）。
test_patch：解决方案 PR 贡献的测试文件补丁。
problem_statement：问题的标题和正文。
hints_text：在解决方案 PR 的第一个提交创建日期之前，对该问题发表的评论。
created_at：拉取请求的创建日期。
version：用于运行评估的安装版本。
environment_setup_commit：用于环境设置和安装的提交哈希。
FAIL_TO_PASS：一个 JSON 字符串列表，表示由 PR 解决并与问题解决相关的测试集合。
PASS_TO_PASS：一个 JSON 字符串列表，表示在 PR 应用前后都应通过的测试。
difficulty：难度等级。

支持的任务与排行榜

主要任务：在给定完整仓库和 GitHub Issue 的情况下进行问题解决。
排行榜：https://www.swebench.com

语言

数据集文本主要为英文，未进行基于语言类型的过滤或清洗。

搜集汇总

数据集介绍

构建方式

在软件工程领域，自动化解决GitHub问题已成为衡量智能系统能力的重要标尺。SWE-bench_Verified数据集的构建源于对原始SWE-bench测试集的精炼，通过人工验证流程筛选出500个高质量的样本。这些样本源自热门Python仓库中的Issue-Pull Request配对，每个实例均以单元测试验证为基准，确保问题陈述与解决方案的对应关系准确无误。数据收集过程严格遵循代码库在问题解决前的状态记录，即base_commit，同时整合了补丁文件、测试补丁及问题描述等多维度信息，形成结构化的评估单元。

特点

该数据集的核心特点在于其经过人工验证的高质量样本集合，确保了评估结果的可靠性与一致性。每个数据实例均包含完整的代码仓库上下文，如基础提交哈希、问题陈述、提示文本及测试补丁，为模型提供了丰富的语义和结构信息。此外，数据集明确区分了失败转通过和通过转通过的测试用例列表，使得评估能够精准反映代码修改对测试行为的影响。其多字段设计不仅支持端到端的问题解决任务，还为检索增强型方法提供了基础，兼顾了任务复杂性与评估的严谨性。

使用方法

使用SWE-bench_Verified数据集时，研究者需以问题陈述和基础提交为输入，模拟真实场景下的代码库问题解决过程。评估过程依赖于单元测试验证，通过对比模型生成的补丁与标准补丁在测试通过率上的一致性来衡量性能。对于需要检索增强的推理任务，可参考相关数据集如SWE-bench_Lite_oracle以获取额外上下文。数据集支持直接应用于SWE-bench任务，用户可通过官方排行榜提交结果，推动自动化软件工程工具的进步。

背景与挑战

背景概述

在软件工程与人工智能交叉领域，自动化代码修复与问题解决已成为前沿研究方向。SWE-bench_Verified数据集由普林斯顿大学等研究机构于2023年推出，旨在评估语言模型在真实GitHub问题解决中的能力。该数据集精选500个经过人工验证的高质量样本，覆盖多个知名Python仓库的Issue-Pull Request配对，通过单元测试验证作为评估基准。其核心研究问题聚焦于探索智能系统能否理解复杂代码库上下文并生成有效补丁，为自动化软件维护提供了标准化评测框架，显著推动了代码生成与程序理解领域的发展。

当前挑战

该数据集致力于解决自动化软件工程中代码问题修复的挑战，要求模型在完整仓库上下文中准确理解自然语言描述的问题并生成可通过测试的代码补丁。构建过程中的主要挑战包括：从海量GitHub历史数据中筛选具有代表性和可验证性的问题-解决方案对，确保每个样本的补丁与测试用例具备一致性和可复现性；人工验证过程需克服代码上下文复杂、测试环境依赖性强等困难，以保证数据质量与评估可靠性。这些挑战使得数据集构建成为一项资源密集且技术要求极高的任务。

常用场景

经典使用场景

在软件工程与人工智能交叉领域，SWE-bench_Verified数据集为评估大型语言模型在真实世界代码修复任务中的性能提供了基准。其经典使用场景集中于自动化解决GitHub问题，通过提供500个经过人工验证的Issue-Pull Request对，模拟了开发环境中常见的缺陷报告与修复流程。研究者利用该数据集训练或测试模型，要求系统基于问题描述和代码库状态生成正确的代码补丁，以通过单元测试验证修复效果。这一场景深刻反映了智能体在复杂软件维护任务中的实际能力，推动了自动化编程辅助工具的发展。

解决学术问题

该数据集有效解决了智能代码生成领域中的关键学术问题，即如何量化评估模型在真实、开放域软件问题上的解决能力。传统基准多局限于合成或简化任务，而SWE-bench_Verified通过引入从热门Python仓库提取的真实问题，填补了评估场景与现实软件工程实践之间的鸿沟。它使研究者能够系统探究模型理解自然语言需求、导航大型代码库、并生成符合测试规范补丁的综合能力，为衡量人工智能在软件维护自动化方面的进展提供了可靠、严谨的评估框架。

衍生相关工作

围绕SWE-bench_Verified数据集，已衍生出一系列重要的研究工作。其前身SWE-bench的提出论文《SWE-bench: Can Language Models Resolve Real-World GitHub Issues?》确立了该任务范式。后续研究则基于其验证子集或扩展版本，探索了检索增强生成、代码上下文理解、以及测试驱动修复等不同技术路径。相关成果不仅持续刷新官方排行榜的性能记录，也催生了如SWE-bench_Lite等面向高效推理的变体数据集，共同推动了整个领域在方法论和评估标准上的不断演进与深化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集