r2e-gym-subset-swebench-formatted

Hugging Face2025-11-03 更新2025-11-04 收录

下载链接：

https://huggingface.co/datasets/mohit-raghavendra/r2e-gym-subset-swebench-formatted

下载链接

链接失效反馈

官方服务：

资源简介：

R2E-Gym-Subset数据集是一个适用于SWE-bench风格工具的R2E-Gym数据集子集，包含4578个实例。该数据集经过筛选，只包含最终应该通过测试的测试行。所有测试都被列为FAIL_TO_PASS，而PASS_TO_PASS列为空。提交补丁被分为解决方案补丁和非解决方案测试补丁。数据集包含多个特征字段，如image_name、repo、base_commit等，以提供详细的提交和测试信息。

创建时间：

2025-11-03

原始信息汇总

R2E-Gym-Subset数据集概述

数据集基本信息

数据集名称：R2E-Gym-Subset in SWE-Bench format
数据规模：4,578个实例
存储大小：68,315,766字节
下载大小：16,220,510字节
数据格式：与SWE-bench风格工具兼容的格式

数据特征结构

字段说明

image_name：字符串类型，Docker镜像名称
repo：字符串类型，代码仓库信息
base_commit：字符串类型，基础提交哈希
created_at：字符串类型，创建时间
problem_statement：字符串类型，问题描述
patch：字符串类型，解决方案补丁
test_patch：字符串类型，测试补丁
full_patch：字符串类型，完整补丁
hints_text：字符串类型，提示文本
FAIL_TO_PASS：字符串列表，需要从失败转为通过的测试用例
PASS_TO_PASS：空列表，保持通过的测试用例
environment_setup_commit：字符串类型，环境设置提交
difficulty：字符串类型，难度级别
eval_script：字符串类型，评估脚本
test_case_pass_phrase：字符串类型，测试用例通过短语

数据集特性

数据划分

训练集：4,578个样本

数据来源

基于R2E-Gym-Subset数据集（https://huggingface.co/datasets/R2E-Gym/R2E-Gym-Subset/viewer/default/train?row=0&views%5B%5D=train）格式化

特殊处理

仅包含预期最终结果为"PASSED"的测试
所有测试用例均归类于FAIL_TO_PASS字段
PASS_TO_PASS字段保持为空列表
补丁按相关文件分离为解决方案补丁和测试补丁

搜集汇总

数据集介绍

构建方式

在软件工程领域，数据集构建过程涉及对原始R2E-Gym-Subset的精细化处理。通过解析Git提交记录中的文件差异，采用差异分析算法将修改内容划分为核心补丁与测试补丁两个部分。构建时严格筛选预期通过测试用例，并运用统一差异格式标准化代码变更表示，最终形成包含4578个实例的规范化数据集。

特点

该数据集专为强化学习环境设计，其核心特征体现在测试用例的定向过滤机制——仅保留补丁应用后预期通过测试的完整集合。所有测试均被归入FAIL_TO_PASS字段形成统一评估标准，同时通过文件相关性分析实现代码修改的智能分类。这种结构设计确保了训练样本在奖励机制下的评估一致性。

使用方法

使用者可通过加载标准化数据字段直接接入SWE-bench框架进行模型训练。关键操作包括解析problem_statement字段获取任务描述，结合patch与test_patch字段重构代码变更场景，利用FAIL_TO_PASS字段构建测试验证环境。数据集已预置docker环境标识与提交哈希，支持完整的端到端评估流程。

背景与挑战

背景概述

在软件工程智能化研究领域，自动化代码修复与演化任务逐渐成为关键方向。R2E-Gym-Subset数据集由研究团队基于真实GitHub代码仓库构建，其SWE-Bench格式化版本通过结构化呈现4578个代码修改实例，聚焦于强化学习环境下智能体对软件缺陷的识别与修复能力评估。该数据集通过提取提交记录中的差异化代码片段与测试用例，构建了涵盖问题描述、补丁文件及测试验证的完整链条，为探索代码自主演化机制提供了标准化实验基础。

当前挑战

数据集构建面临双重挑战：在领域问题层面，需精准区分代码修改中功能修复与辅助变更的边界，避免测试验证时的语义混淆；在技术实现层面，原始数据中测试用例预期结果缺乏细粒度标注，迫使构建策略采用二值化奖励假设，可能掩盖部分测试通过模式的内在规律。同时，差异化代码分割依赖文件关联性判定，若原始元数据中相关文件标识不完整，可能导致关键修改被错误归类至非核心补丁区域。

常用场景

经典使用场景

在软件工程智能化研究领域，该数据集为强化学习代理提供了标准化的代码修复环境。通过模拟真实Git仓库中的缺陷修复场景，研究者能够训练智能体理解问题描述、分析代码差异并生成有效补丁。其核心价值在于将自然语言需求与程序修改行为建立映射关系，为自动化代码修复系统构建了可靠的实验平台。

解决学术问题

该数据集有效解决了程序合成领域长期存在的语义对齐难题，通过提供结构化的问题陈述与对应补丁，降低了代码生成任务的模糊性。其精心设计的测试验证机制为评估模型功能正确性提供了量化标准，显著推进了智能编程助手在复杂软件维护任务中的实用化进程，填补了传统基准测试在动态代码演化场景中的空白。

衍生相关工作

基于该数据集的特性，学术界衍生出多项创新研究。SWE-bench框架通过统一评估协议比较不同模型的代码修复能力，而后续工作则探索了多模态学习在程序理解中的应用。这些研究不仅完善了自动化软件工程的理论体系，还催生了新型代码表示学习方法，推动了智能编程技术向更细粒度、更可靠的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集