r2e-gym-subset-swebench-formatted
收藏Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/mohit-raghavendra/r2e-gym-subset-swebench-formatted
下载链接
链接失效反馈官方服务:
资源简介:
R2E-Gym-Subset数据集是一个适用于SWE-bench风格工具的R2E-Gym数据集子集,包含4578个实例。该数据集经过筛选,只包含最终应该通过测试的测试行。所有测试都被列为FAIL_TO_PASS,而PASS_TO_PASS列为空。提交补丁被分为解决方案补丁和非解决方案测试补丁。数据集包含多个特征字段,如image_name、repo、base_commit等,以提供详细的提交和测试信息。
创建时间:
2025-11-03
原始信息汇总
R2E-Gym-Subset数据集概述
数据集基本信息
- 数据集名称:R2E-Gym-Subset in SWE-Bench format
- 数据规模:4,578个实例
- 存储大小:68,315,766字节
- 下载大小:16,220,510字节
- 数据格式:与SWE-bench风格工具兼容的格式
数据特征结构
字段说明
image_name:字符串类型,Docker镜像名称repo:字符串类型,代码仓库信息base_commit:字符串类型,基础提交哈希created_at:字符串类型,创建时间problem_statement:字符串类型,问题描述patch:字符串类型,解决方案补丁test_patch:字符串类型,测试补丁full_patch:字符串类型,完整补丁hints_text:字符串类型,提示文本FAIL_TO_PASS:字符串列表,需要从失败转为通过的测试用例PASS_TO_PASS:空列表,保持通过的测试用例environment_setup_commit:字符串类型,环境设置提交difficulty:字符串类型,难度级别eval_script:字符串类型,评估脚本test_case_pass_phrase:字符串类型,测试用例通过短语
数据集特性
数据划分
- 训练集:4,578个样本
数据来源
- 基于R2E-Gym-Subset数据集(https://huggingface.co/datasets/R2E-Gym/R2E-Gym-Subset/viewer/default/train?row=0&views%5B%5D=train)格式化
特殊处理
- 仅包含预期最终结果为"PASSED"的测试
- 所有测试用例均归类于FAIL_TO_PASS字段
- PASS_TO_PASS字段保持为空列表
- 补丁按相关文件分离为解决方案补丁和测试补丁
搜集汇总
数据集介绍
构建方式
在软件工程领域,数据集构建过程涉及对原始R2E-Gym-Subset的精细化处理。通过解析Git提交记录中的文件差异,采用差异分析算法将修改内容划分为核心补丁与测试补丁两个部分。构建时严格筛选预期通过测试用例,并运用统一差异格式标准化代码变更表示,最终形成包含4578个实例的规范化数据集。
特点
该数据集专为强化学习环境设计,其核心特征体现在测试用例的定向过滤机制——仅保留补丁应用后预期通过测试的完整集合。所有测试均被归入FAIL_TO_PASS字段形成统一评估标准,同时通过文件相关性分析实现代码修改的智能分类。这种结构设计确保了训练样本在奖励机制下的评估一致性。
使用方法
使用者可通过加载标准化数据字段直接接入SWE-bench框架进行模型训练。关键操作包括解析problem_statement字段获取任务描述,结合patch与test_patch字段重构代码变更场景,利用FAIL_TO_PASS字段构建测试验证环境。数据集已预置docker环境标识与提交哈希,支持完整的端到端评估流程。
背景与挑战
背景概述
在软件工程智能化研究领域,自动化代码修复与演化任务逐渐成为关键方向。R2E-Gym-Subset数据集由研究团队基于真实GitHub代码仓库构建,其SWE-Bench格式化版本通过结构化呈现4578个代码修改实例,聚焦于强化学习环境下智能体对软件缺陷的识别与修复能力评估。该数据集通过提取提交记录中的差异化代码片段与测试用例,构建了涵盖问题描述、补丁文件及测试验证的完整链条,为探索代码自主演化机制提供了标准化实验基础。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需精准区分代码修改中功能修复与辅助变更的边界,避免测试验证时的语义混淆;在技术实现层面,原始数据中测试用例预期结果缺乏细粒度标注,迫使构建策略采用二值化奖励假设,可能掩盖部分测试通过模式的内在规律。同时,差异化代码分割依赖文件关联性判定,若原始元数据中相关文件标识不完整,可能导致关键修改被错误归类至非核心补丁区域。
常用场景
经典使用场景
在软件工程智能化研究领域,该数据集为强化学习代理提供了标准化的代码修复环境。通过模拟真实Git仓库中的缺陷修复场景,研究者能够训练智能体理解问题描述、分析代码差异并生成有效补丁。其核心价值在于将自然语言需求与程序修改行为建立映射关系,为自动化代码修复系统构建了可靠的实验平台。
解决学术问题
该数据集有效解决了程序合成领域长期存在的语义对齐难题,通过提供结构化的问题陈述与对应补丁,降低了代码生成任务的模糊性。其精心设计的测试验证机制为评估模型功能正确性提供了量化标准,显著推进了智能编程助手在复杂软件维护任务中的实用化进程,填补了传统基准测试在动态代码演化场景中的空白。
衍生相关工作
基于该数据集的特性,学术界衍生出多项创新研究。SWE-bench框架通过统一评估协议比较不同模型的代码修复能力,而后续工作则探索了多模态学习在程序理解中的应用。这些研究不仅完善了自动化软件工程的理论体系,还催生了新型代码表示学习方法,推动了智能编程技术向更细粒度、更可靠的方向发展。
以上内容由遇见数据集搜集并总结生成



