five

r2e-gym-subset-swebench-formatted

收藏
Hugging Face2025-11-03 更新2025-11-04 收录
下载链接:
https://huggingface.co/datasets/mohit-raghavendra/r2e-gym-subset-swebench-formatted
下载链接
链接失效反馈
官方服务:
资源简介:
R2E-Gym-Subset数据集是一个适用于SWE-bench风格工具的R2E-Gym数据集子集,包含4578个实例。该数据集经过筛选,只包含最终应该通过测试的测试行。所有测试都被列为FAIL_TO_PASS,而PASS_TO_PASS列为空。提交补丁被分为解决方案补丁和非解决方案测试补丁。数据集包含多个特征字段,如image_name、repo、base_commit等,以提供详细的提交和测试信息。
创建时间:
2025-11-03
原始信息汇总

R2E-Gym-Subset数据集概述

数据集基本信息

  • 数据集名称:R2E-Gym-Subset in SWE-Bench format
  • 数据规模:4,578个实例
  • 存储大小:68,315,766字节
  • 下载大小:16,220,510字节
  • 数据格式:与SWE-bench风格工具兼容的格式

数据特征结构

字段说明

  • image_name:字符串类型,Docker镜像名称
  • repo:字符串类型,代码仓库信息
  • base_commit:字符串类型,基础提交哈希
  • created_at:字符串类型,创建时间
  • problem_statement:字符串类型,问题描述
  • patch:字符串类型,解决方案补丁
  • test_patch:字符串类型,测试补丁
  • full_patch:字符串类型,完整补丁
  • hints_text:字符串类型,提示文本
  • FAIL_TO_PASS:字符串列表,需要从失败转为通过的测试用例
  • PASS_TO_PASS:空列表,保持通过的测试用例
  • environment_setup_commit:字符串类型,环境设置提交
  • difficulty:字符串类型,难度级别
  • eval_script:字符串类型,评估脚本
  • test_case_pass_phrase:字符串类型,测试用例通过短语

数据集特性

数据划分

  • 训练集:4,578个样本

数据来源

  • 基于R2E-Gym-Subset数据集(https://huggingface.co/datasets/R2E-Gym/R2E-Gym-Subset/viewer/default/train?row=0&views%5B%5D=train)格式化

特殊处理

  • 仅包含预期最终结果为"PASSED"的测试
  • 所有测试用例均归类于FAIL_TO_PASS字段
  • PASS_TO_PASS字段保持为空列表
  • 补丁按相关文件分离为解决方案补丁和测试补丁
搜集汇总
数据集介绍
构建方式
在软件工程领域,数据集构建过程涉及对原始R2E-Gym-Subset的精细化处理。通过解析Git提交记录中的文件差异,采用差异分析算法将修改内容划分为核心补丁与测试补丁两个部分。构建时严格筛选预期通过测试用例,并运用统一差异格式标准化代码变更表示,最终形成包含4578个实例的规范化数据集。
特点
该数据集专为强化学习环境设计,其核心特征体现在测试用例的定向过滤机制——仅保留补丁应用后预期通过测试的完整集合。所有测试均被归入FAIL_TO_PASS字段形成统一评估标准,同时通过文件相关性分析实现代码修改的智能分类。这种结构设计确保了训练样本在奖励机制下的评估一致性。
使用方法
使用者可通过加载标准化数据字段直接接入SWE-bench框架进行模型训练。关键操作包括解析problem_statement字段获取任务描述,结合patch与test_patch字段重构代码变更场景,利用FAIL_TO_PASS字段构建测试验证环境。数据集已预置docker环境标识与提交哈希,支持完整的端到端评估流程。
背景与挑战
背景概述
在软件工程智能化研究领域,自动化代码修复与演化任务逐渐成为关键方向。R2E-Gym-Subset数据集由研究团队基于真实GitHub代码仓库构建,其SWE-Bench格式化版本通过结构化呈现4578个代码修改实例,聚焦于强化学习环境下智能体对软件缺陷的识别与修复能力评估。该数据集通过提取提交记录中的差异化代码片段与测试用例,构建了涵盖问题描述、补丁文件及测试验证的完整链条,为探索代码自主演化机制提供了标准化实验基础。
当前挑战
数据集构建面临双重挑战:在领域问题层面,需精准区分代码修改中功能修复与辅助变更的边界,避免测试验证时的语义混淆;在技术实现层面,原始数据中测试用例预期结果缺乏细粒度标注,迫使构建策略采用二值化奖励假设,可能掩盖部分测试通过模式的内在规律。同时,差异化代码分割依赖文件关联性判定,若原始元数据中相关文件标识不完整,可能导致关键修改被错误归类至非核心补丁区域。
常用场景
经典使用场景
在软件工程智能化研究领域,该数据集为强化学习代理提供了标准化的代码修复环境。通过模拟真实Git仓库中的缺陷修复场景,研究者能够训练智能体理解问题描述、分析代码差异并生成有效补丁。其核心价值在于将自然语言需求与程序修改行为建立映射关系,为自动化代码修复系统构建了可靠的实验平台。
解决学术问题
该数据集有效解决了程序合成领域长期存在的语义对齐难题,通过提供结构化的问题陈述与对应补丁,降低了代码生成任务的模糊性。其精心设计的测试验证机制为评估模型功能正确性提供了量化标准,显著推进了智能编程助手在复杂软件维护任务中的实用化进程,填补了传统基准测试在动态代码演化场景中的空白。
衍生相关工作
基于该数据集的特性,学术界衍生出多项创新研究。SWE-bench框架通过统一评估协议比较不同模型的代码修复能力,而后续工作则探索了多模态学习在程序理解中的应用。这些研究不仅完善了自动化软件工程的理论体系,还催生了新型代码表示学习方法,推动了智能编程技术向更细粒度、更可靠的方向发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作