R2E-Gym-Subset

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/ryankamiri/R2E-Gym-Subset

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个针对MAGRPO双智能体训练优化的R2E-Gym数据集子集，包含70个实例，每个实例包含问题描述和Oracle文件提示，专为2-agent合作和7B模型设计。数据集通过特定的过滤标准筛选，确保实例的文件数量、Oracle大小、问题陈述长度、补丁复杂性和golden patch大小符合要求。

创建时间：

2025-11-03

原始信息汇总

R2E-Gym Subset数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语
标签: 代码、Python、软件工程、MAGRPO、R2E-Gym
规模类别: 1K<n<10K

数据集描述

用途: 专为2智能体MAGRPO训练和7B模型优化的R2E-Gym过滤子集
实例总数: 70
数据格式: 问题描述 + 提示中的Oracle文件

过滤标准

文件数量：每个实例1-2个文件
Oracle大小：总字符数小于100K
问题描述：50-500词
排除仅导入更改
补丁复杂度：2-10个hunk，修改行数≤50行
黄金补丁大小：≤2000字符

使用方式

python from datasets import load_dataset ds = load_dataset("ryankamiri/R2E-Gym-Subset") print(ds[train][0][prompt]) # 问题 + oracle文件 print(ds[train][0][patch]) # 黄金补丁（可读）

保留所有原始R2E-Gym字段：

print(ds[train][0][repo_name]) print(ds[train][0][docker_image]) print(ds[train][0][parsed_commit_content])

引用信息

bibtex @article{jain2025r2e, title={R2e-gym: Procedural environments and hybrid verifiers for scaling open-weights swe agents}, author={Jain, Naman and Singh, Jaskirat and Shetty, Manish and Zheng, Liang and Sen, Koushik and Stoica, Ion}, journal={arXiv preprint arXiv:2504.07164}, year={2025} }

搜集汇总

数据集介绍

构建方式

在软件工程智能化研究领域，R2E-Gym-Subset数据集的构建采用了多维度筛选策略。该数据集从原始R2E-Gym中提取符合特定标准的实例，每个实例限定包含1-2个文件，问题描述长度控制在50-500词范围内。通过排除仅涉及导入语句修改的简单变更，确保代码修改复杂度维持在2-10个代码块之间，且总修改行数不超过50行。黄金补丁的字符规模严格限制在2000字符以内，这种精细化筛选机制有效保障了数据质量与模型训练的适配性。

特点

作为专为多智能体协作场景设计的代码生成数据集，R2E-Gym-Subset展现出鲜明的特征优势。数据集规模经过精心调控，包含70个高质量实例，每个样本均提供完整的问题描述与参考文件组合。其核心价值在于针对双智能体协同训练场景的优化设计，特别适配70亿参数级大型语言模型。数据格式保持高度一致性，所有原始字段如仓库名称、Docker镜像配置等关键信息均得到完整保留，为研究复现提供坚实基础。

使用方法

在实践应用层面，该数据集通过标准化的接口实现便捷调用。研究人员可通过HuggingFace数据集库直接加载数据，使用load_dataset函数即可获取完整训练集。每个数据实例包含提示文本与补丁代码两个核心字段，提示文本整合了问题描述与参考文件信息，补丁字段则提供可读性强的标准解决方案。通过访问原始字段如repo_name、docker_image等元数据，使用者能够深入分析代码修复任务的上下文环境，为智能体训练提供全面支持。

背景与挑战

背景概述

随着人工智能在软件工程领域的深入应用，代码生成与修复任务逐渐成为研究热点。R2E-Gym-Subset数据集由Naman Jain等研究人员于2025年创建，作为R2E-Gym数据集的优化子集，专注于支持多智能体强化学习框架下的代码修复任务。该数据集通过精心设计的筛选标准，旨在解决智能体协作环境中的程序语义理解与代码修改问题，为开发高效的大语言模型训练范式提供了重要支撑，推动了自动化软件工程研究的发展进程。

当前挑战

在软件工程自动化领域，代码修复任务需应对复杂程序语义理解与多文件协同修改的挑战。R2E-Gym-Subset构建过程中面临严格的数据筛选难题：需平衡问题描述长度与代码修改规模，确保实例包含1-2个文件且补丁复杂度控制在特定范围内。同时排除仅含导入语句变更的简单案例，维持黄金补丁字符数限制，这些约束对保持数据集质量与模型训练效果提出了精确要求。

常用场景

经典使用场景

在软件工程与代码生成领域，R2E-Gym-Subset数据集为多智能体协作修复代码缺陷提供了标准化实验环境。该数据集通过精心筛选的70个实例，每个实例包含问题描述与相关代码文件，专门优化了双智能体协作场景，适用于7B参数规模的模型训练。其典型应用包括模拟真实软件开发中的问题定位与修复流程，促进智能体在有限上下文条件下学习协同决策与代码修改策略。

解决学术问题

该数据集有效解决了智能体协同代码修复中的规模适配与任务复杂度平衡问题。通过控制问题描述长度在50-500词、修改块数量在2-10个等技术指标，为研究社区提供了可复现的基准测试环境。其核心价值在于构建了符合实际开发场景的评估框架，推动了程序理解与自动修复技术在数据规模、模型能力与任务难度三者关系上的量化研究。

衍生相关工作

基于该数据集衍生的经典研究主要集中于多智能体强化学习框架的优化。MAGRPO训练范式通过该数据集验证了分布式智能体在代码修改任务中的策略协同机制，后续工作进一步拓展到跨语言代码修复与动态验证系统构建。这些研究共同推动了软件工程智能体从单任务执行向复杂协作范式的演进，为构建下一代自动化软件开发工具奠定理论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集