R2E-Gym-Full

Hugging Face2025-11-23 更新2025-11-24 收录

下载链接：

https://huggingface.co/datasets/ryankamiri/R2E-Gym-Full

下载链接

链接失效反馈

官方服务：

资源简介：

R2E-Gym针对MAGRPO优化的子集，包含167个实例，每个实例由问题描述和Oracle文件组成，专为7B模型的双代理协作优化。数据集经过筛选，确保每个实例满足特定的复杂度和协作性标准。

创建时间：

2025-11-23

原始信息汇总

R2E-Gym-Full数据集概述

基本信息

许可证: Apache 2.0
任务类别: 文本生成
语言: 英语
标签: 代码、Python、软件工程、magrpo、r2e-gym
规模: 1K<n<10K

数据集统计

总实例数: 167
格式: 问题描述 + 提示中的Oracle文件
优化目标: 2智能体协作、7B模型

数据特征

repo_name: 仓库名称
docker_image: Docker镜像
commit_hash: 提交哈希
parsed_commit_content: 解析的提交内容
execution_result_content: 执行结果内容
modified_files: 修改的文件列表
modified_entity_summaries: 修改实体摘要列表
relevant_files: 相关文件列表
num_non_test_files: 非测试文件数量
num_non_test_func_methods: 非测试函数方法数量
num_non_test_lines: 非测试行数
prompt: 问题描述 + Oracle文件（智能体可见内容）
problem_statement: 问题陈述
expected_output_json: 预期输出JSON
patch: Oracle补丁（仅非测试文件 - 智能体应生成的内容）
test_patch: 测试文件变更（可选提示，评估期间可自动应用）
issue_categories: 问题类别
change_locations: 变更位置
complexity_score: 复杂度分数
complexity: 复杂度
suitable_for_collaboration: 适合协作
collaboration_potential: 协作潜力
reasoning: 推理

筛选标准

问题陈述：>40词（最多500词用于上下文窗口）
必须具有非空Oracle补丁（非测试文件变更）
文件数量：恰好1个Oracle文件（仅单文件变更）
Oracle大小：总字符数<100K
无文件添加或移除（仅修改）
补丁复杂度：1-3个hunk，≤15行变更
黄金补丁大小：≤2050字符
总提示词数：≤720词
Oracle文件中无导入添加
协作友好：≥2个hunk OR ≥2个不同编辑位置（通过上下文分隔）

使用方式

python from datasets import load_dataset ds = load_dataset("ryankamiri/R2E-Gym-Subset")

引用信息

bibtex @article{jain2025r2e, title={R2e-gym: Procedural environments and hybrid verifiers for scaling open-weights swe agents}, author={Jain, Naman and Singh, Jaskirat and Shetty, Manish and Zheng, Liang and Sen, Koushik and Stoica, Ion}, journal={arXiv preprint arXiv:2504.07164}, year={2025} }

搜集汇总

数据集介绍

构建方式

在软件工程研究领域，R2E-Gym-Full数据集通过精心设计的筛选机制构建而成。其基础来源于开源代码库的提交记录，采用SWE-bench Lite风格的多层次过滤标准，确保数据质量与适用性。具体流程包括提取问题描述与代码修改内容，限定单文件变更模式，并严格控制补丁复杂度在1-3个代码块内。该构建方法特别注重保持修改操作的纯粹性，排除文件增删情形，仅保留代码修改记录，同时通过字符长度与上下文规模的双重约束，形成适合多智能体协作研究的标准化数据单元。

特点

该数据集呈现出鲜明的专业化特征，其核心价值体现在为多智能体协作研究量身定制的数据结构。每个数据实例完整包含问题陈述、预期补丁和测试补丁三重要素，形成闭环验证体系。特别值得注意的是数据集对协作友好性的深度优化，通过要求至少两个独立编辑位置或代码块的设计，天然契合分布式决策场景。所有原始R2E-Gym字段的完整保留，使得数据在保持前沿研究特性的同时，兼具历史可追溯性，为软件工程智能体研究提供了难得的实验平台。

使用方法

在具体应用层面，研究者可通过标准化的数据加载接口快速启用该数据集。使用流程始于通过HuggingFace数据集库加载预处理的训练分割，随后即可访问包含问题描述与参考文件的提示字段，以及分别存储非测试文件修改和测试文件变更的补丁字段。完整的数据字段体系允许研究者灵活提取代码库元信息、执行结果等辅助数据，为构建端到端的软件修复智能体训练 pipeline 提供了完整的数据支撑，特别适合7B参数规模模型的多智能体协同训练场景。

背景与挑战

背景概述

R2E-Gym-Full数据集由加州大学伯克利分校等研究机构于2025年联合构建，聚焦于软件工程领域的智能代码修复与多智能体协作问题。该数据集通过提取真实代码仓库的提交记录与问题描述，构建了包含代码修改、测试补丁及执行结果的完整数据生态，为探索大型语言模型在程序修复任务中的泛化能力提供了重要基准。其核心研究目标在于推动自动化软件工程工具的发展，通过结构化的问题-解决方案对，显著提升了智能体在复杂代码变更任务中的决策效率与准确性。

当前挑战

数据集构建过程中面临代码变更的语义一致性与语法正确性双重验证挑战，需确保补丁内容在多种运行环境下均能通过动态测试。在解决软件工程自动化修复问题时，模型需克服长程代码依赖解析与多文件协同修改的复杂性，同时需平衡提示词信息密度与模型上下文窗口的限制。多智能体协作场景进一步要求任务分解与责任分配的精确对齐，避免因局部优化导致整体功能失效。

常用场景

经典使用场景

在软件工程智能化研究领域，R2E-Gym-Full数据集为多智能体协作编程任务提供了标准化的评估环境。该数据集通过精心筛选的167个实例，聚焦于双智能体在代码修改任务中的协同决策过程，每个实例包含问题描述、相关代码文件及预期补丁，为训练7B参数规模的模型提供了优化的输入输出结构。其典型应用体现在模拟真实软件开发场景中，智能体需基于问题陈述分析代码逻辑，并生成符合规范的非测试文件修改方案。

衍生相关工作

基于该数据集衍生的经典研究包括多智能体强化学习框架MAGRPO在代码生成领域的适配优化。相关工作探索了智能体间通过任务分解与知识共享提升代码修改准确性的机制，部分研究进一步扩展了混合验证方法，结合静态分析与动态测试构建更稳健的评估体系。这些衍生成果持续推动着智能编程助手在复杂软件工程场景中的能力边界拓展。

数据集最近研究