oscarfco/R2E-Gym-Yiming-Combined-4pct
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oscarfco/R2E-Gym-Yiming-Combined-4pct
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: docker_image
dtype: string
- name: commit_hash
dtype: string
- name: parsed_commit_content
dtype: string
- name: execution_result_content
dtype: string
- name: modified_files
sequence: string
- name: modified_entity_summaries
list:
- name: ast_type_str
dtype: string
- name: end_lineno
dtype: int64
- name: file_name
dtype: string
- name: name
dtype: string
- name: start_lineno
dtype: int64
- name: type
dtype: string
- name: relevant_files
sequence: string
- name: num_non_test_files
dtype: int64
- name: num_non_test_func_methods
dtype: int64
- name: num_non_test_lines
dtype: int64
- name: prompt
dtype: string
- name: problem_statement
dtype: string
- name: expected_output_json
dtype: string
- name: runtime_profile
dtype: string
splits:
- name: train
num_bytes: 4527910868
num_examples: 6907
download_size: 1208633762
dataset_size: 4527910868
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset is related to code repositories and software engineering, featuring multiple fields such as repo_name, docker_image, commit_hash, parsed_commit_content, execution_result_content, modified_files, modified_entity_summaries (including ast_type_str, end_lineno, file_name, etc.), relevant_files, num_non_test_files, num_non_test_func_methods, num_non_test_lines, prompt, problem_statement, and expected_output_json. These features suggest the dataset may be used for code execution analysis, code modification tracking, or automated code generation tasks, supporting the training and evaluation of machine learning models in software engineering applications.
提供机构:
oscarfco
搜集汇总
数据集介绍

构建方式
该数据集基于R2E-Gym框架与Yiming仓库的代码库,通过对Git提交记录进行深度解析与执行验证构建而成。具体而言,研究者从Yiming仓库中筛选出特定比例的提交(4%),解析每个提交对应的代码变更内容、相关文件及实体摘要,并在隔离的Docker容器中执行以获取运行时配置文件与执行结果。此外,通过提取修改的实体摘要(包括AST类型、起始行号等结构化信息)与非测试文件的统计指标,形成了覆盖6907个训练样本的高质量数据集。
特点
数据集的核心特点在于其多维度的结构化信息与执行验证机制。每个样本不仅包含仓库名称、Docker镜像与提交哈希等元数据,还提供了解析后的提交内容、可验证的执行结果JSON及运行时配置文件。特别地,修改实体的摘要信息(如AST类型与代码位置)与相关文件列表的结合,使得模型能够理解代码变更的上下文依赖性。同时,prompt与problem_statement字段的设计为代码推理任务提供了明确的问题描述与预期输出,增强了数据集的实用性与可复现性。
使用方法
该数据集主要用于训练和评估基于代码理解的智能体模型,特别适用于代码修复、变更总结与执行预测任务。用户可通过HuggingFace Datasets库加载default配置下的训练分片(路径为data/train-*),并利用repo_name、commit_hash等字段筛选特定仓库或提交的样本。结合parsed_commit_content与execution_result_content字段,可构建从代码变更到执行结果的映射关系,而modified_entity_summaries与relevant_files则支持细粒度的代码上下文分析。推荐在编程竞赛或软件工程自动化场景中,将prompt作为输入,以expected_output_json为监督信号进行微调或评估。
背景与挑战
背景概述
R2E-Gym-Yiming-Combined-4pct数据集诞生于软件工程与机器学习交叉领域,旨在推动代码智能体在真实仓库环境下的自动化修复与执行能力。该数据集由研究机构精心创建,聚焦于将代码仓库的提交历史转化为可训练、可评估的强化学习环境,核心研究问题在于如何让模型理解代码变更的意图、执行结果以及上下文依赖关系。通过对数千个repository的commit进行结构化解析,数据集提供了从问题描述到期望输出、从修改实体摘要到运行时剖面的完整链条,为智能体学习代码编辑、测试执行和结果验证提供了坚实基准。其在代码生成与程序修复领域的影响力日益凸显,成为评估AI能否胜任复杂软件维护任务的关键资源。
当前挑战
该数据集应对的领域挑战在于,代码智能体不仅需要生成符合语法的代码,更需理解变更对既有测试与运行时行为的影响,这在以往数据集中常被忽略。构建过程中的挑战则体现在多维度上:首先,从海量commit中提取与问题修复相关的修改实体,需精确区分功能性变更与非功能性调整,避免噪声干扰;其次,跨仓库的Docker镜像环境配置复杂,确保执行结果可复现极富技巧性;最后,将自然语言问题陈述与结构化的代码差分、执行结果对齐以形成统一训练样本,对数据清洗与标注流程要求极高,任何环节的偏差都会削弱模型学习到的因果关联。
常用场景
经典使用场景
R2E-Gym-Yiming-Combined-4pct数据集是为软件工程与代码智能领域精心构建的强化学习训练环境。其核心用途在于为基于代码仓库的自动化任务提供可执行的、环境反馈丰富的模拟场景。研究者可利用该数据集训练智能体对真实世界中的代码仓库执行修改、调试与重构操作,通过执行结果与运行时的反馈信号,驱动强化学习策略的优化与迭代。该数据集涵盖了完整的提交历史、被修改实体的抽象语法树摘要、执行结果内容以及运行时配置文件,从而为代码理解、程序修复与代码生成等任务提供了结构化的训练与评估基准。其采样策略聚焦于规模适中的仓库子集,降低了初始探索的复杂度,成为评估代码智能体在现实开发环境中推理与行动能力的经典起点。
衍生相关工作
围绕R2E-Gym-Yiming-Combined-4pct衍生了一系列具有影响力的研究工作。它作为R2E(Repository-to-Environment)框架的组成部分,催生了将任意Git仓库转化为交互式代码智能体训练标准流程的方法论。相关经典工作包括基于该数据集训练的CodeRL智能体,证明了强化学习信号在代码生成质量提升上的有效性;此外,该数据集被用于评估和对比多种代码仓库级别的程序修复算法,推动了如RecoveryRL与RepairAgent等模型的性能突破。在学术社区中,它成为衡量代码智能体在真实仓库上执行多步修改任务能力的标杆,引发了关于环境反馈粒度与学习效率关系的深入讨论。这些衍生探索共同促进了将软件仓库视为动态实验室的认知转变,为下一代自主软件开发系统奠定了数据与实验基础。
数据集最近研究
最新研究方向
在代码智能与自动化软件工程的前沿领域,R2E-Gym-Yiming-Combined-4pct数据集聚焦于基于真实Git仓库提交历史的端到端代码执行反馈学习。该数据集以细粒度的代码变更实体摘要、执行结果与运行时剖析为核心,为训练能够理解复杂代码逻辑变迁的AI代理提供了关键资源。其研究方向紧密关联当前热点——即通过强化学习与执行反馈循环提升大型语言模型在自动程序修复、代码审查及测试生成等任务中的可靠性。该数据集的引入将显著推动可执行智能体的开发,促使代码生成模型从静态输出向动态验证演进,对构建具备鲁棒性、可部署性的自主代码系统具有深远意义。
以上内容由遇见数据集搜集并总结生成



