oscarfco/R2E-Gym-Yiming-From-Clean-4pct-4274
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oscarfco/R2E-Gym-Yiming-From-Clean-4pct-4274
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: docker_image
dtype: string
- name: commit_hash
dtype: string
- name: parsed_commit_content
dtype: string
- name: execution_result_content
dtype: string
- name: modified_files
sequence: string
- name: modified_entity_summaries
list:
- name: ast_type_str
dtype: string
- name: end_lineno
dtype: int64
- name: file_name
dtype: string
- name: name
dtype: string
- name: start_lineno
dtype: int64
- name: type
dtype: string
- name: relevant_files
sequence: string
- name: num_non_test_files
dtype: int64
- name: num_non_test_func_methods
dtype: int64
- name: num_non_test_lines
dtype: int64
- name: prompt
dtype: string
- name: problem_statement
dtype: string
- name: expected_output_json
dtype: string
- name: difficulty
dtype: float64
- name: instance_id
dtype: string
- name: runtime_profile
dtype: string
splits:
- name: train
num_bytes: 3226327411
num_examples: 4274
download_size: 826590973
dataset_size: 3226327411
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset contains structured data related to code repositories and programming tasks, intended for code analysis, software engineering, or AI model training. Features include repository name, Docker image, commit hash, parsed commit content, execution result content, modified files list, modified entity summaries (e.g., AST type, line numbers, file names), relevant files, number of non-test files, number of non-test functions/methods, number of non-test lines, prompt text, problem statement, expected output JSON, difficulty level, instance ID, and runtime profile. The data is split into a training set with 4274 examples and a total size of approximately 3.2GB.
提供机构:
oscarfco
搜集汇总
数据集介绍

构建方式
R2E-Gym-Yiming-From-Clean-4pct-4274数据集源自软件工程领域的自动化程序修复与代码理解任务,其构建过程严格遵循高质量数据筛选原则。该数据集从海量代码仓库中抽取了4274个训练样本,每个样本均包含仓库名称、Docker镜像、提交哈希及解析后的提交内容等关键元信息。为确保数据纯净性,构建时剔除了测试文件干扰,仅保留经过清洗的非测试代码片段,并记录了每个样本的修改文件列表、修改实体摘要(包括AST类型、起始行号、文件名等)以及相关文件集合。通过提取代码变更前后的执行结果与预期输出JSON,该数据集形成了完整的“问题-补丁”对,为模型学习代码转换逻辑提供了结构清晰的监督信号。
特点
该数据集的核心特点在于其精细化的多维度标注与高生态保真度。每一条样本不仅包含自然语言描述的问题陈述(problem_statement)和面向模型的提示词(prompt),还提供了代码执行后的运行时剖面(runtime_profile)与难度评分(difficulty),方便研究者评估任务复杂度。修改实体摘要以结构化列表形式呈现,详细记录了每个被修改函数的名称、类型及在文件中的起止行号,高度契合基于抽象语法树的代码分析范式。此外,数据集保留了完整的提交上下文(commit_hash)和Docker环境配置,使得实验环境可复现,适用于端到端的代码修复智能体训练与评估。
使用方法
使用该数据集时,研究者可直接加载HuggingFace上的默认配置,通过指定split为'train'获取全部4274个样本。每个样本以字典形式提供,字段涵盖从原始代码到执行结果的完整链路。典型用法是构建基于大语言模型的代码修复系统:利用'prompt'字段作为输入,以'expected_output_json'为目标输出进行监督微调,同时可结合'problem_statement'设计上下文学习策略。由于数据集中无预定义测试集,建议用户自行按照需求划分训练与验证子集,并利用'runtime_profile'和'difficulty'字段对模型在异构环境下的泛化能力进行多维度评测。
背景与挑战
背景概述
R2E-Gym-Yiming-From-Clean-4pct-4274数据集由研究机构Yiming团队构建,创建于近年,旨在为代码仓库级程序修复与执行环境提供标准化训练与评估资源。该数据集聚焦于自动化程序修复领域,核心研究问题在于如何通过强化学习范式,使模型能够理解多文件代码变更的语义并生成可执行的补丁。通过对4274个经过精心筛选的干净代码实例进行标注,每个实例包含提交内容、执行结果、上下文信息及难度标签,该数据集为探究代码修复模型在真实仓库环境下的泛化能力奠定了重要基础。其对相关领域的影响力体现在:推动了从单函数修复向多文件、上下文感知的复杂修复任务的研究转向,为跨文件代码修改的自动化评估提供了可复现的基准。
当前挑战
该数据集所解决的领域挑战在于,代码修复任务常因依赖不完整、多文件关联复杂及执行环境差异而难以自动化,现有数据集多局限于单文件或语法级错误,缺乏对执行结果与实际应用场景的建模。构建过程中面临着从大规模提交日志中识别并过滤干净、可执行的修复记录,保证修改范围仅涉及功能代码而非测试文件,并确保生成的提示与预期输出具备可执行性与可验证性。此外,还需在有限计算资源下设计合理的难度分配机制,以平衡简单修复与复杂跨文件变更之间的分布,使模型训练能覆盖多样化的真实场景。数据集的划分仅包含训练集,对公平评估与领域适应性的验证也提出了挑战。
常用场景
经典使用场景
R2E-Gym-Yiming-From-Clean-4pct-4274数据集专为代码仓库级别的自动化软件工程任务而设计,其核心使用场景聚焦于从真实代码变更记录中学习修复缺陷、生成补丁或实现功能增强。该数据集包含大量经过精炼的提交记录,每条样本均提供完整的提交内容、执行结果以及程序依赖的上下文信息。研究者可以借助这些数据,训练模型理解代码仓库的整体结构与变更意图,从而提升在复杂软件生态中的代码生成与修复能力。经典范式是将问题描述和仓库上下文作为输入,让模型预测预期的代码变更,再通过执行结果进行验证,形成一个闭环的强化学习环境。
解决学术问题
该数据集解决了学术界在自动化程序修复和代码生成领域面临的关键瓶颈:缺乏高质量、规模适中且带有执行反馈的真实仓库级训练数据。以往的数据集多聚焦于单文件或细粒度函数级别的修复,难以反映跨文件依赖、测试覆盖和运行时行为等复杂因素。R2E-Gym通过提供带有执行结果与难度评分的实例,使得研究者能够基于强化学习范式训练模型,探索在持续集成环境中自动定位缺陷、生成补丁并验证正确性的可行路径。其意义在于推动了程序修复从理论假设向可执行验证的转变,为构建更鲁棒的自动化开发助手奠定了数据基础。
衍生相关工作
基于R2E-Gym数据集,已经衍生了多项在程序修复和代码生成领域具有影响力的研究工作。其中最经典的是将强化学习与代码生成相结合的流水线,研究人员利用该数据集中的可执行环境设计奖励函数,训练智能体生成经过执行验证的补丁。此外,该数据集催生了对仓库级别代码表征的方法探索,如融合AST、依赖图和测试覆盖率信息的多模态嵌入模型。后续工作还拓展了跨语言修复、基于自然语言描述的代码变更生成,以及使用大语言模型进行零样本补丁评估等方向,有力地推动了自动化软件维护领域的进步。
以上内容由遇见数据集搜集并总结生成



