oscarfco/R2E-Gym-Yiming-Complement-4pct-Lite
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/oscarfco/R2E-Gym-Yiming-Complement-4pct-Lite
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: repo_name
dtype: string
- name: docker_image
dtype: string
- name: commit_hash
dtype: string
- name: parsed_commit_content
dtype: string
- name: execution_result_content
dtype: string
- name: modified_files
sequence: string
- name: modified_entity_summaries
list:
- name: ast_type_str
dtype: string
- name: end_lineno
dtype: int64
- name: file_name
dtype: string
- name: name
dtype: string
- name: start_lineno
dtype: int64
- name: type
dtype: string
- name: relevant_files
sequence: string
- name: num_non_test_files
dtype: int64
- name: num_non_test_func_methods
dtype: int64
- name: num_non_test_lines
dtype: int64
- name: prompt
dtype: string
- name: problem_statement
dtype: string
- name: expected_output_json
dtype: string
- name: runtime_profile
dtype: string
splits:
- name: train
num_bytes: 1301699936
num_examples: 2633
download_size: 381854671
dataset_size: 1301699936
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
This dataset includes various features related to code repositories, such as repository names, docker images, commit hashes, parsed commit content, execution results, modified files, and more. It also provides split information for the training set, download size, and dataset size.
提供机构:
oscarfco
搜集汇总
数据集介绍

构建方式
R2E-Gym-Yiming-Complement-4pct-Lite数据集基于代码仓库的提交历史构建,通过提取特定提交的存储库快照,捕获提交前后解析的代码变更内容以及对应的执行结果。每条样本包含仓库名称、Docker镜像、提交哈希、解析后的提交内容、执行结果、修改文件列表、修改实体摘要(包括抽象语法树类型、起始行号等)、相关文件、非测试文件的统计信息,以及由问题陈述与预期输出JSON构成的提示信息。数据集中训练集包含2633个样本,总大小为1.3GB,旨在为代码理解与生成任务提供丰富的上下文。
特点
该数据集的核心特点在于其多维度、结构化的代码变更表示。它不仅提供了修改前后的代码文本和执行结果,还通过修改实体摘要详细记录了每个变更的AST类型、文件名和行号范围,使得模型能够精确理解代码的局部修改。此外,数据集中包含非测试文件的数量、方法和行数统计,以及问题陈述与预期输出的配对,为评估代码修改的正确性提供了客观基准。Docker镜像字段确保了执行环境的可复现性,进一步增强了数据的可靠性。
使用方法
使用该数据集时,研究者可将`prompt`字段作为输入,引导模型根据`problem_statement`中的问题描述生成代码修改。模型的输出应与`expected_output_json`中的期望结果进行对比,以评估生成的准确性。`parsed_commit_content`和`execution_result_content`可用作监督学习的标注目标,`modified_entity_summaries`则提供了细粒度的修改位置信息,适用于基于注意力机制或结构感知的模型训练。数据集以HuggingFace Datasets格式加载,支持标准数据分片和缓存机制,便于集成到现有训练流程中。
背景与挑战
背景概述
R2E-Gym-Yiming-Complement-4pct-Lite数据集由研究机构于近年构建,聚焦于软件仓库级代码理解与自动修复任务。该数据集以Git提交历史为驱动,通过对开源仓库中4%的修改片段进行结构化提取与补全,形成了涵盖代码变更、执行结果、抽象语法树摘要等多维信息的训练样本。其核心研究问题在于如何利用大规模、细粒度的代码变更数据训练模型,使其具备根据问题描述自动生成修复补丁的能力,从而推动自动化调试与程序修复领域的发展。该数据集在代码智能社区内具有重要影响力,为评估大语言模型的代码修复能力提供了标准化基准。
当前挑战
该数据集面临的主要挑战包括:1)代码变更语义的复杂性——软件仓库中的每次提交往往涉及多个文件的协同修改,且修改意图可能隐含于上下文而非显式体现,模型需从海量变更中准确捕捉修复逻辑;2)执行环境的一致性问题——不同仓库的构建配置、依赖版本差异巨大,为保证执行结果的可复现性,数据集采用Docker镜像固定运行时环境,但镜像维护与兼容性成为构建过程中的长期挑战;3)长尾分布问题——高频出现的简单语法错误易被学习,而罕见但关键的逻辑缺陷因样本稀疏导致模型泛化困难。
常用场景
经典使用场景
R2E-Gym-Yiming-Complement-4pct-Lite数据集专为代码仓库级别的自动化软件工程任务而设计,其核心应用场景聚焦于代码补全与缺陷修复的强化学习训练。该数据集以Git仓库的提交历史为基础,通过精心筛选的修改文件和执行结果,构建了从问题陈述到预期输出的完整闭环。研究人员可利用该数据集的‘prompt’和‘problem_statement’字段,训练模型理解代码变更的上下文,并生成符合语义的正确代码片段,从而推动代码智能生成技术在真实开发环境中的落地。
实际应用
在实际应用中,该数据集可被集成到代码审查与持续集成流水线中,助力开发团队实现高效的缺陷检测与自动修复。例如,通过基于该数据集训练的模型,当开发者推送代码变更并触发CI时,系统可自动分析提交内容并生成补丁建议,显著降低人工排查和修复的时间成本。此外,该资源还可用于教育领域,为编程初学者提供实时代码纠错反馈,提升代码质量与学习效率。
衍生相关工作
该数据集衍生出了一系列相关经典工作,包括基于强化学习的代码补全策略优化、多文件协同修复的图神经网络模型,以及可解释的代码变更摘要生成技术。研究者们借助R2E-Gym-Yiming-Complement-4pct-Lite中丰富的‘modified_entity_summaries’和‘relevant_files’信息,探索了将代码结构作为先验知识融入Transformer架构的方法,推动了大语言模型在软件维护任务中的上下文感知能力提升。这些工作不仅丰富了自动化软件工程的工具箱,也为持续学习与自适应代码生成的发展提供了重要参考。
以上内容由遇见数据集搜集并总结生成



