Code-R1

github2025-03-03 更新2025-03-04 收录

下载链接：

https://github.com/ganler/code-r1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了用于代码生成任务的R1管道的再现实现，其中包括了LeetCode数据集和从TACO数据集中筛选出的10K验证数据。

This dataset contains the reproducible implementation of the R1 pipeline for code generation tasks, which includes the LeetCode dataset and 10K validation data filtered from the TACO dataset.

创建时间：

2025-02-16

原始信息汇总

Code-R1: Reproducing R1 for Code with Reliable Rewards

数据集描述

数据集名称：Code-R1
数据集用途：用于代码生成的R1管道复现
数据集包含：2K Code-R1样本，以及从26K TACO数据中过滤出的10K验证数据
关键发现：奖励的质量很重要。数据集中的错误阳性以及执行过程中的问题会混淆模型
实施方法：一个可靠的、可扩展的、沙盒化的管道，以最小化数据集和执行中的奖励错误阳性

数据集构成

样本数量：当前版本包含12K RL样本（提示+测试）
数据来源：
- 2K LeetCode数据
- 从26K TACO数据中过滤出的10K验证数据

模型训练结果

模型性能提升：使用2K LeetCode数据和12K数据（包括10K TACO验证数据）训练的模型在多个评估指标上均有所提升
对比模型：与Qwen2.5-Coder-7B-Instruct、Eurus-2-7B-PRIME和Sky-T1-7B进行了对比

使用说明

环境设置：提供了pip安装命令以及沙盒化环境的搭建方法
数据预处理：提供了数据预处理的Python脚本
训练脚本：提供了训练的bash脚本

模型

CodeR1-Zero-Qwen2.5-7B-12k-832：使用12K RL样本训练的模型
CodeR1-Zero-Qwen2.5-7B-LC2k-1088：使用2K RL样本（来自LeetCode）训练的模型

引用

bibtex @article{code-r1, title={Code-R1: Reproducing R1 for Code with Reliable Rewards}, author={Liu, Jiawei and Zhang, Lingming}, howpublished={url{https://github.com/ganler/code-r1}}, year={2025} }

许可

Apache-2.0。更多细节见LICENSE.code-r1

搜集汇总

数据集介绍

构建方式

Code-R1数据集的构建基于对代码生成的R1管道的重现，并采用了一种可靠、可扩展且沙盒化的管道以最小化数据集和执行中的奖励假阳性问题。该数据集包含了12K的强化学习样本（提示+测试），其中包括2K的LeetCode数据和从26K的TACO数据中过滤出的10K验证数据。

特点

Code-R1数据集的特点在于其高质量奖励的重要性，数据集中的假阳性和执行过程中的错误可能导致模型混淆。通过使用沙盒化环境，该数据集有效降低了这些噪声干扰。此外，该数据集在模型性能上表现出显著提升，尤其是在使用12K样本进行训练时。

使用方法

使用Code-R1数据集前，建议在每个数据集和环境上进行测试和沙盒化处理，以避免使用噪声数据和匹配不当的环境。本地验证强化学习数据可以通过运行特定的预处理脚本生成。训练和运行脚本针对特定硬件配置进行了优化，可能需要根据个人工作站进行设置调整。

背景与挑战

背景概述

Code-R1数据集是一项旨在提高代码生成质量的研究成果，由Liu Jiawei和Zhang Lingming于2025年提出。该数据集的创建背景源于对代码生成中奖励质量重要性的认识，通过采用可靠奖励的方式，减少了数据集和执行过程中的误报现象，从而优化了模型性能。Code-R1在代码生成领域具有显著影响力，其研究成果为相关领域提供了新的视角和方法。

当前挑战

Code-R1数据集在构建过程中面临的挑战主要包括：确保奖励的可靠性，避免数据集和执行过程中的误报；提高数据处理和模型训练的效率，特别是在大规模数据集上的应用；以及处理执行环境不匹配带来的噪声问题。在所解决的领域问题方面，Code-R1数据集通过精确的奖励机制和沙盒环境，提高了代码生成任务的准确性和效率。

常用场景

经典使用场景

Code-R1数据集，旨在为代码生成任务提供可靠的奖励评估，其经典使用场景在于通过精确的奖励信号训练代码生成模型，以实现高质量的代码自动生成。该数据集通过沙盒环境执行代码，减少数据集和执行中的误报，确保模型训练的稳定性和效率。

实际应用

在实际应用中，Code-R1数据集可以用于提高编程助手、自动化测试以及代码审核系统的性能。通过提供可靠的奖励信号，这些系统可以更加准确地评估代码质量，从而提升编程效率和软件可靠性。

衍生相关工作

基于Code-R1数据集，研究者们已经衍生出多项相关工作，如优化模型结构、改进奖励信号设计等。这些工作进一步推动了代码生成模型的性能提升，对软件开发自动化领域产生了积极影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集