Code-R1
收藏github2025-03-03 更新2025-03-04 收录
下载链接:
https://github.com/ganler/code-r1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了用于代码生成任务的R1管道的再现实现,其中包括了LeetCode数据集和从TACO数据集中筛选出的10K验证数据。
This dataset contains the reproducible implementation of the R1 pipeline for code generation tasks, which includes the LeetCode dataset and 10K validation data filtered from the TACO dataset.
创建时间:
2025-02-16
原始信息汇总
Code-R1: Reproducing R1 for Code with Reliable Rewards
数据集描述
- 数据集名称:Code-R1
- 数据集用途:用于代码生成的R1管道复现
- 数据集包含:2K Code-R1样本,以及从26K TACO数据中过滤出的10K验证数据
- 关键发现:奖励的质量很重要。数据集中的错误阳性以及执行过程中的问题会混淆模型
- 实施方法:一个可靠的、可扩展的、沙盒化的管道,以最小化数据集和执行中的奖励错误阳性
数据集构成
- 样本数量:当前版本包含12K RL样本(提示+测试)
- 数据来源:
- 2K LeetCode数据
- 从26K TACO数据中过滤出的10K验证数据
模型训练结果
- 模型性能提升:使用2K LeetCode数据和12K数据(包括10K TACO验证数据)训练的模型在多个评估指标上均有所提升
- 对比模型:与Qwen2.5-Coder-7B-Instruct、Eurus-2-7B-PRIME和Sky-T1-7B进行了对比
使用说明
- 环境设置:提供了pip安装命令以及沙盒化环境的搭建方法
- 数据预处理:提供了数据预处理的Python脚本
- 训练脚本:提供了训练的bash脚本
模型
- CodeR1-Zero-Qwen2.5-7B-12k-832:使用12K RL样本训练的模型
- CodeR1-Zero-Qwen2.5-7B-LC2k-1088:使用2K RL样本(来自LeetCode)训练的模型
引用
bibtex @article{code-r1, title={Code-R1: Reproducing R1 for Code with Reliable Rewards}, author={Liu, Jiawei and Zhang, Lingming}, howpublished={url{https://github.com/ganler/code-r1}}, year={2025} }
许可
Apache-2.0。更多细节见LICENSE.code-r1
搜集汇总
数据集介绍

构建方式
Code-R1数据集的构建基于对代码生成的R1管道的重现,并采用了一种可靠、可扩展且沙盒化的管道以最小化数据集和执行中的奖励假阳性问题。该数据集包含了12K的强化学习样本(提示+测试),其中包括2K的LeetCode数据和从26K的TACO数据中过滤出的10K验证数据。
特点
Code-R1数据集的特点在于其高质量奖励的重要性,数据集中的假阳性和执行过程中的错误可能导致模型混淆。通过使用沙盒化环境,该数据集有效降低了这些噪声干扰。此外,该数据集在模型性能上表现出显著提升,尤其是在使用12K样本进行训练时。
使用方法
使用Code-R1数据集前,建议在每个数据集和环境上进行测试和沙盒化处理,以避免使用噪声数据和匹配不当的环境。本地验证强化学习数据可以通过运行特定的预处理脚本生成。训练和运行脚本针对特定硬件配置进行了优化,可能需要根据个人工作站进行设置调整。
背景与挑战
背景概述
Code-R1数据集是一项旨在提高代码生成质量的研究成果,由Liu Jiawei和Zhang Lingming于2025年提出。该数据集的创建背景源于对代码生成中奖励质量重要性的认识,通过采用可靠奖励的方式,减少了数据集和执行过程中的误报现象,从而优化了模型性能。Code-R1在代码生成领域具有显著影响力,其研究成果为相关领域提供了新的视角和方法。
当前挑战
Code-R1数据集在构建过程中面临的挑战主要包括:确保奖励的可靠性,避免数据集和执行过程中的误报;提高数据处理和模型训练的效率,特别是在大规模数据集上的应用;以及处理执行环境不匹配带来的噪声问题。在所解决的领域问题方面,Code-R1数据集通过精确的奖励机制和沙盒环境,提高了代码生成任务的准确性和效率。
常用场景
经典使用场景
Code-R1数据集,旨在为代码生成任务提供可靠的奖励评估,其经典使用场景在于通过精确的奖励信号训练代码生成模型,以实现高质量的代码自动生成。该数据集通过沙盒环境执行代码,减少数据集和执行中的误报,确保模型训练的稳定性和效率。
实际应用
在实际应用中,Code-R1数据集可以用于提高编程助手、自动化测试以及代码审核系统的性能。通过提供可靠的奖励信号,这些系统可以更加准确地评估代码质量,从而提升编程效率和软件可靠性。
衍生相关工作
基于Code-R1数据集,研究者们已经衍生出多项相关工作,如优化模型结构、改进奖励信号设计等。这些工作进一步推动了代码生成模型的性能提升,对软件开发自动化领域产生了积极影响。
以上内容由遇见数据集搜集并总结生成



