OPENCODEREASONING
收藏arXiv2025-04-03 更新2025-04-08 收录
下载链接:
http://arxiv.org/abs/2504.01943v1
下载链接
链接失效反馈官方服务:
资源简介:
OPENCODEREASONING是一个大规模的推理型合成数据集,由NVIDIA公司创建,包含736,712个用Python编写的代码解决方案和推理跟踪,涵盖28,904个独特的竞技编程问题。该数据集通过收集各种来源的竞技编程问题,使用具有推理功能的大型语言模型生成响应,并对响应进行后处理来构建。数据集的创建旨在推进大语言模型在编码任务上的推理能力,并用于微调Qwen2.5模型,以实现在LiveCodeBench和CodeContests基准测试上的最佳性能。
OPENCODEREASONING is a large-scale reasoning synthetic dataset created by NVIDIA. It contains 736,712 Python-written code solutions and reasoning traces, covering 28,904 unique competitive programming problems. The dataset is constructed by collecting competitive programming problems from various sources, generating responses with large language models equipped with reasoning capabilities, and performing post-processing on the responses. It is developed to advance the reasoning capabilities of large language models on coding tasks, and is used for fine-tuning the Qwen2.5 model to achieve state-of-the-art performance on the LiveCodeBench and CodeContests benchmarks.
提供机构:
NVIDIA Santa Clara, CA 15213, USA
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
OPENCODEREASONING数据集的构建过程分为三个主要步骤。首先,从多个公开平台收集了28,904个独特的竞争性编程问题,涵盖了从AIZU到LeetCode等11个不同来源。其次,利用具备推理能力的大型语言模型DeepSeek-R1生成Python和C++的解决方案,每个问题平均生成25.5个解决方案样本。最后,通过严格的后期处理流程对生成的解决方案进行验证和过滤,包括检查推理痕迹的完整性、代码块的语法正确性以及执行过滤等步骤,最终形成包含736,712个Python样本和355,792个C++样本的大规模数据集。
特点
该数据集最显著的特点是规模庞大且多样性丰富,包含超过73万个代码解决方案样本,覆盖了广泛的编程问题难度和类型。数据集特别注重保留原始模型生成的推理痕迹(标记为<think>和</think>),这为研究代码生成中的推理过程提供了宝贵资源。另一个关键特征是数据集中同时包含正确和错误的解决方案,这为研究模型在错误中学习的能力提供了独特机会。此外,数据集通过严格的基准污染验证确保了评估的公正性。
使用方法
OPENCODEREASONING数据集主要用于通过监督微调(SFT)提升语言模型的代码生成能力。研究者在Qwen2.5系列模型(7B、14B和32B参数规模)上进行了微调实验,采用AdamW优化器、5e-5的学习率和余弦退火调度器,训练3个epoch。评估时使用温度0.6的核采样方法,在LiveCodeBench和CodeContests等基准测试上进行多轮(64次)推理以获得稳定结果。数据集还可用于分析代码生成中的推理模式,研究不同难度问题的解决策略,以及探索多语言代码生成等研究方向。
背景与挑战
背景概述
OPENCODEREASONING数据集由NVIDIA的研究团队于2025年构建,旨在推进大型语言模型在编程领域的推理能力。该数据集包含736,712个Python代码样本,覆盖28,904个独特的竞争性编程问题,是目前规模最大的代码推理数据集。研究团队通过监督微调(SFT)方法,在Qwen2.5系列模型上实现了在LiveCodeBench和CodeContests基准测试中的最先进性能,显著缩小了仅使用SFT的模型与结合强化学习(RL)的模型之间的性能差距。该数据集的构建不仅推动了代码生成领域的发展,还为研究社区提供了高质量的开放资源。
当前挑战
OPENCODEREASONING数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,该数据集旨在解决代码生成中的复杂推理问题,但如何平衡指令多样性与解决方案正确性仍是一个关键挑战,研究发现执行过滤可能对基准准确性产生负面影响。在构建过程中,研究团队遇到了数据规模与模型性能之间的平衡问题,尤其是在处理高难度编程问题时,模型生成的错误解决方案较多,但意外发现这些错误解决方案对模型性能提升仍有积极影响。此外,多语言支持(如C++)对Python基准性能的提升效果有限,如何优化多语言数据的利用策略仍需进一步探索。
常用场景
经典使用场景
在编程竞赛和算法研究领域,OPENCODEREASONING数据集被广泛用于训练和评估大型语言模型在代码生成和推理任务上的表现。该数据集通过提供大量带有推理轨迹的编程问题解决方案,使得研究人员能够深入探索模型在解决复杂编程问题时的思维过程。特别是在LiveCodeBench和CodeContests等基准测试中,该数据集展现了其在提升模型代码生成能力方面的显著效果。
实际应用
在实际应用中,OPENCODEREASONING数据集被用于开发智能编程助手和自动化代码生成工具。这些工具能够帮助开发者快速解决编程难题,提高开发效率。特别是在竞争性编程和教育领域,该数据集的应用显著提升了学习者的编程能力和问题解决技巧。
衍生相关工作
OPENCODEREASONING数据集衍生了一系列相关研究,包括DeepSeek-R1和R1-Distill-Qwen等模型。这些研究进一步探索了推理能力的蒸馏方法,并在LiveCodeBench和CodeContests等基准测试中取得了显著成果。此外,该数据集还启发了对多语言代码生成和推理模式分析的深入研究。
以上内容由遇见数据集搜集并总结生成



