OpenCodeReasoning

Name: OpenCodeReasoning
Creator: NVIDIA
Published: 2025-04-05 08:26:16
License: 暂无描述

Hugging Face2025-04-05 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/nvidia/OpenCodeReasoning

下载链接

链接失效反馈

官方服务：

资源简介：

OpenCodeReasoning是一个包含Python编程语言竞赛问题的数据集，共包含28,319个独特的编程竞赛问题和735,255个样本。该数据集旨在用于监督微调（SFT），适用于训练大型语言模型以生成代码。数据来源于CodeForces等多个编程竞赛平台，并遵循CC BY 4.0国际许可。

OpenCodeReasoning is a dataset containing Python programming contest problems. It includes 28,319 unique programming contest problems and 735,255 samples in total. This dataset is intended for supervised fine-tuning (SFT) and is suitable for training large language models (LLMs) to generate code. The data is sourced from multiple programming contest platforms including CodeForces, and is released under the CC BY 4.0 International License.

提供机构：

NVIDIA

创建时间：

2025-04-02

原始信息汇总

OpenCodeReasoning 数据集概述

基本信息

数据集名称: OpenCodeReasoning
开发者: NVIDIA
发布日期: 2025年4月4日
版本: 1.0
许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
数据集大小: 100K < n < 1M
标签: synthetic

数据概况

样本数量: 735,255
编程语言: Python
唯一编程问题数量: 28,319
用途: 监督微调（SFT）

数据分布

来源	问题数量	样本数量
AIZU	2,123	62,476
AtCoder	2,043	47,222
CodeChef	3,796	72,925
CodeForces	10,069	386,948
Codewars	2,493	34,326
GeeksForGeeks	2,667	37,602
HackerEarth	2,269	59,181
HackerRank	895	10,955
Kattis	1,187	13,095
LeetCode	777	10,525
总计	28,319	735,255

数据字段

字段名	类型	描述
id	string	每个问题的唯一标识符
input	string	输入的编程竞赛问题（仅split_0）
output	string	R1生成的响应
solution	string	R1响应中的代码部分
dataset	string	数据来源数据集名称（如"apps", "taco", "code_contests"）
license	string	数据集的许可证（如"mit", "apache-2.0", "cc-by-4.0"）
split	string	数据集的划分名称（如"train", "valid", "test"）
source	string	编程竞赛平台名称（如CodeForces, CodeChef）
difficulty	string	输入问题的难度标签
index	string	用于从APPS/TACO数据集中检索输入问题的索引（仅split_1可用）

配置信息

split_0:
- 特征数: 9
- 样本数: 567,850
- 大小: 28,108,469,190字节
split_1:
- 特征数: 10
- 样本数: 167,405
- 大小: 4,722,811,278字节

使用方式

python from datasets import load_dataset

ocr_ds_split_0 = load_dataset("nvidia/OpenCodeReasoning", split="split_0") ocr_ds_split_1 = load_dataset("nvidia/OpenCodeReasoning", split="split_1")

数据收集与标注

数据收集方法: 混合（自动化、合成）
标注方法: 混合（自动化、合成）

引用

bibtex @article{ahmad2025opencodereasoning, title={OpenCodeReasoning: Advancing Data Distillation for Competitive Coding}, author={Wasi Uddin Ahmad, Sean Narenthiran, Somshubra Majumdar, Aleksander Ficek, Siddhartha Jain, Jocelyn Huang, Vahid Noroozi, Boris Ginsburg}, year={2025}, eprint={2504.01943}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.01943}, }

搜集汇总

数据集介绍

构建方式

OpenCodeReasoning数据集作为当前规模最大的编程推理合成数据集，其构建过程体现了多源异构数据的融合策略。研究团队从CodeForces、TACO、APPS等10个主流编程竞赛平台采集28,319道独特题目，通过R1模型生成对应的解决方案，最终形成735,255个Python样本。数据采用分片存储架构，split_0直接包含问题描述，而split_1则通过索引机制关联原始数据集，这种设计既保证了数据完整性，又有效规避了部分数据集的测试集泄露风险。

特点

该数据集最显著的特征在于其细粒度的元数据标注体系。每个样本不仅包含问题描述和生成代码，还标注了题目来源平台、许可协议、原始数据集归属等12个维度的信息。特别是难度分级字段和独立解决方案字段的设置，为模型能力评估提供了多维度基准。数据规模达到百万量级且覆盖AIZU、AtCoder等多样化编程场景，使其成为迄今最全面的编程推理基准数据集。

使用方法

使用该数据集时需注意其双分片特性：split_0可直接加载使用，而split_1需要配合TACO或APPS原始数据集进行联合查询。通过HuggingFace的datasets库加载后，开发者可利用output字段进行监督微调，或通过solution字段专注代码生成任务。数据加载时自动关联的许可证信息，要求使用者根据具体应用场景合规使用来自不同源头的数据样本。

背景与挑战

背景概述

OpenCodeReasoning数据集由NVIDIA团队于2025年发布，旨在推动竞争性编程领域的数据蒸馏技术发展。作为迄今为止规模最大的基于推理的合成编码数据集，它汇集了来自CodeForces、LeetCode等10个主流编程平台的28,319道独特题目，共计735,255个Python样本。该数据集通过整合TACO、APPS等多个权威数据源，采用监督微调（SFT）方法构建，显著提升了语言模型在代码生成任务中的逻辑推理能力。其技术细节发表于arXiv预印本平台，为开源模型的持续优化提供了重要基准。

当前挑战

该数据集面临双重核心挑战：在领域问题层面，竞争性编程需要模型同时掌握算法设计、边界条件处理等多元技能，而现有解决方案常缺乏可解释的推理链条；在构建过程中，需协调来自不同许可证（如MIT、Apache-2.0）的异构数据源，并处理原始数据中存在的格式不一致问题。此外，合成响应生成阶段需平衡代码正确性与教学性，确保R1模型输出的解决方案既符合功能要求又具备可学习性。数据集规模达百万量级时，质量控制的复杂度呈指数级增长。

常用场景

经典使用场景

在代码生成与推理领域，OpenCodeReasoning数据集为研究者提供了丰富的资源。该数据集包含来自多个知名编程竞赛平台的28,319个独特问题及其解决方案，特别适用于监督微调（SFT）任务。通过利用这些数据，研究人员能够训练模型在解决复杂编程问题时生成高质量的代码和推理过程，从而提升模型在代码生成任务中的表现。

实际应用

在实际应用中，OpenCodeReasoning数据集被广泛用于训练和优化大型语言模型（LLMs），特别是在代码生成和自动编程辅助工具的开发中。企业和研究机构可以利用该数据集提升模型在解决实际编程问题时的准确性和效率，从而为开发者提供更强大的代码补全、错误修复和算法设计支持。

衍生相关工作

基于OpenCodeReasoning数据集，多项经典研究工作得以展开。例如，研究者利用该数据集开发了新型的代码生成模型，这些模型在多个编程竞赛平台上表现出色。此外，该数据集还促进了代码推理和自动化编程领域的新方法探索，如结合强化学习和监督微调的混合训练策略，进一步推动了相关技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集