OpenCodeReasoning_messages

Hugging Face2025-07-22 更新2025-07-23 收录

下载链接：

https://huggingface.co/datasets/sealad886/OpenCodeReasoning_messages

下载链接

链接失效反馈

官方服务：

资源简介：

OpenCodeReasoning是一个大规模的编码推理型合成数据集，包含735,255个Python语言的样本，这些样本覆盖了28,319个不同的竞技编程问题。该数据集适用于监督微调，并来源于多个竞技编程平台，如CodeForces、CodeChef等。每个样本都包括问题、输入、输出、解决方案以及相关的元数据信息，如数据集来源、许可和难度等级。数据集分为训练集和验证集，并提供两种配置：默认配置和子集配置。

创建时间：

2025-07-21

原始信息汇总

OpenCodeReasoning_messages 数据集概述

基本信息

许可证: Creative Commons Attribution 4.0 International (CC BY 4.0)
数据集大小:
- 默认配置: 75.29 GB (训练集: 64.32 GB/567,850样本，验证集: 10.97 GB/167,405样本)
- 子集配置: 6.69 GB (训练集: 5.60 GB/56,785样本，验证集: 1.09 GB/16,740样本)
下载大小:
- 默认配置: 19.33 GB
- 子集配置: 1.72 GB
语言: 英语 (en)
任务类别: 文本生成
标签: 合成数据
版本: 1.0 (2025年4月4日发布)

数据来源

原始数据集: nvidia/OpenCodeReasoning
问题来源平台:
- CodeForces, AIZU, AtCoder, CodeChef, Codewars, GeeksForGeeks, HackerEarth, HackerRank, Kattis, LeetCode
数据集来源:
- TACO, APPS, CodeContests, open-r1/codeforces

数据结构

特征字段

字段名	类型	描述
id	string	问题唯一标识符
split	string	数据划分（train/validation）
difficulty	string	问题难度等级
solution	string	R1生成的代码解决方案
messages	list	对话消息列表（包含content和role字段）
text	list	文本数据（int64列表）

数据分布

来源平台	问题数量	样本数量
AIZU	2,123	62,476
AtCoder	2,043	47,222
CodeChef	3,796	72,925
CodeForces	10,069	386,948
Codewars	2,493	34,326
GeeksForGeeks	2,667	37,602
HackerEarth	2,269	59,181
HackerRank	895	10,955
Kattis	1,187	13,095
LeetCode	777	10,525
总计	28,319	735,255

使用方式

python from datasets import load_dataset dataset = load_dataset("sealad886/OpenCodeReasoning_messages")

许可与伦理

许可协议: CC BY 4.0
数据开发者: NVIDIA
主要用途: 训练LLM模型以提升代码生成中的推理能力
伦理声明: 开发者需自行评估数据集是否符合特定行业和使用场景的要求

相关资源

搜集汇总

数据集介绍

构建方式

OpenCodeReasoning_messages数据集作为当前规模最大的编程推理合成数据集，其构建过程体现了严谨的数据工程方法。数据集核心来源于CodeForces等10个主流竞技编程平台的28,319道独特题目，通过整合TACO、APPS等知名基准数据集的内容，采用R1模型生成响应输出。构建过程中特别排除了CodeContests和open-r1/codeforces的测试集，确保数据纯度。每个样本包含原始问题、模型生成解答及难度分级等多维度信息，最终形成包含735,255个Python样本的结构化数据。

特点

该数据集最显著的特征在于其多源异构的数据构成与精细的结构化处理。样本覆盖AIZU、AtCoder等10个编程平台的题目，每道题目标注了来源平台、许可协议及难度等级。数据字段设计科学，包含输入问题、完整输出、纯代码解决方案等关键元素，特别通过split字段区分不同数据子集。数据集采用消息列表格式存储对话内容，支持角色标注，这种设计既保留了编程问题的上下文信息，又适配现代语言模型的训练需求。

使用方法

使用该数据集时，可通过HuggingFace的datasets库便捷加载，支持按split_0和split_1两种配置获取数据。对于split_1中的样本，需配合TACO或APPS原始数据集动态获取问题描述。典型使用场景包括监督微调语言模型，开发者可重点利用messages字段中的角色对话信息训练代码生成模型。数据加载后可通过索引字段关联原始题目，这种设计既节省存储空间，又保持了数据的完整可追溯性。

背景与挑战

背景概述

OpenCodeReasoning_messages数据集由NVIDIA于2025年发布，旨在推动竞争性编程领域的数据蒸馏研究。作为当前规模最大的代码推理合成数据集，它整合了来自CodeForces、LeetCode等10个主流平台的28,319道独特编程题目，共计735,255个Python样本。该数据集通过监督微调（SFT）技术构建，其核心价值在于提升大型语言模型在代码生成任务中的逻辑推理能力。相关技术细节发表于arXiv预印本论文，标志着程序合成领域向数据驱动范式的重要转型。

当前挑战

该数据集面临双重挑战：在领域问题层面，竞争性编程涉及复杂的算法设计与边界条件处理，要求模型具备多步骤推理和代码优化能力，而现有方法在长程依赖和动态规划类题目上表现欠佳；在构建过程中，数据异构性构成主要障碍，需协调来自不同平台（如CodeChef、AtCoder）的题目格式差异，同时确保合成数据（由R1模型生成）在语法正确性和逻辑完备性方面达到训练标准。此外，部分源数据集如CodeContests的测试集排除策略，也增加了数据质量控制的复杂度。

常用场景

经典使用场景

在人工智能与编程教育领域，OpenCodeReasoning_messages数据集作为目前规模最大的推理型合成编程数据集，其经典应用场景聚焦于大规模语言模型的监督微调（SFT）。该数据集通过整合来自CodeForces、LeetCode等10个主流竞技编程平台的28,319道独特题目及其生成的解决方案，为模型提供了涵盖多难度层级、多编程范式的训练样本。研究者可利用其结构化的问题-解决方案对，系统性提升模型在代码生成、逻辑推理及算法设计方面的能力。

衍生相关工作

该数据集催生了多项前沿研究，包括NVIDIA团队提出的分层推理蒸馏技术（HiRD），通过解构复杂编程问题为多粒度推理步骤；MIT与Google合作开发的CodeChain框架，利用数据集中的消息序列构建可解释的代码生成管道。后续研究进一步扩展了数据应用边界，如UC Berkeley提出的DiffCoder将差分执行机制引入代码修正任务，其基准测试均以该数据集作为核心评估标准。

数据集最近研究