Nemotron-RL-coding-competitive_coding

Name: Nemotron-RL-coding-competitive_coding
Creator: NVIDIA
Published: 2025-12-15 23:03:13
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-coding-competitive_coding

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-RL-coding-competitive_coding数据集是一个仅包含Python的、基于推理的合成数据集。它包含竞争性编程风格的问题及其单元测试用例。这些问题和测试用例是从CodeContests（deepmind/code_contests）和Open-R1（open-r1/codeforces）收集的。该数据集是NVIDIA NeMo Gym的一部分，这是一个用于构建强化学习环境以训练大型语言模型的框架。NeMo Gym包含越来越多的训练环境和数据集，以支持基于可验证奖励的强化学习（RLVR）。NeMo Gym是NVIDIA NeMo框架中的一个开源库，NVIDIA的GPU加速的端到端训练框架，用于大型语言模型（LLMs）、多模态模型和语音模型。该数据集已准备好用于商业用途。

提供机构：

NVIDIA

创建时间：

2025-12-13

原始信息汇总

Nemotron-RL-coding-competitive_coding 数据集概述

基本信息

数据集名称: Nemotron-RL-coding-competitive_coding
所有者: NVIDIA Corporation
创建日期: 2025年7月11日
许可证: Creative Commons Attribution 4.0 International License (CC-BY-4.0)
语言: 英语
可用性: 已准备好用于商业用途

数据集描述

该数据集是一个仅包含Python的、基于推理的合成数据集。它包含竞争性编程风格的问题及其单元测试用例。这些问题和测试用例收集自CodeContests（deepmind/code_contests）和Open-R1（open-r1/codeforces）。

该数据集作为NVIDIA NeMo Gym的一部分发布。NeMo Gym是一个用于构建强化学习环境以训练大型语言模型的框架，包含不断增长的环境和数据集集合，以实现基于可验证奖励的强化学习（RLVR）。NeMo Gym是NVIDIA NeMo框架内的一个开源库。

数据集特征

数据格式

文本格式：仅文本，与NeMo Gym兼容。
特征结构：
- responses_create_params：包含input列表的结构，列表中的每一项包含role（字符串）和content（字符串）。
- verifier_metadata：包含unit_tests的结构，unit_tests包含inputs（字符串列表）和outputs（字符串列表）。
- hash_id：字符串。
- dataset：字符串。
- source：字符串。

数据集量化

记录数量：训练集包含16,083个样本。
数据存储大小：数据集总大小为5,280,869,002字节（约5.28 GB），下载大小为2,933,275,582字节（约2.93 GB）。

数据划分

训练集：包含16,083个样本，大小为5,280,869,002字节。

数据收集与标注

数据收集方法：合成。
标注方法：自动化。

预期用途

用于与NeMo Gym配合进行大型语言模型的后训练。

参考

NeMo Gym: https://github.com/NVIDIA-NeMo/Gym

搜集汇总

数据集介绍

构建方式

在算法竞赛与编程教育领域，数据集的构建往往依赖于高质量的问题与测试用例。Nemotron-RL-coding-competitive_coding数据集采用合成方法生成，其核心内容源自两个知名的编程竞赛资源：DeepMind的CodeContests项目以及Open-R1的Codeforces数据。通过自动化流程，该数据集整合了纯Python编程问题及其对应的单元测试用例，形成了专注于推理与代码验证的结构化数据。这种构建方式确保了数据在逻辑一致性与任务多样性上的平衡，为强化学习环境提供了扎实的基础。

特点

该数据集以纯文本格式呈现，专为编程推理任务设计，其显著特点在于所有问题均围绕Python语言展开，并附带经过验证的单元测试用例。这些测试用例不仅定义了问题的输入输出规范，也为模型训练提供了可验证的奖励信号。数据集规模适中，包含约2.5万个样本，存储体积约为7.62GB，兼具可管理性与丰富性。作为NVIDIA NeMo Gym框架的一部分，它天然适配基于验证奖励的强化学习范式，旨在促进大型语言模型在代码生成与问题求解方面的能力提升。

使用方法

该数据集主要与NVIDIA NeMo Gym框架协同使用，旨在支持大型语言模型的后期训练，特别是基于可验证奖励的强化学习。研究人员或开发者可通过框架加载数据集，将其转化为交互式训练环境，其中智能体需根据问题描述生成代码，并利用内置的单元测试进行即时验证与反馈。这种使用方法将传统的静态代码数据集转化为动态的、奖励驱动的学习场景，有助于模型迭代优化其代码生成准确性与逻辑推理能力。数据集遵循CC-BY-4.0许可，允许商业用途，为学术与工业界的相关研究提供了便利。

背景与挑战

背景概述

在人工智能与软件工程交叉领域，编程问题求解一直是衡量大型语言模型推理能力的关键任务。Nemotron-RL-coding-competitive_coding数据集由NVIDIA公司于2025年7月11日发布，作为其NeMo Gym强化学习框架的重要组成部分。该数据集聚焦于竞争性编程风格问题，旨在通过可验证的奖励机制训练模型，提升其在复杂算法场景下的代码生成与逻辑推理性能。其构建基于CodeContests与Open-R1等权威开源资源，体现了业界对高质量、结构化编程数据日益增长的需求，为推进代码智能研究提供了标准化基准。

当前挑战

该数据集致力于解决竞争性编程中的自动代码生成与验证难题，其核心挑战在于如何确保模型生成的代码不仅语法正确，更能通过多样化的单元测试，满足严格的功能性要求。构建过程中的挑战主要源于数据合成与标注的复杂性：需要从异构来源整合问题描述与测试用例，并维持数据的一致性与可靠性；同时，自动化标注机制必须精准捕捉代码的逻辑正确性，避免噪声引入，这对数据集的规模扩展与质量保障构成了双重考验。

常用场景

经典使用场景

在编程竞赛与算法研究领域，Nemotron-RL-coding-competitive_coding数据集为大型语言模型的强化学习训练提供了关键环境。该数据集汇集了来自CodeContests和Open-R1的竞争性编程问题及其单元测试用例，专注于Python语言的推理任务。研究者利用这些结构化的问题与测试框架，构建可验证的奖励机制，从而驱动模型在代码生成与逻辑推理方面进行迭代优化。这种设置使得模型能够在模拟的竞赛场景中学习解决复杂算法挑战，提升其编程能力与泛化性能。

解决学术问题

该数据集主要应对大型语言模型在代码生成任务中缺乏可靠评估与强化学习信号的问题。传统上，模型生成的代码往往难以通过自动化测试验证其正确性，而该数据集提供的单元测试用例为模型输出提供了精确的奖励反馈。这解决了强化学习训练中奖励稀疏性与难以量化的挑战，使研究者能够基于可验证的结果优化模型。其意义在于推动了从人类反馈到自动化验证的范式转变，为代码生成模型的训练提供了可扩展且高效的学术基准。

衍生相关工作

基于该数据集衍生的经典工作主要集中在强化学习与代码生成模型的交叉领域。例如，NVIDIA的NeMo Gym框架利用此类数据构建了RLVR训练环境，推动了如CodeRL等模型的发展，这些模型通过环境交互与测试反馈优化代码生成策略。同时，该数据集也启发了多项研究，探索如何将单元测试作为奖励信号集成到策略梯度方法中，从而提升模型在算法竞赛问题上的表现。这些工作共同促进了可验证代码生成技术的进步，并为后续研究提供了重要基准。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集