Nemotron-RL-Super-Training-Blends

Name: Nemotron-RL-Super-Training-Blends
Creator: NVIDIA
Published: 2026-03-12 08:22:48
License: 暂无描述

Hugging Face2026-03-12 更新2026-03-13 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-RL-Super-Training-Blends

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-3-Super-RL-Training-Blends 是一个用于训练 Nemotron-3-Super-120B-A12B 模型的强化学习数据集混合集。该数据集包含6个训练阶段（RLVR 1-3、SWE 1-2和RLHF）的混合数据，每个阶段由多个不同比例的子数据集组成。数据集总规模为479,303个样本，26.3GB，以JSONL格式存储。数据来源包括数学证明、工具使用、编程竞赛、安全评估等多个领域，采用人工与合成相结合的收集和标注方法。该数据集专为与NeMo Gym框架配合使用而设计，适用于大语言模型的强化学习后训练。数据集采用CC-BY 4.0许可，包含Apache 2.0、MIT和BSD-3附加条款，允许商业使用。

提供机构：

NVIDIA

创建时间：

2026-03-11

搜集汇总

数据集介绍

构建方式

在强化学习领域，数据集的构建往往决定了模型训练的成效。Nemotron-RL-Super-Training-Blends数据集采用分阶段混合策略构建，涵盖RLVR、SWE与RLHF六个训练阶段。每个阶段均由多个公开数据集按特定比例混合而成，例如RLVR1阶段融合了DAPO-Math-17k、Skywork-OR1-RL-Data等十六个数据集，其中工具使用与代码生成类数据占比较高。对于部分外部数据集，本数据集采用占位符机制，需通过专用脚本从原始源下载填充。数据样本依据技术报告中描述的课程学习原则进行预处理，按通过率从高到低排序，形成由易至难的学习梯度。

特点

该数据集展现出多维度融合的显著特征，其内容覆盖数学推理、代码生成、工具调用、安全对齐等广泛领域，体现了强化学习训练数据的综合性。数据规模庞大，总计包含近四十八万样本，总体积达26.3GB，且各阶段数据量经过精心配置以适应不同训练目标。结构上，数据集以JSON Lines格式组织，与NeMo Gym框架深度兼容，便于直接用于模型训练流程。值得注意的是，数据集明确排除了特定子集样本，并采用混合标注方法，结合人工与合成数据，确保了数据质量的可靠性与多样性。

使用方法

该数据集专为与NeMo Gym强化学习框架协同使用而设计，旨在支持大型语言模型的后续训练。使用者首先需利用提供的填充脚本，将占位符指向的外部数据集内容下载并整合至混合数据中。随后，可按照RLVR、SWE、RLHF六个阶段的预设顺序，将数据集载入训练环境，每个阶段对应特定的技能强化目标。在实际应用中，开发者应依据技术报告指引，遵循数据样本的难度递进顺序进行训练，以模拟课程学习过程。需要注意的是，使用任何组成数据集前，必须核实其许可证是否适用于预期用途，确保合规性。

背景与挑战

背景概述

在大型语言模型强化学习训练领域，数据集的质量与多样性对模型性能具有决定性影响。Nemotron-RL-Super-Training-Blends数据集由NVIDIA公司于2026年3月11日发布，旨在为Nemotron-3-Super-120B-A12B模型的强化学习训练提供结构化数据支持。该数据集融合了数学推理、代码生成、工具调用、安全对齐及指令遵循等多领域数据，通过六个渐进式训练阶段（RLVR 1-3、SWE 1-2、RLHF）构建系统化课程，体现了当前大模型训练中数据工程的前沿探索。其设计核心在于解决复杂任务中模型泛化能力与专业性能的平衡问题，为后续大模型强化学习研究提供了可复现的基准框架。

当前挑战

该数据集致力于解决大模型在强化学习训练中面临的多维度挑战，包括数学逻辑推理的严谨性、代码生成的功能正确性、多轮对话的连贯性以及安全边界的把控。构建过程中的挑战尤为显著：首先，数据来源高度分散，需从十余个异构数据集中进行质量筛选与比例调配，确保各领域数据的代表性与均衡性；其次，课程设计需遵循从易到难的学习曲线，对样本进行精确的通过率排序，这对数据标注与评估体系提出了极高要求。此外，部分数据采用占位符引用机制，用户需自行处理原始数据获取与许可合规问题，增加了使用复杂性。

常用场景

经典使用场景

在强化学习驱动的语言模型训练领域，Nemotron-RL-Super-Training-Blends数据集作为一套精心编排的训练混合体，其经典应用场景在于为大型语言模型提供分阶段的强化学习训练数据。该数据集通过六个渐进式阶段——RLVR 1至3、SWE 1至2以及RLHF，系统地融合了数学推理、工具使用、代码生成、安全对齐等多领域数据，旨在引导模型从易到难地掌握复杂任务。这种结构化的数据混合策略，为训练如Nemotron-3-Super-120B-A12B这类超大规模模型提供了关键的数据支撑，是实现模型能力阶梯式提升的核心基础设施。

衍生相关工作

该数据集作为NVIDIA NeMo Gym框架的核心组成部分，直接衍生并支撑了Nemotron系列大型语言模型的训练工作，特别是Nemotron-3-Super-120B-A12B模型的强化学习阶段。其设计理念和数据混合策略，为后续研究如何构建大规模、多任务的RL训练数据集提供了范本。此外，数据集所依赖的NeMo Gym框架本身，也催生了一系列围绕可验证奖励强化学习（RLVR）环境构建、课程学习策略以及多智能体交互的研究工作，推动了开源社区在语言模型强化学习训练基础设施方面的协同创新。

数据集最近研究