Nemotron-Cascade-SFT-Stage-2

Name: Nemotron-Cascade-SFT-Stage-2
Creator: NVIDIA
Published: 2025-12-17 03:39:30
License: 暂无描述

Hugging Face2025-12-17 更新2025-12-18 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Cascade-SFT-Stage-2

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Cascade-SFT-Stage-2数据集是Nemotron-Cascade模型两阶段监督微调过程中的第二阶段数据集。该数据集扩展了覆盖范围，包括数学、代码、科学、工具调用、软件工程（SWE）、指令遵循和通用领域。数学领域利用了OpenMathReasoning的问题；代码领域的问题来源于OpenCodeReasoning、MagicoderEvolInstruct、opc-sft-stage2、TACO和APPS；科学领域的数据来自Nemotron-Post-Training-Dataset-v1；工具调用数据集同样源自Nemotron-Post-Training-Dataset-v1；软件工程（SWE）数据集的提示来自SWE-Bench-Train、SWE-reBench、SWE-Smith、R2E-Gym/R2E-Gym-Subset和SWE-Fixer-Train；通用领域的问题来自mmlu auxiliary train、ShareGPT、SlimOrca、Magpie-Pro-300K-Filtered-H4、UltraInteract、GPTeacher、Nemotron-Post-Training-Dataset-v1、allenai/qasc和FLAN V2；指令遵循的提示来自tulu-3-sft-personas-instruction-following。数据集还提供了详细的统计数据，包括各领域的问题和样本数量。

提供机构：

NVIDIA

创建时间：

2025-12-16

原始信息汇总

Nemotron-Cascade-SFT-Stage-2 数据集概述

基本信息

许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
发布日期: 2025年12月15日
引用文献: @article{Nemotron_Cascade_Scaling_Cascaded_Reinforcement_Learning, title={Nemotron-Cascade: Scaling Cascaded Reinforcement Learning for General-Purpose Reasoning Models}, author={Wang, Boxin and Lee, Chankyu and Lee, Nayeon and Lin, Sheng-Chieh and Dai, Wenliang and Chen, Yang and Chen, Yangyi and Yang, Zhuolin and Liu, Zihan and Shoeybi, Mohammad and Catanzaro, Bryan and Ping, Wei}, year={2025} }

数据集目的

本数据集是用于Nemotron-Cascade模型监督微调的第二阶段数据。第一阶段侧重于数学、代码、科学和通用领域。第二阶段进一步扩展覆盖范围，包括数学、代码、科学、工具调用、软件工程、指令遵循和通用领域。

数据域与来源

数学领域

主要来源: https://huggingface.co/datasets/nvidia/OpenMathReasoning
数据量: 311,505个问题，1,877,122个样本

代码领域

主要来源:
- https://huggingface.co/datasets/nvidia/OpenCodeReasoning
- https://huggingface.co/datasets/ise-uiuc/Magicoder-Evol-Instruct-110K
- https://huggingface.co/datasets/OpenCoder-LLM/opc-sft-stage2
- https://huggingface.co/datasets/BAAI/TACO
- https://huggingface.co/datasets/codeparrot/apps
数据量:
- OpenCodeReasoning: 34,747个问题，1,143,266个样本
- TACO: 5,852个问题，58,273个样本
- opc-sft-stage2: 37,820个问题，188,063个样本
- apps: 159个问题，1,575个样本
- synthetic: 274个问题，1,654个样本

科学领域

主要来源: https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1
数据量:
- synthetic: 3,694个问题，84,389个样本
- Nemotron-Post-Training-Dataset-v1-stem: 188,461个问题，226,927个样本

通用领域

主要来源:
- https://huggingface.co/datasets/cais/mmlu
- https://huggingface.co/datasets/anon8231489123/ShareGPT_Vicuna_unfiltered
- https://huggingface.co/datasets/Open-Orca/SlimOrca
- https://huggingface.co/datasets/HuggingFaceTB/Magpie-Pro-300K-Filtered-H4
- https://huggingface.co/datasets/openbmb/UltraInteract_sft
- https://huggingface.co/datasets/teknium/GPTeacher-General-Instruct
- https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1
- https://huggingface.co/datasets/allenai/qasc
- https://huggingface.co/datasets/ostapeno/tulu_v2_flan_v2_subset
数据量:
- mmlu_auxiliary_train: 96,634个问题，448,120个样本
- HuggingFaceTB/smoltalk: 269,974个问题，799,521个样本
- SlimOrca: 293,305个问题，586,091个样本
- synthetic: 688,364个问题，1,196,807个样本
- ShareGPT_Vicuna_unfiltered: 140,563个问题，280,860个样本
- nvidia/Nemotron-Post-Training-Dataset-v1: 45,186个问题，95,792个样本
- allenai/qasc: 6,932个问题，30,628个样本
- UltraInteract_sft: 29,041个问题，57,936个样本
- GPTeacher-General-Instruct: 17,203个问题，34,360个样本
- flan_v2: 11,285个问题，20,341个样本

工具调用

主要来源: https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1
数据量: 308,797个问题，308,797个样本

指令遵循

主要来源: https://huggingface.co/datasets/allenai/tulu-3-sft-personas-instruction-following
数据量: 29,918个问题，146,385个样本

软件工程领域

SWE修复

主要来源:
- https://huggingface.co/datasets/princeton-nlp/SWE-bench
- https://huggingface.co/datasets/nebius/SWE-rebench
- https://huggingface.co/datasets/SWE-bench/SWE-smith
- https://huggingface.co/datasets/internlm/SWE-Fixer-Train-110K
数据量:
- princeton-nlp/SWE-bench: 3,676个问题，19,540个样本
- nebius/SWE-rebench: 2,822个问题，16,441个样本
- SWE-bench/SWE-smith: 2,822个问题，17,625个样本
- internlm/SWE-Fixer-Train-110K: 22,367个问题，33,301个样本

SWE定位

主要来源:
- https://huggingface.co/datasets/internlm/SWE-Fixer-Train-110K
- https://huggingface.co/datasets/SWE-bench/SWE-smith
- https://huggingface.co/datasets/princeton-nlp/SWE-bench
- https://huggingface.co/datasets/nebius/SWE-rebench
- https://huggingface.co/datasets/R2E-Gym/R2E-Gym-Subset
数据量:
- internlm/SWE-Fixer-Train-110K: 52,703个问题，53,230个样本
- SWE-bench/SWE-smith: 9,707个问题，9,714个样本
- princeton-nlp/SWE-bench: 10,251个问题，16,184个样本
- nebius/SWE-rebench: 9,654个问题，9,693个样本
- R2E-Gym/R2E-Gym-Subset: 3,444个问题，3,444个样本

SWE测试生成

主要来源:
- https://huggingface.co/datasets/SWE-bench/SWE-smith
- https://huggingface.co/datasets/princeton-nlp/SWE-bench
- https://huggingface.co/datasets/nebius/SWE-rebench
- https://huggingface.co/datasets/internlm/SWE-Fixer-Train-110K
数据量:
- SWE-bench/SWE-smith: 2,749个问题，2,881个样本
- princeton-nlp/SWE-bench: 4,817个问题，6,066个样本
- nebius/SWE-rebench: 3,021个问题，3,026个样本
- internlm/SWE-Fixer-Train-110K: 18,792个问题，19,678个样本

数据处理说明

包含显式推理链的响应使用 https://huggingface.co/deepseek-ai/DeepSeek-R1-0528 生成。
不含推理链的响应使用 https://huggingface.co/deepseek-ai/DeepSeek-V3 或 https://huggingface.co/deepseek-ai/DeepSeek-V3-0324 生成。
在多轮对话中，仅存储助手输出的摘要以减少令牌使用。
在最终的Stage-2 SFT混合数据中，科学、软件工程和通用领域的多轮对话数据被上采样3倍。

搜集汇总

数据集介绍

构建方式

在构建Nemotron-Cascade-SFT-Stage-2数据集的过程中，研究者采用了一种分阶段、多领域融合的策略。该数据集作为监督微调的第二阶段，旨在扩展模型在数学、代码、科学、工具调用、软件工程、指令遵循及通用领域的覆盖范围。构建过程整合了多个高质量开源数据集，例如数学领域源自OpenMathReasoning，代码领域则融合了OpenCodeReasoning、MagicoderEvolInstruct等多个来源。科学、工具调用及部分通用数据则从Nemotron-Post-Training-Dataset-v1中提取。软件工程数据汇集了SWE-Bench、SWE-reBench等基准，而指令遵循数据则来自tulu-3-sft-personas-instruction-following。响应生成方面，包含显式推理轨迹的答案由DeepSeek-R1-0528模型生成，而无推理轨迹的答案则由DeepSeek-V3系列模型产生。为了优化训练效率，在多轮对话中仅存储助手输出的摘要。值得注意的是，在最终的混合数据中，科学、软件工程及通用多轮对话数据被上采样了三倍，以平衡不同领域的代表性。

使用方法

该数据集专为大型语言模型的监督微调阶段设计，尤其适用于提升模型在复杂推理与专业任务上的性能。使用者可将其直接加载至支持HuggingFace数据集的训练框架中，如Transformers库。在应用时，建议根据具体目标任务，关注数据集中相应的领域子集，例如若旨在增强代码生成能力，则可重点利用代码域的数据。由于数据集已提供清晰的领域划分与统计表格，研究者可以便捷地进行数据筛选、混合或加权采样，以构建符合自身需求的训练集。数据条目通常包含问题（或指令）与模型生成的响应，响应部分可能包含或不包含推理轨迹，这为探究不同监督信号对模型性能的影响提供了实验基础。对于多轮对话数据，需注意其以摘要形式存储，在训练前可能需要进行适当的格式还原或处理。该数据集遵循CC BY 4.0许可协议，允许在注明出处的前提下自由使用、分享和改编，为学术研究与商业应用提供了便利。

背景与挑战

背景概述

Nemotron-Cascade-SFT-Stage-2数据集由英伟达（NVIDIA）研究团队于2025年12月15日发布，作为Nemotron-Cascade模型监督微调流程的第二阶段核心资源。该数据集旨在通过多领域、高质量的数据融合，提升大型语言模型在数学推理、代码生成、科学问答、工具调用、软件工程及指令遵循等复杂任务上的泛化与推理能力。其构建依托于OpenMathReasoning、OpenCodeReasoning及多个权威开源数据集的集成，体现了当前人工智能研究向专业化、精细化方向发展的趋势，为推进通用推理模型的实用化奠定了关键数据基础。

当前挑战

该数据集致力于解决多模态智能任务中模型泛化与深度推理的挑战，尤其在跨领域知识融合与复杂问题求解方面存在显著难度。构建过程中，研究人员面临数据源异构性整合、质量一致性保障以及多轮对话信息压缩等技术瓶颈，需通过精细的采样策略与合成数据生成来平衡领域覆盖与数据效用。此外，在保持响应逻辑连贯性的同时，有效区分显式推理轨迹与常规输出，也对数据标注与模型训练提出了更高要求。

常用场景

经典使用场景

在大型语言模型（LLM）的监督微调（SFT）领域，Nemotron-Cascade-SFT-Stage-2数据集扮演着关键角色，其经典使用场景聚焦于对预训练基础模型进行第二阶段的精细化指令对齐。该数据集通过整合数学、代码、科学、工具调用、软件工程及通用对话等多个专业领域的优质数据，旨在系统性地提升模型在复杂推理、代码生成、科学问答以及遵循复杂指令等方面的综合能力。研究者利用该数据集对模型进行微调，以优化其输出质量，确保模型响应不仅准确，而且符合人类偏好与任务规范。

解决学术问题

该数据集有效应对了当前大模型研究中的若干核心挑战，特别是在提升模型的专业领域能力与泛化性能方面。它通过汇集来自OpenMathReasoning、OpenCodeReasoning、SWE-Bench等权威来源的结构化数据，为解决模型在数学推理、代码生成与修复、科学知识应用以及工具调用等任务中存在的知识匮乏、逻辑不连贯及指令遵循偏差等问题提供了高质量的训练资源。其意义在于构建了一个多领域、高覆盖度的指令微调基准，为评估和推动模型在专业场景下的性能极限提供了重要支撑，促进了通用人工智能向更可靠、更专业的方向发展。

实际应用

在实际应用层面，基于该数据集微调的模型能够直接服务于多个高价值产业场景。在软件开发领域，模型可辅助进行代码自动补全、缺陷定位与修复、测试用例生成等软件工程任务，提升开发效率。在科研与教育领域，模型能够解答复杂的科学问题，辅助进行数学推导与编程教学。同时，其强大的工具调用与指令遵循能力，使得模型能够集成到智能助手、自动化工作流等系统中，执行诸如数据查询、API调用等具体操作，为构建下一代具备复杂任务执行能力的AI应用奠定了坚实基础。

数据集最近研究