five

Nemotron-Post-Training-Dataset-v1

收藏
Hugging Face2025-07-31 更新2025-08-01 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-Post-Training-Dataset-v1
下载链接
链接失效反馈
官方服务:
资源简介:
Nemotron 后训练数据集是一个支持改进原始 Llama instruct 模型(Llama-3.3-Nemotron-Super-49B-v1.5)的数学、代码、STEM、一般推理和工具调用能力的 SFT 数据集合。该数据集通过新颖的神经网络架构搜索(NAS)方法,极大地减少了模型的内存占用,并能够处理更大的工作负载。数据集以原始格式提供数据,例如数学问题、编程挑战等,并建议在监督微调过程中使用指令模板进行封装。数据集分为聊天、代码、数学、STEM 和工具调用等多个类别,并提供相应的数据分布和过滤方法。数据集的创建日期为 2025 年 7 月 15 日,发布日期为 2025 年 7 月 31 日,数据版本为 1。
提供机构:
NVIDIA
创建时间:
2025-07-30
原始信息汇总

Nemotron-Post-Training-Dataset-v1 数据集概述

数据集基本信息

  • 所有者: NVIDIA Corporation
  • 创建日期: 07/15/2025
  • 发布日期: 7/31/2025
  • 数据版本: 1 (7/31/2025)
  • 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
  • 下载大小: 203373185595 bytes
  • 数据集大小: 510313687949 bytes

数据集特征

  • 特征:
    • uuid: 字符串类型
    • license: 字符串类型
    • generator: 字符串类型
    • version: 字符串类型
    • category: 字符串类型
    • reasoning: 字符串类型
    • messages: 列表类型,包含rolecontenttool_calls字段
    • metadata: 字符串类型

数据分布

类别 样本数量
chat 746,622
code 1,896,395
math 2,044,407
stem 20,662,167
tool_calling 310,051
总计 25,659,642

数据来源与生成

  • 数据收集方法: 合成
  • 标注方法: 合成
  • 生成模型:
    • DeepSeek-R1-0528: 24,602,969 样本
    • Qwen3-235B-A22B: 1,056,673 样本

推荐训练格式

  • chat: 用于对话调优,输入字段代表用户的回合。
  • code: 请求解释和完整代码块。
  • math: 提供逐步解决方案和最终答案。
  • stem: 提供详细的分步答案。
  • tool_calling: 根据模型的工具调用模板格式化。

预期用途

  • 用于改进开放模型,训练和评估AI代理系统、聊天机器人、RAG系统等AI应用。

伦理考虑

  • NVIDIA已进行法律审查,确保数据不包含机密、个人身份信息或版权材料。

引用

bibtex @misc{bercovich2025llamanemotronefficientreasoningmodels, title={Llama-Nemotron: Efficient Reasoning Models}, author={Akhiad Bercovich and Itay Levy and Izik Golan and Mohammad Dabbah and Ran El-Yaniv and Omri Puny and Ido Galil and Zach Moshe and Tomer Ronen and Najeeb Nabwani and Ido Shahaf and Oren Tropp and Ehud Karpas and Ran Zilberstein and Jiaqi Zeng and Soumye Singhal and Alexander Bukharin and Yian Zhang and Tugrul Konuk and Gerald Shen and Ameya Sunil Mahabaleshwarkar and Bilal Kartal and Yoshi Suhara and Olivier Delalleau and Zijia Chen and Zhilin Wang and David Mosallanezhad and Adi Renduchintala and Haifeng Qian and Dima Rekesh and Fei Jia and Somshubra Majumdar and Vahid Noroozi and Wasi Uddin Ahmad and Sean Narenthiran and Aleksander Ficek and Mehrzad Samadi and Jocelyn Huang and Siddhartha Jain and Igor Gitman and Ivan Moshkov and Wei Du and Shubham Toshniwal and George Armstrong and Branislav Kisacanin and Matvei Novikov and Daria Gitman and Evelina Bakhturina and Jane Polak Scowcroft and John Kamalu and Dan Su and Kezhi Kong and Markus Kliegl and Rabeeh Karimi and Ying Lin and Sanjeev Satheesh and Jupinder Parmar and Pritam Gundecha and Brandon Norick and Joseph Jennings and Shrimai Prabhumoye and Syeda Nahida Akter and Mostofa Patwary and Abhinav Khattar and Deepak Narayanan and Roger Waleffe and Jimmy Zhang and Bor-Yiing Su and Guyue Huang and Terry Kong and Parth Chadha and Sahil Jain and Christine Harvey and Elad Segal and Jining Huang and Sergey Kashirsky and Robert McQueen and Izzy Putterman and George Lam and Arun Venkatesan and Sherry Wu and Vinh Nguyen and Manoj Kilaru and Andrew Wang and Anna Warno and Abhilash Somasamudramath and Sandip Bhaskar and Maka Dong and Nave Assaf and Shahar Mor and Omer Ullman Argov and Scot Junkin and Oleksandr Romanenko and Pedro Larroy and Monika Katariya and Marco Rovinelli and Viji Balas and Nicholas Edelman and Anahita Bhiwandiwalla and Muthu Subramaniam and Smita Ithape and Karthik Ramamoorthy and Yuting Wu and Suguna Varshini Velury and Omri Almog and Joyjit Daw and Denys Fridman and Erick Galinkin and Michael Evans and Katherine Luna and Leon Derczynski and Nikki Pope and Eileen Long and Seth Schneider and Guillermo Siman and Tomasz Grzegorzek and Pablo Ribalta and Monika Katariya and Joey Conway and Trisha Saar and Ann Guan and Krzysztof Pawelec and Shyamala Prayaga and Oleksii Kuchaiev and Boris Ginsburg and Oluwatobi Olabiyi and Kari Briski and Jonathan Cohen and Bryan Catanzaro and Jonah Alben and Yonatan Geifman and Eric Chung and Chris Alexiuk}, year={2025}, eprint={2505.00949}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2505.00949}, }

搜集汇总
数据集介绍
main_image_url
构建方式
Nemotron-Post-Training-Dataset-v1数据集通过精心设计的合成方法构建,涵盖了数学、编程、科学等多个领域的高质量数据。数据来源包括公开语料库和合成生成,经过严格的质量和复杂性筛选,确保数据的多样性和准确性。构建过程中采用了多种公开模型生成响应,并进行了细致的过滤,以去除不一致或低质量的条目。
特点
该数据集以其广泛的覆盖范围和高质量的数据著称,特别强调数学推理、编程能力和科学知识的深度。数据集分为多个子集,包括对话、代码、数学、科学和工具调用等,每个子集都针对特定任务优化。数据格式灵活,支持多种训练需求,且所有数据均经过严格审查,确保无版权或隐私问题。
使用方法
使用Nemotron-Post-Training-Dataset-v1时,建议根据具体任务选择合适的子集。例如,对话子集可直接用于对话系统训练,而代码和数学子集则需配合特定的指令模板。数据集支持灵活下载,用户可通过HuggingFace的datasets库按需加载。训练时,建议遵循推荐的模板格式,以最大化模型的性能表现。
背景与挑战
背景概述
Nemotron-Post-Training-Dataset-v1由NVIDIA Corporation于2025年7月15日发布,旨在提升大型语言模型在数学、编程、科学、技术、工程和数学(STEM)领域以及通用推理和工具调用能力方面的表现。该数据集作为Llama-3.3-Nemotron-Super-49B-v1.5模型的监督微调数据,通过神经架构搜索(NAS)技术优化了模型的准确性与效率平衡,支持128K的上下文长度。数据集的发布标志着模型开发透明度的显著提升,为社区提供了改进开放模型的宝贵资源。
当前挑战
该数据集面临的挑战主要包括:1) 领域问题的挑战,如数学问题的多步推理和编程问题的复杂逻辑生成,要求模型具备高水平的逻辑推理和代码生成能力;2) 构建过程中的挑战,包括数据质量的严格筛选,确保去除不一致、易猜测或语法错误的提示,以及通过合成生成高质量响应,同时处理外部数据源的整合问题。这些挑战需要通过精细的数据处理和模型优化策略来解决。
常用场景
经典使用场景
在自然语言处理领域,Nemotron-Post-Training-Dataset-v1数据集被广泛用于提升大型语言模型在数学推理、编程生成、科学工程及工具调用等专业场景下的表现。该数据集通过精心设计的对话结构、代码挑战和数学问题,为模型微调提供了丰富的监督信号,特别适合用于指令跟随能力的强化训练。研究者常利用其多模态数据分布特性,探索模型在复杂任务中的泛化能力。
衍生相关工作
基于该数据集衍生的经典研究包括:NVIDIA团队提出的神经架构搜索方法在模型效率优化中的应用,以及后续开源的Llama-Nemotron系列模型。DeepSeek团队利用其数学分区开发了符号计算增强框架,而Qwen3-235B模型则通过工具调用数据实现了多模态任务编排能力的突破。这些工作均被收录于ACL、NeurIPS等顶级会议。
数据集最近研究
最新研究方向
在大型语言模型(LLM)的优化与应用领域,Nemotron-Post-Training-Dataset-v1数据集凭借其丰富的多模态数据分布和高效的训练框架,成为当前研究的热点之一。该数据集涵盖了聊天、代码、数学、STEM及工具调用等多个子集,为模型在复杂推理、代码生成和科学计算等任务中的性能提升提供了坚实基础。前沿研究聚焦于如何利用该数据集优化模型的上下文理解能力,特别是在128K长上下文窗口下的表现,以及通过神经架构搜索(NAS)技术实现模型效率与精度的平衡。此外,数据集中的工具调用子集为AI代理系统的开发提供了重要支持,推动了多轮对话和多步骤工具调用的研究进展。这一开放数据集的发布不仅促进了模型透明度和可复现性,也为社区在商业和非商业场景下的创新应用开辟了新的可能性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作