Nemotron-Pretraining-Specialized-v1
收藏Nemotron-Pretraining-Specialized-v1 数据集概述
数据集基本信息
- 数据集名称: Nemotron-Pretraining-Specialized-v1
- 所有者: NVIDIA Corporation
- 创建日期: 2025年12月15日
- 任务类别: 文本生成
- 许可协议: 本数据集集合受 Creative Commons Attribution 4.0 International License (CC BY 4.0) 管辖,但 Nemotron-Pretraining-Wiki-Rewrite 和 Nemotron-Pretraining-Scientific-Coding 子集除外,这两个子集受 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 和 GNU Free Documentation License Version 1.3 (GFDL) 管辖。
- 商业使用: 可用于商业用途。
数据集描述
Nemotron-Pretraining-Specialized-v1 是一个包含多个合成数据集的集合,旨在服务于STEM推理、科学编码或事实知识等专门领域。它是之前发布的 Nemotron-Pretraining-SFT-v1 的扩展,并更新了命名以更好地反映数据集的性质。
数据集配置与结构
数据集包含以下配置(子集),每个配置仅包含训练集分割:
- Nemotron-Pretraining-Wiki-Rewrite
- Nemotron-Pretraining-Math-Textbooks
- Nemotron-Pretraining-STEM-SFT
- Nemotron-Pretraining-Scientific-Coding
- Nemotron-Pretraining-RQA
- Nemotron-Pretraining-InfiniByte-Reasoning
子集详细说明
-
Synthetic RQA (Nemotron-Pretraining-RQA)
- 描述: 一个长形式的STEM推理问答数据集,通过对高质量主题分层的STEM文档进行连续块采样以创建问题,随后进行无上下文推理和答案生成。
- 生成模型: Qwen3-235B-A22B-Thinking-2507, gpt-oss-120b
- 令牌数: 134.6B
-
Synthetic InfiniByte (Nemotron-Pretraining-InfiniByte-Reasoning)
- 描述: 一个跨领域推理数据集,通过程序化地“交叉融合”代码、数学、物理、化学和科学语料库来生成新颖的多步骤复合问题,这些问题需要深入的跨学科推理。
-
Synthetic Wikipedia Data (Nemotron-Pretraining-Wiki-Rewrite)
- 描述: 使用 Qwen3-30B-A3B-Instruct-2507 修订英文维基百科文章以增强清晰度和格式,丢弃消歧/重定向页面和非文章部分。
-
Synthetic Math Textbook Data (Nemotron-Pretraining-Math-Textbooks)
- 描述: Nemotron-CC-Math 文档按教育水平分类,本科及更高水平的材料被用来生成教育性教科书风格的章节。
-
Synthetic Scientific Coding Data (Nemotron-Pretraining-Scientific-Coding)
- 描述: 使用来自 Nemotron‑CC 的 STEM 文档生成科学编码数据,包括研究生或研究级别的代码嵌入文章以及带有分步 Python 解决方案的高级编码问题。
-
Synthetic STEM SFT (Nemotron-Pretraining-STEM-SFT)
- 描述: 包含在 Nemotron 3 Nano 预训练中的新的和刷新的 SFT 数据集。
数据生成模型
本数据集包含使用以下模型创建的合成数据: Qwen3-30B-A3B, Qwen3-235B-A22B-Thinking-2507, QwQ-32B, Qwen3-235B-A22B, DeepSeek-R1-0528, DeepSeek-R1, Qwen2.5-32B-Instruct, Phi-4, Mixtral-8x22B-Instruct-v0.1, gpt-oss-120b。
使用注意事项
如果使用此数据集来创建、训练、微调或以其他方式改进AI模型,并且该模型被分发或提供,则该AI模型可能需遵守 Qwen License Agreement、DeepSeek License Agreement 和 Phi-4 license agreement 中的再分发和使用要求。
预期用途
Nemotron 预训练数据集旨在供社区用于持续改进开放模型。在用户同意开放数据许可的前提下,可以自由使用该数据进行训练和评估。




