Nemotron-Pretraining-Specialized-v1

Name: Nemotron-Pretraining-Specialized-v1
Creator: NVIDIA
Published: 2025-12-15 21:36:10
License: 暂无描述

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Specialized-v1

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-Pre-Training-Dataset-v2.1是对先前发布的Nemotron预训练数据集的扩展，包含了更新、更高质量和更多样化的数学、代码、英语Common Crawl和大规模合成语料库数据。该数据集专为NVIDIA Nemotron 3系列大型语言模型设计，引入了新的Common Crawl代码提取、2.5T新的英语网络令牌、更新的GitHub来源的源代码语料库以及专门的STEM推理数据集。数据集分为四个主要类别：Nemotron-CC-Code-v1、Nemotron-CC-v2.1、Nemotron-Pretraining-Code-v2和Nemotron-Pretraining-Specialized-v1。每个类别都详细描述了令牌数量、用于生成的模型以及预期用途。该数据集已准备好用于商业用途，并受特定许可证和使用条款的约束。

提供机构：

NVIDIA

创建时间：

2025-12-14

原始信息汇总

Nemotron-Pretraining-Specialized-v1 数据集概述

数据集基本信息

数据集名称: Nemotron-Pretraining-Specialized-v1
所有者: NVIDIA Corporation
创建日期: 2025年12月15日
任务类别: 文本生成
许可协议: 本数据集集合受 Creative Commons Attribution 4.0 International License (CC BY 4.0) 管辖，但 Nemotron-Pretraining-Wiki-Rewrite 和 Nemotron-Pretraining-Scientific-Coding 子集除外，这两个子集受 Creative Commons Attribution-ShareAlike 4.0 International License (CC BY-SA 4.0) 和 GNU Free Documentation License Version 1.3 (GFDL) 管辖。
商业使用: 可用于商业用途。

数据集描述

Nemotron-Pretraining-Specialized-v1 是一个包含多个合成数据集的集合，旨在服务于STEM推理、科学编码或事实知识等专门领域。它是之前发布的 Nemotron-Pretraining-SFT-v1 的扩展，并更新了命名以更好地反映数据集的性质。

数据集配置与结构

数据集包含以下配置（子集），每个配置仅包含训练集分割：

Nemotron-Pretraining-Wiki-Rewrite
Nemotron-Pretraining-Math-Textbooks
Nemotron-Pretraining-STEM-SFT
Nemotron-Pretraining-Scientific-Coding
Nemotron-Pretraining-RQA
Nemotron-Pretraining-InfiniByte-Reasoning

子集详细说明

Synthetic RQA (Nemotron-Pretraining-RQA)
- 描述: 一个长形式的STEM推理问答数据集，通过对高质量主题分层的STEM文档进行连续块采样以创建问题，随后进行无上下文推理和答案生成。
- 生成模型: Qwen3-235B-A22B-Thinking-2507, gpt-oss-120b
- 令牌数: 134.6B
Synthetic InfiniByte (Nemotron-Pretraining-InfiniByte-Reasoning)
- 描述: 一个跨领域推理数据集，通过程序化地“交叉融合”代码、数学、物理、化学和科学语料库来生成新颖的多步骤复合问题，这些问题需要深入的跨学科推理。
Synthetic Wikipedia Data (Nemotron-Pretraining-Wiki-Rewrite)
- 描述: 使用 Qwen3-30B-A3B-Instruct-2507 修订英文维基百科文章以增强清晰度和格式，丢弃消歧/重定向页面和非文章部分。
Synthetic Math Textbook Data (Nemotron-Pretraining-Math-Textbooks)
- 描述: Nemotron-CC-Math 文档按教育水平分类，本科及更高水平的材料被用来生成教育性教科书风格的章节。
Synthetic Scientific Coding Data (Nemotron-Pretraining-Scientific-Coding)
- 描述: 使用来自 Nemotron‑CC 的 STEM 文档生成科学编码数据，包括研究生或研究级别的代码嵌入文章以及带有分步 Python 解决方案的高级编码问题。
Synthetic STEM SFT (Nemotron-Pretraining-STEM-SFT)
- 描述: 包含在 Nemotron 3 Nano 预训练中的新的和刷新的 SFT 数据集。

数据生成模型

本数据集包含使用以下模型创建的合成数据： Qwen3-30B-A3B, Qwen3-235B-A22B-Thinking-2507, QwQ-32B, Qwen3-235B-A22B, DeepSeek-R1-0528, DeepSeek-R1, Qwen2.5-32B-Instruct, Phi-4, Mixtral-8x22B-Instruct-v0.1, gpt-oss-120b。

使用注意事项

如果使用此数据集来创建、训练、微调或以其他方式改进AI模型，并且该模型被分发或提供，则该AI模型可能需遵守 Qwen License Agreement、DeepSeek License Agreement 和 Phi-4 license agreement 中的再分发和使用要求。

预期用途

Nemotron 预训练数据集旨在供社区用于持续改进开放模型。在用户同意开放数据许可的前提下，可以自由使用该数据进行训练和评估。

搜集汇总

数据集介绍

构建方式

在大型语言模型预训练领域，数据集的构建策略直接影响模型的专业能力。Nemotron-Pretraining-Specialized-v1数据集通过合成生成技术，专门针对STEM推理与科学编程等专业领域进行构建。其核心方法涉及从高质量的主题分层STEM文档中采样连续语块以生成问题，随后进行无上下文的推理与答案推演，从而创建长形式的推理问答数据。此外，该数据集还采用了跨领域“杂交”程序，将代码、数学、物理和化学等不同学科语料进行组合，以生成需要深度跨学科推理的复合问题。维基百科文章与数学教材内容则通过指令微调模型进行修订与风格化处理，转化为教育性文本。整个构建过程依托于Qwen3-235B、gpt-oss-120b等多个先进大语言模型，确保了合成数据的多样性与复杂性。

特点

该数据集的核心特点在于其高度的专业性与合成数据的精心设计。它并非通用语料的简单集合，而是聚焦于STEM推理、科学编程及事实性知识等垂直领域，旨在弥补通用预训练数据在这些专业深度上的不足。数据集内部包含多个专门化的子集，例如用于长形式STEM推理的RQA数据、促进跨领域复合问题解决的InfiniByte数据，以及经过修订的维基百科和数学教科书风格数据。这些子集共同构成了一个多层次、多模态的专业知识体系。数据格式统一，主要包含文本内容及丰富的元数据，如模型使用记录、提示类型和来源语料等，为研究数据构成与训练过程分析提供了透明支持。

使用方法

该数据集旨在为大型语言模型，特别是NVIDIA Nemotron系列模型，提供专业领域的预训练与能力增强数据。使用者可通过HuggingFace平台直接加载指定的配置名称，例如‘Nemotron-Pretraining-RQA’或‘Nemotron-Pretraining-STEM-SFT’，以访问不同的专业子集。每个子集以Parquet格式存储，主要数据字段为‘text’或‘content’，可直接用于模型训练。在具体应用中，建议将此专业数据集与更广泛的Nemotron预训练数据集（如通用网络语料和代码语料）结合使用，以构建全面且均衡的模型知识基础。使用者需注意不同子集遵循的许可协议，如CC BY 4.0或CC BY-SA 4.0，并遵守其中关于模型分发与使用的相关要求。

背景与挑战

背景概述

在大型语言模型（LLM）蓬勃发展的时代，高质量、多样化的预训练数据成为提升模型能力的关键。由NVIDIA公司于2025年12月15日发布的Nemotron-Pretraining-Specialized-v1数据集，正是这一背景下的重要产物。作为Nemotron预训练数据集系列的最新成员，该数据集旨在为NVIDIA Nemotron 3系列模型提供专门化的训练语料，其核心研究问题聚焦于如何通过合成数据技术，有效增强LLM在科学、技术、工程和数学（STEM）领域的推理、编码及事实性知识掌握能力。该数据集整合了维基百科改写、数学教科书、STEM指令微调、科学编码、推理问答及跨领域推理等多个子集，通过先进的大语言模型生成高质量合成数据，为前沿LLM的训练提供了更为精准和深度的知识基础，推动了模型在复杂专业任务上的性能边界。

当前挑战

该数据集致力于解决LLM在STEM领域专业能力提升的根本性挑战，即如何获取大规模、高质量且涵盖深度跨学科知识的训练数据。其构建过程面临多重具体挑战：首先，在数据生成层面，需要确保合成内容在数学公式、科学代码及专业术语上的准确性与一致性，例如将数学表达式标准化为LaTeX格式并保留代码的完整上下文。其次，数据质量控制极为关键，必须通过多阶段流程（如Lynx渲染、LLM清洗与质量评分）来有效滤除噪声与低质量内容，同时维持数据的多样性与真实性。此外，跨学科知识的融合与“交叉繁殖”以创建新颖的复合问题，对生成模型的推理深度与领域知识广度提出了极高要求。最后，数据集的构建还需妥善处理不同子集间的协同使用、庞大的数据处理规模以及遵循复杂的开源许可协议等工程与合规性挑战。

常用场景

经典使用场景

在大型语言模型的预训练领域，Nemotron-Pretraining-Specialized-v1数据集以其聚焦于STEM推理与科学编程的合成数据特性，成为提升模型在专业领域认知能力的核心资源。该数据集最经典的使用场景是作为基础预训练语料的补充，专门用于增强模型在数学、物理、化学及代码生成等复杂学科中的深度理解和推理能力。通过集成长格式问答、跨领域复合问题以及教科书风格的数学文本，它为模型提供了结构化的专业知识输入，使其能够在处理高级科学问题时展现出更精准的逻辑链条和知识关联。

衍生相关工作

该数据集的发布直接关联并支撑了NVIDIA Nemotron系列模型，特别是Nemotron 3 Nano的技术演进。其设计理念与《Rewriting Pre-Training Data Boosts LLM Performance in Math and Code》等研究中倡导的“数据重写以提升专业能力”的方法一脉相承。数据集本身也衍生了围绕高质量合成数据生成、跨领域问题构建以及专业知识注入评估等一系列经典研究工作。这些工作深入探索了如何通过程序化“杂交”不同学科语料来创造新颖的复合问题，以及如何利用大模型生成兼具广度和深度的训练数据，从而为后续构建更专注于垂直领域的大模型提供了重要的方法论和数据基础。

数据集最近研究