Nemotron-Pretraining-Dataset-sample

Name: Nemotron-Pretraining-Dataset-sample
Creator: NVIDIA
Published: 2025-08-19 00:51:34
License: 暂无描述

Hugging Face2025-08-19 更新2025-08-22 收录

下载链接：

https://huggingface.co/datasets/nvidia/Nemotron-Pretraining-Dataset-sample

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron预训练数据集是一个用于生成式AI模型训练的预训练数据集，它保留了高价值的数学和代码，并通过丰富多样的多语言问答来增强，为下一代智能、全球能力的模型提供动力。

提供机构：

NVIDIA

创建时间：

2025-08-14

搜集汇总

数据集介绍

构建方式

在人工智能预训练领域，Nemotron-Pretraining-Dataset-sample通过多源数据整合与精细化处理构建而成。该数据集融合了来自Common Crawl的高质量数学内容、经过合成重述的英语网页抓取数据、多语言问答对以及代码片段，运用先进的Lynx与大型语言模型管道进行标准化与去噪处理，确保数学公式与代码结构的完整性。数据生成过程中采用了包括Qwen3、DeepSeek-V3在内的多种前沿模型进行合成与增强，覆盖数学、编程、学术问答等多个领域，并通过严格的质量过滤与去重机制提升数据纯净度。

特点

该数据集具备显著的多样性与高质量特性，总计包含超过6580亿标记的庞大规模，涵盖数学、代码、多语言问答及通用指令微调等多个维度。其数学部分通过LaTeX标准化呈现，保留了完整的方程与代码结构；多语言问答数据覆盖15种语言，增强了模型的跨语言理解能力；代码数据则经过多阶段过滤与元数据标注，确保合规性与质量。数据集支持128K上下文长度，为训练下一代智能模型提供了丰富而全面的语言素材。

使用方法

研究者可通过HuggingFace的datasets库直接加载该数据集，利用streaming模式高效处理大规模数据。例如，使用load_dataset函数指定数据集名称与配置（如“4plus”）即可访问数学预训练子集。用户可根据元数据模式筛选所需子集，如代码、数学或多语言问答数据，灵活适配不同训练需求。该数据集专为基金会模型训练设计，适用于预训练与指令微调场景，助力开发高性能、多领域的大型语言模型。

背景与挑战

背景概述

Nemotron预训练数据集由NVIDIA公司于2025年8月发布，旨在为生成式人工智能模型提供高质量的多模态训练语料。该数据集整合了数学推理、代码生成和多语言问答三大核心领域，通过创新的Lynx+LLM流水线技术对Common Crawl网页数据进行清洗和标准化处理，显著提升了数学公式与程序代码的保留质量。作为支持NVIDIA Nemotron Nano 2系列大语言模型的关键基础设施，该数据集通过融合真实数据与合成数据，推动了多语言推理模型在STEM领域的突破性进展。

当前挑战

该数据集致力于解决复杂数学推理与代码生成的联合建模问题，其核心挑战在于保持LaTeX数学表达式结构完整性的同时实现多语言语义对齐。构建过程中面临网页原始数据的噪声过滤难题，需通过多级去重算法消除跨语种重复内容。合成数据生成需协调Qwen3、DeepSeek等多个大语言模型的输出一致性，且需通过启发式质量过滤器确保代码片段的可执行性。多轮迭代生成过程中还需平衡学术文本的复杂性与数据多样性的需求。

常用场景

经典使用场景

在生成式人工智能模型的预训练领域，Nemotron-Pretraining-Dataset-sample作为高质量多模态语料库，广泛应用于大规模语言模型的数学推理与代码生成能力培养。其经典使用场景包括通过包含数学公式标准化为LaTeX格式的语料，提升模型对复杂数学问题的解析与求解能力，同时借助多语言问答数据增强模型的跨语言泛化性能。

衍生相关工作

基于该数据集衍生的经典工作包括Nemotron-CC-Math-v1数学预训练语料库的构建，以及采用Lynx+LLM流水线实现的公式标准化技术。在代码生成领域，采用多阶段过滤和元数据标注的代码处理流程为后续研究提供了范本，而使用Qwen和DeepSeek模型生成的合成数据方法也被广泛应用于其他多模态数据集构建。

数据集最近研究