Nemotron-CC

arXiv2024-12-04 更新2024-12-04 收录

下载链接：

https://data.commoncrawl.org/contrib/Nemotron/Nemotron-CC/index.html

下载链接

链接失效反馈

官方服务：

资源简介：

Nemotron-CC是由英伟达创建的一个高质量长时预训练数据集，旨在优化大规模语言模型的训练。该数据集包含6.3万亿个token，其中4.4万亿为全球去重后的原始token，1.9万亿为合成token。数据集的创建过程结合了分类器集成、合成数据重述和减少对启发式过滤器的依赖。Nemotron-CC主要用于解决长token视野训练中的数据质量和数量平衡问题，特别是在训练超过15万亿token的模型时，能够显著提升模型的准确性和多样性。

Nemotron-CC is a high-quality long-duration pre-training dataset developed by NVIDIA to optimize the training of large-scale language models. It contains a total of 6.3 trillion tokens, of which 4.4 trillion are globally deduplicated raw tokens and 1.9 trillion are synthetic tokens. The dataset's creation process integrates classifier ensembles, synthetic data paraphrasing, and reduced reliance on heuristic filters. Nemotron-CC is primarily designed to address the trade-off between data quality and quantity in long-token-context training, and it can significantly improve the accuracy and diversity of models, especially when training models with over 15 trillion tokens.

提供机构：

英伟达

创建时间：

2024-12-04

搜集汇总

数据集介绍

构建方式

Nemotron-CC数据集的构建基于对Common Crawl的深度处理，通过结合分类器集成、合成数据重述以及减少对启发式过滤器的依赖，实现了在准确性和数据量之间的优化平衡。具体方法包括使用多个模型分类器对数据进行质量评分，生成合成数据以增强多样性，并采用全局去重技术以确保数据的高质量和高独特性。

特点

Nemotron-CC数据集的显著特点在于其庞大的规模和高质量的内容。该数据集包含6.3万亿个标记，其中4.4万亿为全球去重后的原始标记，1.9万亿为合成生成的标记。相比于其他常见爬虫数据集，Nemotron-CC在保持高准确率的同时，提供了四倍以上的独特真实标记，特别适用于长标记视野的预训练任务。

使用方法

Nemotron-CC数据集适用于各种大规模语言模型的预训练任务，特别是在需要长标记视野和高数据质量的场景中。用户可以通过访问提供的链接下载数据集，并使用Megatron-LM等开源库进行模型训练。在训练过程中，建议结合其他专业数据集以优化模型性能，并通过LM Evaluation Harness等工具进行评估，以确保模型在多个任务上的表现。

背景与挑战

背景概述

Nemotron-CC数据集由NVIDIA的研究团队开发，旨在将Common Crawl数据转化为高质量的长时预训练数据集。该数据集的核心研究问题是如何在保持数据质量的同时，最大化数据量，以适应如Llama 3.1等大型模型的长时训练需求。Nemotron-CC通过结合分类器集成、合成数据重述和减少对启发式过滤器的依赖，实现了在1T token训练中，8B参数模型在MMLU基准测试中比DCLM提升5.6分的显著效果。此外，其6.3T token的全数据集在MMLU上与DCLM持平，但包含了四倍于DCLM的唯一真实token，从而解锁了长时训练的最新技术水平。

当前挑战

Nemotron-CC数据集面临的挑战主要包括如何在数据质量和数据量之间找到最佳平衡点。具体挑战包括：1) 在从Common Crawl中提取数据时，如何有效过滤低质量内容，同时保留足够的高质量数据；2) 在合成数据生成过程中，如何确保生成的数据既多样又高质量，避免引入噪声或错误；3) 在减少对启发式过滤器的依赖时，如何确保数据集的整体质量不受影响。此外，数据集的构建过程还需要解决语言识别、数据去重等技术难题，以确保最终数据集的多样性和高质量。

常用场景

经典使用场景

Nemotron-CC数据集在自然语言处理领域中被广泛用于长文本预训练任务。其经典使用场景包括训练大规模语言模型（LLMs），特别是在需要处理大量文本数据和长文本序列的场景中。通过利用该数据集，研究人员能够显著提升模型在多任务学习中的表现，尤其是在需要长文本理解和生成能力的任务中。

衍生相关工作

基于Nemotron-CC数据集，研究者们开发了多种改进的长文本预训练方法和模型。例如，一些研究工作探索了如何更有效地利用合成数据来增强模型的泛化能力，而另一些工作则专注于优化数据过滤和质量评估流程，以进一步提升数据集的质量和多样性。这些衍生工作不仅推动了长文本处理技术的发展，也为其他领域的数据集构建提供了新的思路。

数据集最近研究