Nemotron-CC-Math
收藏arXiv2025-08-21 更新2025-11-25 收录
下载链接:
https://huggingface.co/datasets/nvidia/Nemotron-CC-Math-v1
下载链接
链接失效反馈官方服务:
资源简介:
Nemotron-CC-Math是一个由英伟达创建的大规模、高质量的数学语料库,从Common Crawl中构建而成,包含1330亿个token。该数据集采用新颖的、与领域无关的管道进行构建,旨在从科学文本中可靠地提取数学内容。Nemotron-CC-Math-4+子集包含5.5倍于FineMath-4+的数据量,是迄今为止最高质量的开放数学预训练数据集。该数据集的创建过程包括HTML文档的文本化、LLM清理、质量分类、去重和去污染等步骤。Nemotron-CC-Math可用于数学、代码和通用推理等领域,旨在解决现有数学预训练数据集规模和保真度有限的问题。
Nemotron-CC-Math is a large-scale, high-quality mathematical corpus developed by NVIDIA, constructed from Common Crawl, containing 133 billion tokens. This dataset is built using a novel, domain-agnostic pipeline designed to reliably extract mathematical content from scientific texts. The Nemotron-CC-Math-4+ subset contains 5.5 times the data volume of FineMath-4+, making it the highest-quality open mathematical pre-training dataset to date. The creation process of this dataset includes steps such as text extraction from HTML documents, LLM-based cleaning, quality classification, deduplication, and decontamination. Nemotron-CC-Math can be applied to fields such as mathematics, code, and general reasoning, aiming to address the limitations of scale and fidelity faced by existing mathematical pre-training datasets.
提供机构:
英伟达
创建时间:
2025-08-21
搜集汇总
数据集介绍

构建方式
在数学预训练数据稀缺的背景下,Nemotron-CC-Math通过创新流程从Common Crawl中提取高质量数学内容。该流程首先基于社区筛选数据集识别数学相关URL,随后利用Lynx文本浏览器进行布局感知渲染,精准保留数学公式与代码结构。最后采用轻量级LLM标准化数学表达式为LaTeX格式,并执行质量分类、去重及去污染处理,构建出包含1.33亿文档、1330亿标记的大规模数学语料库。
特点
该数据集在数学预训练领域具有显著优势,其最高质量子集Nemotron-CC-Math-4+规模达523亿标记,较先前最优数学数据集FineMath-4+扩大5.5倍。内容覆盖数学(60.28%)、计算机科学(11.99%)、物理(11.22%)等多学科领域,且完整保留代码片段与数学公式的结构完整性。通过严格的去重与污染检测机制,确保了数据纯净度与训练稳定性,为提升模型数学推理能力提供了坚实基础。
使用方法
该数据集专为大规模语言模型预训练设计,可直接融入标准训练流程。研究实践表明,将数据集以30%权重混合于训练数据中,能显著提升模型在MATH基准上的数学推理能力(最高提升12.6分)及MBPP+代码生成性能(最高提升14.3分)。使用者可通过HuggingFace平台获取预处理版本,亦可利用开源管道自定义处理Common Crawl原始数据,满足不同场景下的数学语料构建需求。
背景与挑战
背景概述
随着大语言模型在数学推理领域的需求日益增长,高质量数学预训练数据集的构建成为研究重点。Nemotron-CC-Math由NVIDIA团队于2024年提出,旨在解决现有数学数据集因网页提取技术局限导致的公式结构破坏问题。该数据集基于Common Crawl网页存档,通过创新性流水线提取数学内容,构建了包含1330亿标记的大规模语料库。其核心突破在于实现了数学表达式与代码结构的完整保留,显著提升了模型在MATH和MBPP+等基准测试中的表现,为数学推理模型的发展提供了关键数据支撑。
当前挑战
数学领域数据构建面临双重挑战:在问题层面,网页数学表达式存在多格式混合(如MathJax、LaTeX、MathML),传统提取工具难以统一解析;在构建过程中,Common Crawl原始数据的样式表缺失与动态渲染依赖导致公式提取失真。现有方案如OpenWebMath和FineMath受限于启发式规则,无法有效处理异构数学表示。Nemotron-CC-Math通过布局感知渲染与LLM标准化阶段应对这些挑战,但如何平衡大规模处理效率与内容保真度仍是持续优化的关键。
常用场景
经典使用场景
在数学推理大模型预训练领域,Nemotron-CC-Math数据集凭借其1330亿令牌的庞大规模和卓越质量,成为构建高性能数学语言模型的核心训练资源。该数据集通过创新的领域无关流水线技术,从Common Crawl网络数据中精准提取数学内容,有效解决了传统方法在数学符号和公式提取中的结构失真问题。其经典应用场景包括为Nemotron-T 8B等模型提供数学推理能力的预训练基础,在MATH和MBPP+等基准测试中实现了显著性能提升。
解决学术问题
该数据集主要攻克了数学内容提取中的三大核心难题:传统启发式方法导致的文本质量退化、HTML到文本转换过程中的信息丢失,以及数学结构保持的不可靠性。通过引入基于lynx的布局感知渲染和LLM驱动的清洗阶段,成功实现了多格式数学表达式(包括MathJax、KaTeX和MathML)的准确恢复与标准化。这一突破使得数学预训练语料库的构建质量达到新的高度,为提升大模型的数学推理、代码生成和通用知识理解能力提供了坚实的数据基础。
衍生相关工作
该数据集的发布催生了一系列重要的衍生研究。其创新的数据处理流水线为后续技术工作提供了可复用的框架,启发了多个领域的技术改进。基于此数据集构建的预训练模型在OpenWebMath、FineMath和MegaMath等现有数学数据集上均表现出优越性能,推动了开源数学语料库研究的新发展。相关技术方案已被应用于其他科学文本提取任务,形成了从数据构建到模型训练的完整技术生态。
以上内容由遇见数据集搜集并总结生成



