math-tiers
收藏Hugging Face2026-03-04 更新2026-03-05 收录
下载链接:
https://huggingface.co/datasets/swan07/math-tiers
下载链接
链接失效反馈官方服务:
资源简介:
Math-Tiers 是一个大规模英语预训练语料库,根据数学内容密度分为三个层级,旨在研究预训练期间数据组成如何影响语言模型中的数值推理能力。该数据集包含三个层级:T0(纯叙述性内容,不含数字、数词或数学符号)、T1(日常数字语言,仅过滤正式数学内容)和 T2(完整数学内容,未经过滤)。总规模为 2,615 个分片,1,437 GB,估计约 3000 亿个令牌。数据以分片 JSONL 文件形式存储,每行包含文本内容、来源数据集标识符和令牌估计数。每个层级采用句子级过滤,T0 和 T1 使用不同的阻止列表过滤特定数学内容。该数据集支持控制实验,用于比较不同数学内容暴露对模型性能的影响。数据来源包括 RedPajama-Data-V2、English-PD、Project Gutenberg、C4 和 finemath 等多个公开数据集。
创建时间:
2026-02-28
原始信息汇总
Math-Tiers 数据集概述
数据集基本信息
- 名称: Math-Tiers: A Tiered Pretraining Corpus for Studying Numerical Reasoning
- 语言: 英语
- 许可协议: CC-BY-4.0
- 标签: 预训练、数值推理、分层语料库
- 规模类别: 大于1T
- 总体规模: 2,615个分片,1,437 GB,约3000亿个估计词元
层级结构
该数据集是一个大规模英语预训练语料库,根据数学内容密度分为三个层级,旨在用于研究预训练期间数据构成如何影响语言模型数值推理能力的受控实验。
| 层级 | 描述 | 分片数量 | 大小 | 估计词元 | 数据来源 |
|---|---|---|---|---|---|
| T0 | 纯叙事文本 — 无数字、数词或数学内容 | 648 | 542 GB | ~1130亿 | RedPajama-Book, PleIAs/English-PD, Project Gutenberg, Institutional Books, FineWeb |
| T1 | 日常数字语言 — 仅过滤正式数学内容 | 1,216 | 314 GB | ~660亿 | allenai/c4 (English) |
| T2 | 完整数学内容 — 未经过滤 | 751 | 580 GB | ~1210亿 | HuggingFaceTB/finemath (finemath-3plus) |
数据格式
- 每个层级存储为分片的JSONL文件,命名格式为:
T0/T0_0000.jsonl,T1/T1_0000.jsonl,T2/T2_0000.jsonl等。 - 每行是一个JSON对象,包含以下字段:
text: 过滤后的文档文本source: 原始数据集标识符token_estimate: 近似空格分割的词元计数
过滤方法
所有层级均使用句子级过滤:文档被分割成句子(使用NLTK punkt),移除匹配阻止列表的单个句子,然后将剩余句子重新连接。这种方法比段落级过滤保留了更多文本。
T0阻止列表(激进 — 移除所有数字内容)
- 数字: 所有字符0-9
- 运算符:
+ - * / = ^ % < >及Unicode数学符号 - 分数字符:
½ ¼ ¾等 - 数词: 从零到万亿,序数词(第一到第十二),一次/两次/三次,一半/四分之一/双倍/三倍/一打
- 数学术语: 方程、变量、多项式、导数、积分、定理、特征值、拓扑等
- 模式: LaTeX数学表达式(
$...$,frac{},sum,int等)
T1阻止列表(中等 — 仅移除正式数学内容)
- 不阻止数字或运算符 — 日常数字通过
- 数学术语: 方程、变量、多项式、导数、积分、定理、特征值、拓扑等
- 模式: LaTeX数学表达式
T2阻止列表
无 — 所有来自finemath-3plus的内容均按原样包含。
预期用途
该语料库支持一个具有以下设计的预训练实验:
- 基础模型: 在T0(纯叙事)上从头开始训练600亿词元
- 模型0: 在T0(保留的分片)上继续训练基础模型200亿词元
- 模型1: 在T1(日常数字)上继续训练基础模型200亿词元
- 模型2: 在T2(完整数学)上继续训练基础模型200亿词元
通过比较模型0/1/2,可以在控制总计算量和训练过程的情况下,分离出在第二训练阶段接触数学内容的影响。
数据来源
- https://huggingface.co/datasets/togethercomputer/RedPajama-Data-V2(书籍子集)
- https://huggingface.co/datasets/PleIAs/English-PD
- https://huggingface.co/datasets/manu/project_gutenberg
- https://huggingface.co/datasets/institutional/institutional-books-1.0
- https://huggingface.co/datasets/HuggingFaceFW/fineweb
- https://huggingface.co/datasets/allenai/c4
- https://huggingface.co/datasets/HuggingFaceTB/finemath(finemath-3plus配置)
搜集汇总
数据集介绍
构建方式
在自然语言处理领域,研究数据组成对模型数值推理能力的影响需要精心设计的数据集。Math-Tiers数据集通过分层构建策略,将大规模英文预训练语料划分为三个层级,分别对应不同的数学内容密度。T0层级采用激进过滤策略,移除所有数字、运算符及数学术语,确保纯叙事文本;T1层级保留日常数字表达,仅过滤形式化数学内容;T2层级则直接纳入完整数学语料。所有层级均采用句子级过滤技术,使用NLTK进行句子分割后依据层级特定屏蔽列表移除匹配句子,再重新组合文档,从而在保持文本连贯性的同时实现精确内容控制。
特点
该数据集的核心特征在于其分层结构设计,为探究预训练数据组成对语言模型数值推理能力的影响提供了可控实验环境。T0、T1和T2三个层级分别包含约1130亿、660亿和1210亿估计词元,总规模达到约3000亿词元,覆盖从纯叙事到完整数学内容的连续谱系。数据集以分片JSONL格式存储,每条记录包含文本内容、来源标识及词元估计数,确保了数据的可追溯性与处理效率。这种结构化设计使得研究者能够精确控制模型在不同数学密度数据上的暴露程度,为隔离数学内容对模型性能的影响提供了坚实基础。
使用方法
该数据集旨在支持一项系统的预训练实验,研究者可遵循既定流程开展研究。首先使用T0层级的纯叙事语料从头训练基础模型,消耗约600亿词元;随后分别使用T0、T1和T2层级的保留分片继续训练三个独立模型,各消耗约200亿词元。通过比较这三个模型在数值推理任务上的表现,能够有效隔离数学内容暴露在训练第二阶段的影响,同时控制总计算量和训练过程的一致性。数据集的分层结构与实验设计紧密结合,为探究数据组成与模型能力之间的因果关系提供了严谨的方法学框架。
背景与挑战
背景概述
在自然语言处理领域,语言模型的数值推理能力一直是研究的关键挑战。Math-Tiers数据集应运而生,旨在通过构建一个分层预训练语料库,系统探究数据组成对模型数学理解的影响。该数据集由研究机构精心设计,整合了RedPajama、C4、FineMath等多个知名开源语料,依据数学内容密度划分为三个层级:T0为纯叙事文本,T1包含日常数字语言,T2则涵盖完整数学内容。其核心研究问题聚焦于预训练阶段数据暴露如何塑造语言模型的数值推理性能,为可控实验提供了标准化基准,推动了可解释性机器学习的发展。
当前挑战
Math-Tiers数据集旨在解决语言模型在数值推理任务上的泛化能力挑战,其核心在于量化不同数学内容暴露对模型性能的差异化影响。构建过程中的主要挑战包括设计精确的层级过滤规则,例如在T0层级需彻底移除数字、运算符及数学术语,同时保持文本的连贯性与语言质量;在T1层级则需精准区分日常数字表达与形式化数学内容,避免过度过滤。此外,整合多源异构数据并确保各层级在规模和语言分布上的平衡,亦是保障实验有效性的关键难点。
常用场景
经典使用场景
在自然语言处理领域,Math-Tiers数据集为研究预训练数据组成对语言模型数值推理能力的影响提供了经典实验平台。该数据集将大规模英文语料划分为三个层级,分别代表无数学内容的纯叙事文本、包含日常数字语言的文本以及富含完整数学内容的文本。研究者通过在不同层级上训练或继续训练模型,能够精确控制数学内容的暴露程度,从而系统分析数据组成如何塑造模型的数值理解和计算性能。这种分层设计使得实验具有高度可控性,为探索语言模型在数学能力上的数据依赖性奠定了坚实基础。
解决学术问题
Math-Tiers数据集旨在解决预训练数据组成与语言模型数值推理能力之间关系的核心学术问题。通过提供严格分层的语料,它使研究者能够隔离数学内容在训练过程中的影响,控制计算总量和训练流程的一致性。这有助于揭示模型在接触不同密度数学数据后,其数值理解、符号操作和逻辑推理能力的演变规律。该数据集的意义在于为数据驱动的模型能力研究提供了标准化实验框架,推动了关于模型泛化性、领域适应性和知识获取机制的深入探讨,对理解大规模预训练的内在机理具有重要影响。
衍生相关工作
围绕Math-Tiers数据集,已衍生出一系列探讨数据组成与模型能力关系的经典研究工作。这些研究通常遵循其设计的实验范式,比较在不同层级上继续训练的模型性能,评估其在数学基准测试如MATH、GSM8K上的表现。相关工作深入分析了数学内容引入的时机、数量与模型最终数值推理能力之间的关联,并进一步探索了分层预训练对模型泛化性、遗忘现象以及多任务学习的影响。这些研究不仅验证了数据分层设计的有效性,也推动了更精细的数据策展和训练策略的发展。
以上内容由遇见数据集搜集并总结生成



