TxT360|预训练语言模型数据集|预训练数据集
收藏TxT360: 高质量LLM预训练数据集
数据集概述
TxT360(Trillion eXtracted Text)是首个全球去重99个CommonCrawl快照和14个常用非网页数据源(如FreeLaw、PG-19等)的数据集。该数据集为预训练团队提供了一种轻松调整数据权重、获取最大高质量开源数据集并训练最优模型的方法。
数据源比较
| 数据源 | TxT360 | FineWeb | RefinedWeb | PedPajamaV2 | C4 | Dolma | RedPajamaV1 | The Pile |
|---|---|---|---|---|---|---|---|---|
| CommonCrawl快照 | 99 | 96 | 90 | 84 | 1 | 24 | 5 | 0.6% of 74 |
| 论文** | 5个来源 | - | - | - | - | 1个来源 | 1个来源 | 4个来源 |
| Wikipedia | 310+种语言 | - | - | - | - | 包含 | 包含 | 仅英文 |
| FreeLaw | 包含 | - | - | - | - | - | - | 包含 |
| DM Math | 包含 | - | - | - | - | - | - | 包含 |
| USPTO | 包含 | - | - | - | - | - | - | 包含 |
| PG-19 | 包含 | - | - | - | - | 包含 | 包含 | 包含 |
| HackerNews | 包含 | - | - | - | - | - | - | 包含 |
| Ubuntu IRC | 包含 | - | - | - | - | - | - | 包含 |
| EuroParl | 包含 | - | - | - | - | - | - | 包含 |
| StackExchange** | 包含 | - | - | - | - | - | - | 包含 |
| 代码 | * | - | - | - | - | 包含 | 包含 | 包含 |
-
TxT360不包含代码。此决定是由于代码与其他来源的重复率较低。
-
StackExchange和PubMed Central数据集将很快上传。所有其他数据集均已完整。
数据集性能
为了评估数据集的训练效率,我们从FineWeb和TxT360中各抽取了1.5T个token,并在一个8x8B的Mixture-of-Experts架构上进行了训练消融实验。通过跟踪训练损失、验证分数和在多种评估基准上的表现来比较学习曲线。验证集独立于SlimPajama采样。
初始数据表示
为了生成TxT360,设计了一个全面的数据处理管道,以处理网页和精选数据集的细微差别。该管道提供了一个统一的框架,方便用户根据自身需求调整和微调管道。
数据过滤与去重
- CommonCrawl数据过滤:详细讨论了如何过滤99个Common Crawl快照,并与之前的过滤技术(如Dolma、DataTrove、RedPajamaV2)进行比较。
- 精选数据源过滤:每个数据源都根据底层数据进行了单独过滤。详细讨论了每个数据源的过滤过程。
- 全局去重:在过滤网页和精选数据源后,所有数据源进行了全局去重,以创建TxT360。包含了去重过程中的技巧和窍门。
数据集详细信息
| 数据源 | 原始数据大小 | 标记数量 | 信息截止日期 |
|---|---|---|---|
| CommonCrawl | 9.2 TB | 4.83T | 2024-30 |
| 论文 | 712 GB | 154.96B | Q4 2023 |
| Wikipedia | 199 GB | 35.975B | - |
| Freelaw | 71 GB | 16.7B | Q1 2024 |
| DM Math | 22 GB | 5.23B | - |
| USPTO | 45 GB | 4.95B | Q3 2024 |
| PG-19 | 11 GB | 2.63B | - |
| HackerNews | 4.1 GB | 1.08B | Q4 2023 |
| Ubuntu IRC | 4.7 GB | 1.54B | Q3 2024 |
| Europarl | 6.1 GB | 1.96B | - |
| StackExchange | 79 GB | 27.0B | Q4 2023 |
引用
bibtex @misc{txt360data2024, title={TxT360: A Top-Quality LLM Pre-training Dataset Requires the Perfect Blend}, author={Liping Tang, Nikhil Ranjan, Omkar Pangarkar, Xuezhi Liang, Zhen Wang, Li An, Bhaskar Rao, Zhoujun Cheng, Suqi Sun, Cun Mu, Victor Miller, Yue Peng, Eric P. Xing, Zhengzhong Liu}, year={2024} }

日食计算器
此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。
国家天文科学数据中心 收录
中国劳动力动态调查
“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。
中国学术调查数据资料库 收录
MeSH
MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。
www.nlm.nih.gov 收录
Pima Indians Diabetes Database
该项目使用的数据集是Pima Indians Diabetes Database,来源于UCI机器学习库。该数据集包含多个医学预测变量和一个目标变量,即Outcome,用于指示患者是否患有糖尿病(1)或未患(0)。
github 收录
WideIRSTD Dataset
WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。
github 收录
