TxT360|预训练语言模型数据集|预训练数据集
收藏TxT360: 高质量LLM预训练数据集
数据集概述
TxT360(Trillion eXtracted Text)是首个全球去重99个CommonCrawl快照和14个常用非网页数据源(如FreeLaw、PG-19等)的数据集。该数据集为预训练团队提供了一种轻松调整数据权重、获取最大高质量开源数据集并训练最优模型的方法。
数据源比较
数据源 | TxT360 | FineWeb | RefinedWeb | PedPajamaV2 | C4 | Dolma | RedPajamaV1 | The Pile |
---|---|---|---|---|---|---|---|---|
CommonCrawl快照 | 99 | 96 | 90 | 84 | 1 | 24 | 5 | 0.6% of 74 |
论文** | 5个来源 | - | - | - | - | 1个来源 | 1个来源 | 4个来源 |
Wikipedia | 310+种语言 | - | - | - | - | 包含 | 包含 | 仅英文 |
FreeLaw | 包含 | - | - | - | - | - | - | 包含 |
DM Math | 包含 | - | - | - | - | - | - | 包含 |
USPTO | 包含 | - | - | - | - | - | - | 包含 |
PG-19 | 包含 | - | - | - | - | 包含 | 包含 | 包含 |
HackerNews | 包含 | - | - | - | - | - | - | 包含 |
Ubuntu IRC | 包含 | - | - | - | - | - | - | 包含 |
EuroParl | 包含 | - | - | - | - | - | - | 包含 |
StackExchange** | 包含 | - | - | - | - | - | - | 包含 |
代码 | * | - | - | - | - | 包含 | 包含 | 包含 |
-
TxT360不包含代码。此决定是由于代码与其他来源的重复率较低。
-
StackExchange和PubMed Central数据集将很快上传。所有其他数据集均已完整。
数据集性能
为了评估数据集的训练效率,我们从FineWeb和TxT360中各抽取了1.5T个token,并在一个8x8B的Mixture-of-Experts架构上进行了训练消融实验。通过跟踪训练损失、验证分数和在多种评估基准上的表现来比较学习曲线。验证集独立于SlimPajama采样。
初始数据表示
为了生成TxT360,设计了一个全面的数据处理管道,以处理网页和精选数据集的细微差别。该管道提供了一个统一的框架,方便用户根据自身需求调整和微调管道。
数据过滤与去重
- CommonCrawl数据过滤:详细讨论了如何过滤99个Common Crawl快照,并与之前的过滤技术(如Dolma、DataTrove、RedPajamaV2)进行比较。
- 精选数据源过滤:每个数据源都根据底层数据进行了单独过滤。详细讨论了每个数据源的过滤过程。
- 全局去重:在过滤网页和精选数据源后,所有数据源进行了全局去重,以创建TxT360。包含了去重过程中的技巧和窍门。
数据集详细信息
数据源 | 原始数据大小 | 标记数量 | 信息截止日期 |
---|---|---|---|
CommonCrawl | 9.2 TB | 4.83T | 2024-30 |
论文 | 712 GB | 154.96B | Q4 2023 |
Wikipedia | 199 GB | 35.975B | - |
Freelaw | 71 GB | 16.7B | Q1 2024 |
DM Math | 22 GB | 5.23B | - |
USPTO | 45 GB | 4.95B | Q3 2024 |
PG-19 | 11 GB | 2.63B | - |
HackerNews | 4.1 GB | 1.08B | Q4 2023 |
Ubuntu IRC | 4.7 GB | 1.54B | Q3 2024 |
Europarl | 6.1 GB | 1.96B | - |
StackExchange | 79 GB | 27.0B | Q4 2023 |
引用
bibtex @misc{txt360data2024, title={TxT360: A Top-Quality LLM Pre-training Dataset Requires the Perfect Blend}, author={Liping Tang, Nikhil Ranjan, Omkar Pangarkar, Xuezhi Liang, Zhen Wang, Li An, Bhaskar Rao, Zhoujun Cheng, Suqi Sun, Cun Mu, Victor Miller, Yue Peng, Eric P. Xing, Zhengzhong Liu}, year={2024} }

学生课堂行为数据集 (SCB-dataset3)
学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。
arXiv 收录
HazyDet
HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。
arXiv 收录
Fruits-360
一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。
github 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
河湖“清四乱”监测
通过卫星遥感技术,对河流、湖泊、坑塘、水库等现状情况及变化趋势进行监测,对目标水域的水体富营养化、总磷、总氮等水质指标进行反演,对水利工程实施和建设进度进行跟踪监测,对河湖“四乱”行为进行监测排查,帮助用户快速掌握水域面积和水质变化情况、水利工程设施的建设进展情况以及追溯河湖“四乱”整治情况。
上海数据交易所登记层 收录