TxT360|预训练语言模型数据集|预训练数据集

huggingface2024-10-07 更新2024-12-12 收录

预训练语言模型

预训练

下载链接：

https://huggingface.co/datasets/LLM360/TxT360

下载链接

链接失效反馈

资源简介：

TxT360是一个用于预训练大型语言模型（LLM）的高质量数据集。它通过全球去重技术处理了99个CommonCrawl快照和14个常用的非网络数据源（如FreeLaw、PG-19等）。数据集包括多种类型的数据源，如论文、维基百科、法律文本、数学问题、专利、新闻、IRC聊天记录等。TxT360不包含代码数据。数据集通过复杂的过滤和去重技术处理，确保数据的高质量和完整性。最终生成的数据集包含约5万亿个token，是当前最大的高质量开源预训练数据集之一。

创建时间：

2024-10-04

原始信息汇总

TxT360: 高质量LLM预训练数据集

数据集概述

TxT360（Trillion eXtracted Text）是首个全球去重99个CommonCrawl快照和14个常用非网页数据源（如FreeLaw、PG-19等）的数据集。该数据集为预训练团队提供了一种轻松调整数据权重、获取最大高质量开源数据集并训练最优模型的方法。

数据源比较

数据源	TxT360	FineWeb	RefinedWeb	PedPajamaV2	C4	Dolma	RedPajamaV1	The Pile
CommonCrawl快照	99	96	90	84	1	24	5	0.6% of 74
论文**	5个来源	-	-	-	-	1个来源	1个来源	4个来源
Wikipedia	310+种语言	-	-	-	-	包含	包含	仅英文
FreeLaw	包含	-	-	-	-	-	-	包含
DM Math	包含	-	-	-	-	-	-	包含
USPTO	包含	-	-	-	-	-	-	包含
PG-19	包含	-	-	-	-	包含	包含	包含
HackerNews	包含	-	-	-	-	-	-	包含
Ubuntu IRC	包含	-	-	-	-	-	-	包含
EuroParl	包含	-	-	-	-	-	-	包含
StackExchange**	包含	-	-	-	-	-	-	包含
代码	*	-	-	-	-	包含	包含	包含

TxT360不包含代码。此决定是由于代码与其他来源的重复率较低。
StackExchange和PubMed Central数据集将很快上传。所有其他数据集均已完整。

数据集性能

为了评估数据集的训练效率，我们从FineWeb和TxT360中各抽取了1.5T个token，并在一个8x8B的Mixture-of-Experts架构上进行了训练消融实验。通过跟踪训练损失、验证分数和在多种评估基准上的表现来比较学习曲线。验证集独立于SlimPajama采样。

初始数据表示

为了生成TxT360，设计了一个全面的数据处理管道，以处理网页和精选数据集的细微差别。该管道提供了一个统一的框架，方便用户根据自身需求调整和微调管道。

数据过滤与去重

CommonCrawl数据过滤：详细讨论了如何过滤99个Common Crawl快照，并与之前的过滤技术（如Dolma、DataTrove、RedPajamaV2）进行比较。
精选数据源过滤：每个数据源都根据底层数据进行了单独过滤。详细讨论了每个数据源的过滤过程。
全局去重：在过滤网页和精选数据源后，所有数据源进行了全局去重，以创建TxT360。包含了去重过程中的技巧和窍门。

数据集详细信息

数据源	原始数据大小	标记数量	信息截止日期
CommonCrawl	9.2 TB	4.83T	2024-30
论文	712 GB	154.96B	Q4 2023
Wikipedia	199 GB	35.975B	-
Freelaw	71 GB	16.7B	Q1 2024
DM Math	22 GB	5.23B	-
USPTO	45 GB	4.95B	Q3 2024
PG-19	11 GB	2.63B	-
HackerNews	4.1 GB	1.08B	Q4 2023
Ubuntu IRC	4.7 GB	1.54B	Q3 2024
Europarl	6.1 GB	1.96B	-
StackExchange	79 GB	27.0B	Q4 2023

引用

bibtex @misc{txt360data2024, title={TxT360: A Top-Quality LLM Pre-training Dataset Requires the Perfect Blend}, author={Liping Tang, Nikhil Ranjan, Omkar Pangarkar, Xuezhi Liang, Zhen Wang, Li An, Bhaskar Rao, Zhoujun Cheng, Suqi Sun, Cun Mu, Victor Miller, Yue Peng, Eric P. Xing, Zhengzhong Liu}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

TxT360数据集的构建过程采用了高度精细化的数据处理流程，涵盖了99个CommonCrawl快照和14个非网络数据源（如FreeLaw、PG-19等）。通过全球去重技术，数据集剔除了大量冗余信息，确保了数据的高质量。数据来源包括网页数据和结构化数据，分别经过不同的过滤和去重步骤，最终整合为一个统一的框架。这一流程不仅保留了数据的完整性，还为用户提供了灵活调整数据权重的可能性，从而生成超过15T的高质量预训练数据。

特点

TxT360数据集的特点在于其广泛的覆盖范围和高质量的数据处理。数据集涵盖了310多种语言的维基百科内容、法律文献、数学数据、专利文献等多种类型的数据源。通过全球去重技术，数据集减少了冗余，确保了数据的多样性和代表性。此外，数据集还提供了详细的元数据信息，如语言检测、URL来源、时间戳等，帮助用户更好地理解和使用数据。TxT360是目前最大的开源预训练数据集之一，适用于多种自然语言处理任务。

使用方法

TxT360数据集的使用方法较为灵活，用户可以根据需求调整数据权重，生成适合自己任务的预训练数据。数据集以分块的形式存储，每个数据子集（如CommonCrawl、DM Math等）都有明确的目录结构，便于用户快速定位所需数据。用户可以通过HuggingFace平台下载数据集，并根据提供的元数据信息进行进一步的处理和分析。数据集还提供了详细的文档和示例路径，帮助用户快速上手。

背景与挑战

背景概述

TxT360数据集是由LLM360团队于2024年推出的一个高质量预训练数据集，旨在为大语言模型（LLM）的预训练提供全球去重的高质量文本数据。该数据集整合了99个CommonCrawl快照和14个常用的非网络数据源（如FreeLaw、PG-19等），涵盖了超过310种语言的维基百科内容。通过全球去重技术，TxT360生成了约5万亿个高质量令牌，成为目前最大的开源预训练数据集之一。其核心研究问题在于如何通过数据源的合理混合与去重，提升模型训练的效率和性能。该数据集的推出为大语言模型的预训练提供了新的基准，推动了自然语言处理领域的发展。

当前挑战

TxT360数据集在构建过程中面临多重挑战。首先，数据源的多样性和复杂性使得数据清洗和去重变得尤为困难，尤其是CommonCrawl等网络数据源存在大量噪声和冗余。其次，不同数据源的格式和结构差异较大，如何在保持数据完整性的同时实现无缝集成是一个技术难题。此外，全球去重技术的实现需要处理海量数据，计算成本高昂。在模型训练方面，如何通过数据源的合理混合优化模型性能，仍然是一个开放的研究问题。这些挑战不仅考验了数据处理技术的极限，也为未来的数据集构建和模型训练提供了重要的研究方向。

常用场景

经典使用场景

TxT360数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的预训练阶段。通过对99个CommonCrawl快照和14个非网络数据源的全局去重，TxT360为研究人员提供了一个高质量、多样化的文本资源库，能够有效支持模型的训练和优化。其独特的数据混合策略使得模型能够在不同领域和语言环境中表现出色，尤其是在多语言理解和生成任务中展现了显著的优势。

实际应用

在实际应用中，TxT360数据集被广泛用于构建和优化大规模语言模型，尤其是在多语言文本生成、机器翻译和问答系统等领域。其高质量的数据源和去重技术使得模型在实际应用中表现出更高的准确性和鲁棒性。例如，在跨语言信息检索和自动文档摘要等任务中，基于TxT360训练的模型能够更好地理解和生成多语言文本，显著提升了系统的性能。

衍生相关工作

TxT360数据集的发布催生了一系列相关研究工作，尤其是在大规模语言模型的预训练和优化领域。许多研究团队基于TxT360的数据混合策略和去重技术，提出了新的模型架构和训练方法。例如，一些研究利用TxT360的多语言数据源，开发了更高效的多语言模型，进一步推动了自然语言处理技术的全球化应用。此外，TxT360的数据处理框架也为其他数据集的设计和优化提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集，专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例，收集自自然雾霾环境和正常场景中人工添加的雾霾效果，以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型，确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测，旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

Fruits-360

一个高质量的水果图像数据集，包含多种水果的图像，如苹果、香蕉、樱桃等，总计42345张图片，分为训练集和验证集，共有64个水果类别。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

河湖“清四乱”监测

通过卫星遥感技术，对河流、湖泊、坑塘、水库等现状情况及变化趋势进行监测，对目标水域的水体富营养化、总磷、总氮等水质指标进行反演，对水利工程实施和建设进度进行跟踪监测，对河湖“四乱”行为进行监测排查，帮助用户快速掌握水域面积和水质变化情况、水利工程设施的建设进展情况以及追溯河湖“四乱”整治情况。

上海数据交易所登记层收录