five

TxT360|预训练语言模型数据集|预训练数据集

收藏
huggingface2024-10-07 更新2024-12-12 收录
预训练语言模型
预训练
下载链接:
https://huggingface.co/datasets/LLM360/TxT360
下载链接
链接失效反馈
资源简介:
TxT360是一个用于预训练大型语言模型(LLM)的高质量数据集。它通过全球去重技术处理了99个CommonCrawl快照和14个常用的非网络数据源(如FreeLaw、PG-19等)。数据集包括多种类型的数据源,如论文、维基百科、法律文本、数学问题、专利、新闻、IRC聊天记录等。TxT360不包含代码数据。数据集通过复杂的过滤和去重技术处理,确保数据的高质量和完整性。最终生成的数据集包含约5万亿个token,是当前最大的高质量开源预训练数据集之一。

TxT360是一个用于预训练大型语言模型(LLM)的高质量数据集。它通过全球去重技术处理了99个CommonCrawl快照和14个常用的非网络数据源(如FreeLaw、PG-19等)。数据集包括多种类型的数据源,如论文、维基百科、法律文本、数学问题、专利、新闻、IRC聊天记录等。TxT360不包含代码数据。数据集通过复杂的过滤和去重技术处理,确保数据的高质量和完整性。最终生成的数据集包含约5万亿个token,是当前最大的高质量开源预训练数据集之一。
创建时间:
2024-10-04
原始信息汇总

TxT360: 高质量LLM预训练数据集

数据集概述

TxT360(Trillion eXtracted Text)是首个全球去重99个CommonCrawl快照和14个常用非网页数据源(如FreeLaw、PG-19等)的数据集。该数据集为预训练团队提供了一种轻松调整数据权重、获取最大高质量开源数据集并训练最优模型的方法。

数据源比较

数据源 TxT360 FineWeb RefinedWeb PedPajamaV2 C4 Dolma RedPajamaV1 The Pile
CommonCrawl快照 99 96 90 84 1 24 5 0.6% of 74
论文** 5个来源 - - - - 1个来源 1个来源 4个来源
Wikipedia 310+种语言 - - - - 包含 包含 仅英文
FreeLaw 包含 - - - - - - 包含
DM Math 包含 - - - - - - 包含
USPTO 包含 - - - - - - 包含
PG-19 包含 - - - - 包含 包含 包含
HackerNews 包含 - - - - - - 包含
Ubuntu IRC 包含 - - - - - - 包含
EuroParl 包含 - - - - - - 包含
StackExchange** 包含 - - - - - - 包含
代码 * - - - - 包含 包含 包含
  • TxT360不包含代码。此决定是由于代码与其他来源的重复率较低。

  • StackExchange和PubMed Central数据集将很快上传。所有其他数据集均已完整。

数据集性能

为了评估数据集的训练效率,我们从FineWeb和TxT360中各抽取了1.5T个token,并在一个8x8B的Mixture-of-Experts架构上进行了训练消融实验。通过跟踪训练损失、验证分数和在多种评估基准上的表现来比较学习曲线。验证集独立于SlimPajama采样。

初始数据表示

为了生成TxT360,设计了一个全面的数据处理管道,以处理网页和精选数据集的细微差别。该管道提供了一个统一的框架,方便用户根据自身需求调整和微调管道。

数据过滤与去重

  • CommonCrawl数据过滤:详细讨论了如何过滤99个Common Crawl快照,并与之前的过滤技术(如Dolma、DataTrove、RedPajamaV2)进行比较。
  • 精选数据源过滤:每个数据源都根据底层数据进行了单独过滤。详细讨论了每个数据源的过滤过程。
  • 全局去重:在过滤网页和精选数据源后,所有数据源进行了全局去重,以创建TxT360。包含了去重过程中的技巧和窍门。

数据集详细信息

数据源 原始数据大小 标记数量 信息截止日期
CommonCrawl 9.2 TB 4.83T 2024-30
论文 712 GB 154.96B Q4 2023
Wikipedia 199 GB 35.975B -
Freelaw 71 GB 16.7B Q1 2024
DM Math 22 GB 5.23B -
USPTO 45 GB 4.95B Q3 2024
PG-19 11 GB 2.63B -
HackerNews 4.1 GB 1.08B Q4 2023
Ubuntu IRC 4.7 GB 1.54B Q3 2024
Europarl 6.1 GB 1.96B -
StackExchange 79 GB 27.0B Q4 2023

引用

bibtex @misc{txt360data2024, title={TxT360: A Top-Quality LLM Pre-training Dataset Requires the Perfect Blend}, author={Liping Tang, Nikhil Ranjan, Omkar Pangarkar, Xuezhi Liang, Zhen Wang, Li An, Bhaskar Rao, Zhoujun Cheng, Suqi Sun, Cun Mu, Victor Miller, Yue Peng, Eric P. Xing, Zhengzhong Liu}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
TxT360数据集的构建过程采用了高度精细化的数据处理流程,涵盖了99个CommonCrawl快照和14个非网络数据源(如FreeLaw、PG-19等)。通过全球去重技术,数据集剔除了大量冗余信息,确保了数据的高质量。数据来源包括网页数据和结构化数据,分别经过不同的过滤和去重步骤,最终整合为一个统一的框架。这一流程不仅保留了数据的完整性,还为用户提供了灵活调整数据权重的可能性,从而生成超过15T的高质量预训练数据。
特点
TxT360数据集的特点在于其广泛的覆盖范围和高质量的数据处理。数据集涵盖了310多种语言的维基百科内容、法律文献、数学数据、专利文献等多种类型的数据源。通过全球去重技术,数据集减少了冗余,确保了数据的多样性和代表性。此外,数据集还提供了详细的元数据信息,如语言检测、URL来源、时间戳等,帮助用户更好地理解和使用数据。TxT360是目前最大的开源预训练数据集之一,适用于多种自然语言处理任务。
使用方法
TxT360数据集的使用方法较为灵活,用户可以根据需求调整数据权重,生成适合自己任务的预训练数据。数据集以分块的形式存储,每个数据子集(如CommonCrawl、DM Math等)都有明确的目录结构,便于用户快速定位所需数据。用户可以通过HuggingFace平台下载数据集,并根据提供的元数据信息进行进一步的处理和分析。数据集还提供了详细的文档和示例路径,帮助用户快速上手。
背景与挑战
背景概述
TxT360数据集是由LLM360团队于2024年推出的一个高质量预训练数据集,旨在为大语言模型(LLM)的预训练提供全球去重的高质量文本数据。该数据集整合了99个CommonCrawl快照和14个常用的非网络数据源(如FreeLaw、PG-19等),涵盖了超过310种语言的维基百科内容。通过全球去重技术,TxT360生成了约5万亿个高质量令牌,成为目前最大的开源预训练数据集之一。其核心研究问题在于如何通过数据源的合理混合与去重,提升模型训练的效率和性能。该数据集的推出为大语言模型的预训练提供了新的基准,推动了自然语言处理领域的发展。
当前挑战
TxT360数据集在构建过程中面临多重挑战。首先,数据源的多样性和复杂性使得数据清洗和去重变得尤为困难,尤其是CommonCrawl等网络数据源存在大量噪声和冗余。其次,不同数据源的格式和结构差异较大,如何在保持数据完整性的同时实现无缝集成是一个技术难题。此外,全球去重技术的实现需要处理海量数据,计算成本高昂。在模型训练方面,如何通过数据源的合理混合优化模型性能,仍然是一个开放的研究问题。这些挑战不仅考验了数据处理技术的极限,也为未来的数据集构建和模型训练提供了重要的研究方向。
常用场景
经典使用场景
TxT360数据集在自然语言处理领域中的经典使用场景主要集中在大规模语言模型的预训练阶段。通过对99个CommonCrawl快照和14个非网络数据源的全局去重,TxT360为研究人员提供了一个高质量、多样化的文本资源库,能够有效支持模型的训练和优化。其独特的数据混合策略使得模型能够在不同领域和语言环境中表现出色,尤其是在多语言理解和生成任务中展现了显著的优势。
实际应用
在实际应用中,TxT360数据集被广泛用于构建和优化大规模语言模型,尤其是在多语言文本生成、机器翻译和问答系统等领域。其高质量的数据源和去重技术使得模型在实际应用中表现出更高的准确性和鲁棒性。例如,在跨语言信息检索和自动文档摘要等任务中,基于TxT360训练的模型能够更好地理解和生成多语言文本,显著提升了系统的性能。
衍生相关工作
TxT360数据集的发布催生了一系列相关研究工作,尤其是在大规模语言模型的预训练和优化领域。许多研究团队基于TxT360的数据混合策略和去重技术,提出了新的模型架构和训练方法。例如,一些研究利用TxT360的多语言数据源,开发了更高效的多语言模型,进一步推动了自然语言处理技术的全球化应用。此外,TxT360的数据处理框架也为其他数据集的设计和优化提供了重要参考。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

日食计算器

此日食计算器能够查询公元前3000至后3000年范围内的日食信息,生成每次日食的覆盖区、中心区范围数据,展示日食带的地图;并可根据用户在地图上点击的坐标在线计算该地日食各阶段时间、食分等观测信息。

国家天文科学数据中心 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

MeSH

MeSH(医学主题词表)是一个用于索引和检索生物医学文献的标准化词汇表。它包含了大量的医学术语和概念,用于描述医学文献中的主题和内容。MeSH数据集包括主题词、副主题词、树状结构、历史记录等信息,广泛应用于医学文献的分类和检索。

www.nlm.nih.gov 收录

Pima Indians Diabetes Database

该项目使用的数据集是Pima Indians Diabetes Database,来源于UCI机器学习库。该数据集包含多个医学预测变量和一个目标变量,即Outcome,用于指示患者是否患有糖尿病(1)或未患(0)。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录