prolong-data-512K

Hugging Face2024-10-06 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/princeton-nlp/prolong-data-512K

下载链接

链接失效反馈

官方服务：

资源简介：

数据集 'princeton-nlp/prolong-data-512K' 是一个用于训练和微调长上下文语言模型的长上下文数据集合。该数据集包含310亿个标记，使用Llama-3分词器进行标记化，并打包成524,288个标记的序列。数据集以MDS（Mosaic Data Shard）格式存储，需要mosaicml-streaming库进行加载。数据集包含来自不同来源的多个子集，每个子集具有特定的序列长度和标记数量。这些数据用于ProLong模型的训练阶段，ProLong模型是从Llama-3-8B派生的长上下文语言模型。

创建时间：

2024-10-03

原始信息汇总

princeton-nlp/prolong-data-512K

概述

语言: 英语
标签: 长上下文
数据集大小: 31B 个token
最大序列长度: 524,288 个token
数据格式: MDS (Mosaic Data Shard)
加载工具: mosaicml-streaming

数据集结构

字段:
- input_ids: 长度为524,288的一维数组，包含token id
- indices: 包含(start_index, end_index)元组的列表，用于标识input_ids中的子序列
- domain: (可选) 数据集分割的字符串

子集

数据集名称	总token数	来源	序列长度
`thestackv1_concat_by_repo-524288`	3.2B	the Stack	固定524,288
`thestackv1_concat_by_repo-65536`	3.2B	the Stack	固定65,536
`book-524288`	2.1B	SlimPajama 的书籍分割	固定524,288
`book-65536`	4.2B	SlimPajama 的书籍分割	固定65,536
`fineweb-edu`	6.4B	fineweb-edu	可变
`fineweb-2023-50`	6.4B	fineweb 的2023-50快照	可变
`stackexchange`	1B	SlimPajama 的Stackexchange分割	可变
`dolmawiki`	1B	Dolma 的Wikipedia分割	可变
`tuluv2`	250M	tulu-v2	可变
`arxiv`	1B	SlimPajama 的ArXiv分割	可变
`openwebmath`	1B	OpenWebMath	可变
`textbooks`	750M	TextbookChapters	可变 (多数为524,288)

引用

bibtex @article{gao2024prolong, title={Enabling Large Language Models to Generate Text with Citations}, author={Gao, Tianyu and Wettig, Alexander and Yen, Howard and Chen, Danqi}, year={2024}, }

搜集汇总

数据集介绍

构建方式

prolong-data-512K数据集的构建基于Llama-3-8B模型，通过持续训练和监督微调，扩展了其上下文窗口至512K tokens。该数据集包含31B tokens，使用Llama-3 tokenizer进行分词，并将数据打包成524,288 tokens的序列。数据以MDS格式存储，需借助mosaicml-streaming工具加载。数据来源多样，包括the Stack、SlimPajama、fineweb等多个公开数据集，涵盖了书籍、教育、维基百科、Stackexchange等多个领域。

特点

prolong-data-512K数据集的最大特点是其超长的上下文窗口，支持高达512K tokens的序列长度，这在长上下文语言模型训练中具有显著优势。数据集不仅包含固定长度的序列，还提供了可变长度的序列，以适应不同场景的需求。此外，数据集通过精细的文档分割和领域标注，确保了数据的多样性和高质量，为模型训练提供了丰富的上下文信息。

使用方法

使用prolong-data-512K数据集时，需通过mosaicml-streaming工具进行加载。每个数据条目包含`input_ids`和`indices`字段，分别表示token序列及其文档分割信息。用户可以通过克隆仓库或使用`huggingface_hub.snapshot_download`函数下载数据。加载后的数据可直接用于长上下文语言模型的训练和评估，支持从64K到512K不同规模的上下文窗口扩展。

背景与挑战

背景概述

prolong-data-512K数据集由普林斯顿大学的研究团队于2024年发布，旨在推动长上下文语言模型的研究与发展。该数据集基于Llama-3-8B模型进行扩展训练，支持高达512K的上下文窗口，是当前10B规模下性能最优的长上下文模型之一。研究团队通过深入分析长上下文预训练数据、监督微调数据及其他设计选择，提出了有效的长上下文模型训练方法。该数据集不仅为长上下文语言模型的研究提供了重要支持，还在自然语言处理领域产生了广泛影响。

当前挑战

prolong-data-512K数据集在构建过程中面临多重挑战。首先，长上下文模型的训练需要处理海量数据，如何高效地组织和管理这些数据成为关键问题。其次，数据集的构建涉及多种来源的数据整合，包括代码库、书籍、教育资源和学术论文等，如何确保数据的多样性和质量是一大难题。此外，长上下文模型的训练对计算资源要求极高，如何在有限资源下优化训练效率也是研究团队需要克服的挑战。最后，如何评估长上下文模型的性能，尤其是在复杂任务中的表现，仍需进一步探索。

常用场景

经典使用场景

在自然语言处理领域，prolong-data-512K数据集主要用于训练和评估长上下文语言模型。该数据集通过包含高达524,288个token的序列，能够有效支持模型处理超长文本输入，适用于需要理解长文档或复杂上下文的场景，如法律文档分析、学术论文生成等。

衍生相关工作

基于prolong-data-512K数据集，研究者们开发了一系列经典的长上下文语言模型，如Llama-3-8B-ProLong系列。这些模型在长文本生成、问答系统等任务中表现出色，进一步推动了自然语言处理技术的发展，并为后续研究提供了重要的参考和基础。

数据集最近研究

prolong-data-512K

princeton-nlp/prolong-data-512K

概述

数据集结构

子集

相关模型

引用