prolong-data-512K
收藏Hugging Face2024-10-06 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/princeton-nlp/prolong-data-512K
下载链接
链接失效反馈官方服务:
资源简介:
数据集 'princeton-nlp/prolong-data-512K' 是一个用于训练和微调长上下文语言模型的长上下文数据集合。该数据集包含310亿个标记,使用Llama-3分词器进行标记化,并打包成524,288个标记的序列。数据集以MDS(Mosaic Data Shard)格式存储,需要mosaicml-streaming库进行加载。数据集包含来自不同来源的多个子集,每个子集具有特定的序列长度和标记数量。这些数据用于ProLong模型的训练阶段,ProLong模型是从Llama-3-8B派生的长上下文语言模型。
创建时间:
2024-10-03
原始信息汇总
princeton-nlp/prolong-data-512K
概述
- 语言: 英语
- 标签: 长上下文
- 数据集大小: 31B 个token
- 最大序列长度: 524,288 个token
- 数据格式: MDS (Mosaic Data Shard)
- 加载工具: mosaicml-streaming
数据集结构
- 字段:
input_ids: 长度为524,288的一维数组,包含token idindices: 包含(start_index, end_index)元组的列表,用于标识input_ids中的子序列domain: (可选) 数据集分割的字符串
子集
| 数据集名称 | 总token数 | 来源 | 序列长度 |
|---|---|---|---|
thestackv1_concat_by_repo-524288 |
3.2B | the Stack | 固定524,288 |
thestackv1_concat_by_repo-65536 |
3.2B | the Stack | 固定65,536 |
book-524288 |
2.1B | SlimPajama 的书籍分割 | 固定524,288 |
book-65536 |
4.2B | SlimPajama 的书籍分割 | 固定65,536 |
fineweb-edu |
6.4B | fineweb-edu | 可变 |
fineweb-2023-50 |
6.4B | fineweb 的2023-50快照 | 可变 |
stackexchange |
1B | SlimPajama 的Stackexchange分割 | 可变 |
dolmawiki |
1B | Dolma 的Wikipedia分割 | 可变 |
tuluv2 |
250M | tulu-v2 | 可变 |
arxiv |
1B | SlimPajama 的ArXiv分割 | 可变 |
openwebmath |
1B | OpenWebMath | 可变 |
textbooks |
750M | TextbookChapters | 可变 (多数为524,288) |
相关模型
- princeton_nlp/Llama-3-8B-ProLong-64k-Base
- princeton_nlp/Llama-3-8B-ProLong-64k-Instruct
- princeton_nlp/Llama-3-8B-ProLong-512k-Base
- princeton_nlp/Llama-3-8B-ProLong-512k-Instruct
引用
bibtex @article{gao2024prolong, title={Enabling Large Language Models to Generate Text with Citations}, author={Gao, Tianyu and Wettig, Alexander and Yen, Howard and Chen, Danqi}, year={2024}, }
搜集汇总
数据集介绍

构建方式
prolong-data-512K数据集的构建基于Llama-3-8B模型,通过持续训练和监督微调,扩展了其上下文窗口至512K tokens。该数据集包含31B tokens,使用Llama-3 tokenizer进行分词,并将数据打包成524,288 tokens的序列。数据以MDS格式存储,需借助mosaicml-streaming工具加载。数据来源多样,包括the Stack、SlimPajama、fineweb等多个公开数据集,涵盖了书籍、教育、维基百科、Stackexchange等多个领域。
特点
prolong-data-512K数据集的最大特点是其超长的上下文窗口,支持高达512K tokens的序列长度,这在长上下文语言模型训练中具有显著优势。数据集不仅包含固定长度的序列,还提供了可变长度的序列,以适应不同场景的需求。此外,数据集通过精细的文档分割和领域标注,确保了数据的多样性和高质量,为模型训练提供了丰富的上下文信息。
使用方法
使用prolong-data-512K数据集时,需通过mosaicml-streaming工具进行加载。每个数据条目包含`input_ids`和`indices`字段,分别表示token序列及其文档分割信息。用户可以通过克隆仓库或使用`huggingface_hub.snapshot_download`函数下载数据。加载后的数据可直接用于长上下文语言模型的训练和评估,支持从64K到512K不同规模的上下文窗口扩展。
背景与挑战
背景概述
prolong-data-512K数据集由普林斯顿大学的研究团队于2024年发布,旨在推动长上下文语言模型的研究与发展。该数据集基于Llama-3-8B模型进行扩展训练,支持高达512K的上下文窗口,是当前10B规模下性能最优的长上下文模型之一。研究团队通过深入分析长上下文预训练数据、监督微调数据及其他设计选择,提出了有效的长上下文模型训练方法。该数据集不仅为长上下文语言模型的研究提供了重要支持,还在自然语言处理领域产生了广泛影响。
当前挑战
prolong-data-512K数据集在构建过程中面临多重挑战。首先,长上下文模型的训练需要处理海量数据,如何高效地组织和管理这些数据成为关键问题。其次,数据集的构建涉及多种来源的数据整合,包括代码库、书籍、教育资源和学术论文等,如何确保数据的多样性和质量是一大难题。此外,长上下文模型的训练对计算资源要求极高,如何在有限资源下优化训练效率也是研究团队需要克服的挑战。最后,如何评估长上下文模型的性能,尤其是在复杂任务中的表现,仍需进一步探索。
常用场景
经典使用场景
在自然语言处理领域,prolong-data-512K数据集主要用于训练和评估长上下文语言模型。该数据集通过包含高达524,288个token的序列,能够有效支持模型处理超长文本输入,适用于需要理解长文档或复杂上下文的场景,如法律文档分析、学术论文生成等。
衍生相关工作
基于prolong-data-512K数据集,研究者们开发了一系列经典的长上下文语言模型,如Llama-3-8B-ProLong系列。这些模型在长文本生成、问答系统等任务中表现出色,进一步推动了自然语言处理技术的发展,并为后续研究提供了重要的参考和基础。
数据集最近研究
最新研究方向
在长上下文语言模型领域,prolong-data-512K数据集的最新研究方向聚焦于如何有效训练支持超长上下文窗口的模型。随着大模型在处理复杂任务时对上下文长度的需求日益增加,该数据集通过整合多种来源的数据,如the Stack、SlimPajama和fineweb等,提供了高达512K token的序列长度支持。这一研究方向不仅推动了长上下文模型的性能提升,还为模型在文档理解、代码生成和多轮对话等任务中的应用提供了新的可能性。通过结合监督微调和预训练策略,研究团队进一步优化了模型的长上下文处理能力,使其在HELMET评估中表现优异,为未来长上下文模型的发展奠定了重要基础。
以上内容由遇见数据集搜集并总结生成



