prolong-data-64K

Hugging Face2024-10-04 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/princeton-nlp/prolong-data-64K

下载链接

链接失效反馈

官方服务：

资源简介：

ProLong数据集用于训练长上下文语言模型，分为两个阶段：第一阶段包含64K训练数据，第二阶段包含128K训练数据。数据集用于继续训练和监督微调Llama-3-8B模型，以实现最大512K tokens的上下文窗口。

The ProLong dataset is designed for training long-context language models, and it is divided into two stages: the first stage contains 64K training data, while the second stage includes 128K training data. This dataset is utilized for continued training and supervised fine-tuning of the Llama-3-8B model to achieve a maximum context window of up to 512K tokens.

创建时间：

2024-10-03

原始信息汇总

princeton-nlp/prolong-data-64K

概述

语言: 英语
标签: 长上下文

数据集详情

数据集名称: prolong-data-64K
所属项目: ProLong
项目描述: ProLong是一系列从Llama-3-8B继续训练并监督微调的长上下文语言模型，最大上下文窗口为512K tokens。
数据集阶段: Stage 1 64K训练

作者

Tianyu Gao*, Alexander Wettig*, Howard Yen, Danqi Chen (* 同等贡献)
联系方式: {tianyug, awettig}@princeton.edu

数据集组成

图像: ProLong训练数据和配方

引用

bibtex @article{gao2024prolong, title={Enabling Large Language Models to Generate Text with Citations}, author={Gao, Tianyu and Wettig, Alexander and Yen, Howard and Chen, Danqi}, year={2024}, }

搜集汇总

数据集介绍

构建方式

prolong-data-64K数据集的构建基于Llama-3-8B模型的持续训练和监督微调，旨在扩展其上下文窗口至512K tokens。数据集包含31B tokens，使用Llama-3 tokenizer进行分词，并将数据打包为65,536 tokens的序列。数据以MDS格式存储，需通过mosaicml-streaming库加载。数据来源多样，包括the Stack、SlimPajama、fineweb等多个公开数据集，确保了数据的广泛性和代表性。

特点

该数据集的特点在于其大规模和多样性，涵盖了编程、书籍、教育、维基百科、学术论文等多个领域的数据。每个数据条目包含65,536 tokens的input_ids，以及标识文档子序列的indices字段。此外，数据集还提供了可选的domain字段，用于标识数据的分割来源。这种结构设计使得数据集在处理长上下文任务时表现出色，尤其适合用于训练和评估长上下文语言模型。

使用方法

使用prolong-data-64K数据集时，需通过mosaicml-streaming库进行加载。用户可以通过克隆仓库或使用huggingface_hub.snapshot_download函数下载数据。加载后的数据条目包含input_ids和indices字段，用户可以根据需要提取和处理这些字段。数据集适用于训练和评估长上下文语言模型，特别是在需要处理大规模文本数据的场景中。通过合理利用数据集中的多样化数据，用户可以显著提升模型在长上下文任务中的表现。

背景与挑战

背景概述

ProLong数据集由普林斯顿大学的研究团队于2024年发布，旨在推动长上下文语言模型的研究与应用。该数据集基于Llama-3-8B模型进行扩展，最大上下文窗口可达512K tokens，是当前10B规模下性能最优的长上下文模型之一。研究团队通过大量的预训练数据和监督微调，探索了长上下文模型的有效训练方法，并在论文《How to Train Long-Context Language Models (Effectively)》中详细阐述了其研究成果。该数据集的发布为自然语言处理领域的长上下文建模提供了重要的数据支持，推动了模型在处理长文本任务中的表现。

当前挑战

ProLong数据集在构建过程中面临多重挑战。首先，长上下文模型的训练需要处理海量数据，如何高效地管理和处理这些数据是一个关键问题。其次，数据集的构建涉及多种来源的数据整合，如书籍、代码库、教育文本等，如何确保数据的多样性和质量是另一大挑战。此外，长上下文模型的训练需要解决模型在长序列中的信息衰减问题，如何设计有效的训练策略以保持模型在长文本中的表现力也是研究的难点。这些挑战不仅体现在数据集的构建过程中，也直接影响模型在实际应用中的效果。

常用场景

经典使用场景

在自然语言处理领域，prolong-data-64K数据集主要用于训练和评估长上下文语言模型。该数据集通过将多个文档序列打包成长度为65,536个标记的序列，使得模型能够在处理长文本时保持上下文的一致性。这种数据格式特别适合用于训练如Llama-3-8B-ProLong系列模型，这些模型在处理长文本任务时表现出色，尤其是在需要理解复杂上下文关系的场景中。

衍生相关工作

基于prolong-data-64K数据集，研究人员开发了多个经典的长上下文语言模型，如Llama-3-8B-ProLong系列模型。这些模型在多个长文本处理任务中取得了显著的性能提升，并推动了长上下文模型研究的发展。此外，该数据集还为其他研究团队提供了宝贵的数据资源，促进了长上下文模型领域的进一步探索和创新。

数据集最近研究

prolong-data-64K

princeton-nlp/prolong-data-64K

概述

数据集详情

相关资源

作者

相关模型

数据集组成

引用