LongABC-32K

Name: LongABC-32K
Creator: 北京大学
Published: 2025-02-24 13:51:53
License: 暂无描述

arXiv2025-02-24 更新2025-02-26 收录

下载链接：

https://github.com/Lyun0912-wu/LongAttn

下载链接

链接失效反馈

官方服务：

资源简介：

LongABC-32K数据集是由北京大学等研究机构创建的高质量长语境训练数据集。该数据集通过开源的长语境数据集（ArXiv、书籍和代码）进行过滤得到，包含了强大的长距离依赖性。数据集的大小为32k tokens，是为了在捕获长距离依赖性和保持合理的计算复杂性之间取得平衡。该数据集的创建是为了增强大型语言模型处理长语境的能力，并已发布以促进未来长语境数据的研究。

The LongABC-32K dataset is a high-quality long-context training dataset created by Peking University and other research institutions. It is filtered from open-source long-context datasets (ArXiv papers, books, and code), and exhibits strong long-range dependencies. With a size of 32k tokens, it is designed to strike a balance between capturing long-range dependencies and maintaining reasonable computational complexity. This dataset was developed to enhance the long-context processing capabilities of large language models, and has been publicly released to facilitate future research on long-context data.

提供机构：

北京大学

创建时间：

2025-02-24

搜集汇总

数据集介绍

构建方式

LongABC-32K数据集是通过LongAttn框架构建的。该框架利用大型语言模型（LLMs）的自注意力机制，从开源的长文本数据集中（如ArXiv、书籍和代码）筛选出具有强长距离依赖性的数据。通过计算token级的依赖强度和token分数分布的均匀性，LongAttn有效地量化了长距离依赖性，从而能够更准确和高效地选择数据。

特点

LongABC-32K数据集的特点是具有强长距离依赖性的高质量长文本数据。该数据集是通过LongAttn框架从开源数据集中筛选出来的，能够有效地提升大型语言模型处理长文本的能力。此外，LongABC-32K数据集具有可扩展性和高效性，能够在不同的模型规模和数据规模下表现出优异的性能。

使用方法

使用LongABC-32K数据集的方法包括：1）使用LongAttn框架对数据进行筛选，以选择具有强长距离依赖性的数据；2）将筛选后的数据用于大型语言模型的持续预训练，以提升模型处理长文本的能力；3）在预训练完成后，可以使用该数据集进行各种长文本任务的评价和测试，以评估模型的性能。

背景与挑战

背景概述

随着大型语言模型（LLMs）的发展，处理长上下文的需求日益增长。为了提高LLMs处理长上下文的能力，构建具有长距离依赖性的高质量训练数据至关重要。现有的选择长上下文数据的方法通常依赖于句子级分析，这在性能和效率上都可以进行大幅优化。在这篇论文中，我们提出了一种新颖的token级框架LongAttn，它利用LLMs的自我注意力机制来衡量数据的长距离依赖性。通过计算token级依赖强度和token分数的分布均匀性，LongAttn有效地量化了长距离依赖性，使数据选择更加准确和高效。我们从开源的长上下文数据集中筛选出了LongABC-32K（包括ArXiv、书籍和代码）。通过我们的综合实验，LongAttn已经证明了其出色的有效性、可扩展性和效率。为了促进未来长上下文数据的研究，我们发布了我们的代码和高质量的长上下文训练数据LongABC-32K。

当前挑战

为了提高LLMs处理长上下文的能力，构建具有长距离依赖性的高质量训练数据至关重要。现有的选择长上下文数据的方法通常依赖于句子级分析，这在性能和效率上都可以进行大幅优化。LongAttn通过计算token级依赖强度和token分数的分布均匀性，有效地量化了长距离依赖性，使数据选择更加准确和高效。然而，LongAttn的效率仍然有待提高，特别是在使用传统注意力图计算方法时。因此，提高LongAttn的效率是一个挑战。

常用场景

经典使用场景

LongABC-32K数据集主要用于训练大型语言模型（LLMs）以处理长上下文信息。通过使用LongAttn框架，该数据集能够有效地选择具有长距离依赖性的高质量训练数据，从而提升LLMs在处理长上下文方面的能力。LongABC-32K数据集在长上下文检索能力、长上下文基准测试和LLMs的基本能力方面均展现出卓越的性能，成为LLMs研究和开发的重要资源。

衍生相关工作

LongABC-32K数据集的发布为LLMs研究和开发提供了新的研究方向。基于LongABC-32K数据集，可以进一步研究LLMs在长上下文信息处理方面的性能提升方法，探索LLMs在长上下文信息处理方面的更多应用场景。此外，LongABC-32K数据集还可以用于开发更高效的LLMs训练方法，提高LLMs训练的效率。

数据集最近研究