LongABC-32K
收藏arXiv2025-02-24 更新2025-02-26 收录
下载链接:
https://github.com/Lyun0912-wu/LongAttn
下载链接
链接失效反馈官方服务:
资源简介:
LongABC-32K数据集是由北京大学等研究机构创建的高质量长语境训练数据集。该数据集通过开源的长语境数据集(ArXiv、书籍和代码)进行过滤得到,包含了强大的长距离依赖性。数据集的大小为32k tokens,是为了在捕获长距离依赖性和保持合理的计算复杂性之间取得平衡。该数据集的创建是为了增强大型语言模型处理长语境的能力,并已发布以促进未来长语境数据的研究。
The LongABC-32K dataset is a high-quality long-context training dataset created by Peking University and other research institutions. It is filtered from open-source long-context datasets (ArXiv papers, books, and code), and exhibits strong long-range dependencies. With a size of 32k tokens, it is designed to strike a balance between capturing long-range dependencies and maintaining reasonable computational complexity. This dataset was developed to enhance the long-context processing capabilities of large language models, and has been publicly released to facilitate future research on long-context data.
提供机构:
北京大学
创建时间:
2025-02-24
搜集汇总
数据集介绍

构建方式
LongABC-32K数据集是通过LongAttn框架构建的。该框架利用大型语言模型(LLMs)的自注意力机制,从开源的长文本数据集中(如ArXiv、书籍和代码)筛选出具有强长距离依赖性的数据。通过计算token级的依赖强度和token分数分布的均匀性,LongAttn有效地量化了长距离依赖性,从而能够更准确和高效地选择数据。
特点
LongABC-32K数据集的特点是具有强长距离依赖性的高质量长文本数据。该数据集是通过LongAttn框架从开源数据集中筛选出来的,能够有效地提升大型语言模型处理长文本的能力。此外,LongABC-32K数据集具有可扩展性和高效性,能够在不同的模型规模和数据规模下表现出优异的性能。
使用方法
使用LongABC-32K数据集的方法包括:1)使用LongAttn框架对数据进行筛选,以选择具有强长距离依赖性的数据;2)将筛选后的数据用于大型语言模型的持续预训练,以提升模型处理长文本的能力;3)在预训练完成后,可以使用该数据集进行各种长文本任务的评价和测试,以评估模型的性能。
背景与挑战
背景概述
随着大型语言模型(LLMs)的发展,处理长上下文的需求日益增长。为了提高LLMs处理长上下文的能力,构建具有长距离依赖性的高质量训练数据至关重要。现有的选择长上下文数据的方法通常依赖于句子级分析,这在性能和效率上都可以进行大幅优化。在这篇论文中,我们提出了一种新颖的token级框架LongAttn,它利用LLMs的自我注意力机制来衡量数据的长距离依赖性。通过计算token级依赖强度和token分数的分布均匀性,LongAttn有效地量化了长距离依赖性,使数据选择更加准确和高效。我们从开源的长上下文数据集中筛选出了LongABC-32K(包括ArXiv、书籍和代码)。通过我们的综合实验,LongAttn已经证明了其出色的有效性、可扩展性和效率。为了促进未来长上下文数据的研究,我们发布了我们的代码和高质量的长上下文训练数据LongABC-32K。
当前挑战
为了提高LLMs处理长上下文的能力,构建具有长距离依赖性的高质量训练数据至关重要。现有的选择长上下文数据的方法通常依赖于句子级分析,这在性能和效率上都可以进行大幅优化。LongAttn通过计算token级依赖强度和token分数的分布均匀性,有效地量化了长距离依赖性,使数据选择更加准确和高效。然而,LongAttn的效率仍然有待提高,特别是在使用传统注意力图计算方法时。因此,提高LongAttn的效率是一个挑战。
常用场景
经典使用场景
LongABC-32K数据集主要用于训练大型语言模型(LLMs)以处理长上下文信息。通过使用LongAttn框架,该数据集能够有效地选择具有长距离依赖性的高质量训练数据,从而提升LLMs在处理长上下文方面的能力。LongABC-32K数据集在长上下文检索能力、长上下文基准测试和LLMs的基本能力方面均展现出卓越的性能,成为LLMs研究和开发的重要资源。
衍生相关工作
LongABC-32K数据集的发布为LLMs研究和开发提供了新的研究方向。基于LongABC-32K数据集,可以进一步研究LLMs在长上下文信息处理方面的性能提升方法,探索LLMs在长上下文信息处理方面的更多应用场景。此外,LongABC-32K数据集还可以用于开发更高效的LLMs训练方法,提高LLMs训练的效率。
数据集最近研究
最新研究方向
LongABC-32K数据集的最新研究方向在于通过Token-Level Attention机制,提升大型语言模型在处理长上下文方面的能力。这一研究方向旨在解决现有方法在构建高质量长上下文训练数据方面的不足,如句子级分析方法的性能和效率问题。LongAttn框架通过计算Token-Level依赖强度和Token分数的分布均匀性,有效地量化长距离依赖关系,从而实现更准确和高效的数据选择。LongABC-32K数据集的发布为未来研究长上下文数据提供了重要的资源,其强大的长距离依赖特性和优越的性能在多个长上下文任务中得到了验证,展示了该数据集在提升大型语言模型长上下文处理能力方面的潜力和价值。
相关研究论文
- 1LongAttn: Selecting Long-context Training Data via Token-level Attention北京大学 · 2025年
以上内容由遇见数据集搜集并总结生成



