LongABC-32K

github2025-02-27 更新2025-03-19 收录

下载链接：

https://github.com/Lyun0912-wu/LongAttn

下载链接

链接失效反馈

官方服务：

资源简介：

LongABC-32K是一个32K长度的长上下文数据集，来源于开源的Arxiv、Book和Code数据，经过预处理后，每个类别包含12亿个token。通过LongAttn框架基于LLaMA-3.1-70B从LongABC-32K-Raw中筛选出的数据集，每个类别包含1.5亿个token。

LongABC-32K is a 32K-length long-context dataset sourced from open-source Arxiv, Book, and Code datasets. After preprocessing, each category of this dataset contains 1.2 billion tokens. A filtered dataset extracted from LongABC-32K-Raw using the LongAttn framework based on LLaMA-3.1-70B has 150 million tokens per category.

创建时间：

2025-02-20

原始信息汇总

LongAttn数据集概述

数据集简介

名称：LongAttn
用途：用于通过token级注意力机制选择长上下文训练数据
核心方法：利用LLMs的自注意力机制测量数据的长程依赖关系，通过计算token级依赖强度和token分数分布均匀性来量化长程依赖

发布模型与数据集

LongABC-32K-Raw
- 来源：开源Arxiv、Book和Code数据预处理后获得
- 特点：32K长度长上下文数据集
- 规模：每个类别包含120亿token
LongABC-32K
- 来源：基于LLaMA-3.1-70B从LongABC-32K-Raw中筛选
- 筛选方法：使用LongAttn框架
- 规模：每个类别包含15亿token
LongAttn-8B
- 基础模型：LLaMA-3-8B
- 训练数据：LongABC-32K
- 性能：使用45亿token训练的模型性能优于从LongABC-32K-Raw随机选取180亿token训练的模型

数据格式

预处理前数据格式 json [{"content":"This is a pre-training data of variable length."}]
预处理后数据格式 json [{"content":"This is a pre-training data of 32K length.","data_id":"Prefix_0000001"}]

引用

bibtex @article{wu2025longattn, title={LongAttn: Selecting Long-context Training Data via Token-level Attention}, author={Wu, Longyun and Zhu, Dawei and Zhao, Guangxiang and Yu, Zhuocheng and Ran, Junfeng and Wong, Xiangyu and Sun, Lin and Li, Sujian}, journal={arXiv preprint arXiv:2502.16860}, year={2025} }

搜集汇总

数据集介绍

构建方式

LongABC-32K数据集的构建基于开源数据源Arxiv、Book和Code，经过预处理后生成长度为32K的长上下文数据集。通过LongAttn框架，利用LLaMA-3.1-70B模型对原始数据进行筛选，量化了长程依赖关系，确保了数据的高效性和准确性。筛选后的数据集每个类别包含15亿个标记，显著提升了模型训练的效果。

特点

LongABC-32K数据集的特点在于其专注于长上下文数据的筛选与优化。通过LongAttn框架，数据集能够有效捕捉长程依赖关系，提升了模型对长文本的理解能力。此外，数据集的每个类别均经过精心筛选，确保了数据的高质量和多样性，为长上下文模型的训练提供了坚实的基础。

使用方法

使用LongABC-32K数据集时，首先需通过GitHub克隆代码库并安装必要的依赖项。随后，运行预处理脚本对数据进行滑动窗口处理，并为数据分配唯一标识符。接着，使用过滤脚本获取数据的注意力图并计算长程依赖指标，最终筛选出符合条件的数据。该数据集的使用流程清晰，便于研究人员快速上手并应用于长上下文模型的训练与评估。

背景与挑战

背景概述

LongABC-32K数据集是由Wu Longyun等人于2025年提出的，旨在解决长上下文数据选择问题。该数据集基于开源数据Arxiv、Book和Code，经过预处理后生成长度为32K的上下文数据。通过引入LongAttn框架，利用自注意力机制量化长程依赖关系，从而更精确地筛选出高质量的训练数据。该数据集在长上下文模型训练中表现出色，显著提升了模型性能，对自然语言处理领域的长上下文建模研究具有重要影响。

当前挑战

LongABC-32K数据集在构建过程中面临多重挑战。首先，长上下文数据的筛选需要高效计算自注意力机制中的长程依赖关系，这对计算资源提出了极高要求。其次，数据预处理阶段需对超长文本进行滑动窗口处理，并确保数据的一致性和完整性，这对算法设计和实现提出了技术挑战。此外，如何平衡数据筛选的准确性与计算效率，以及如何验证筛选后的数据对模型性能的实际提升，也是该数据集构建中的核心难题。

常用场景

经典使用场景

LongABC-32K数据集在自然语言处理领域中被广泛用于长上下文依赖的模型训练。通过其32K长度的上下文窗口，该数据集特别适合于训练能够理解和生成长文本序列的模型，如长文档摘要、机器翻译和对话系统。其独特的数据筛选机制确保了训练数据的质量，使得模型在处理长文本时表现出更高的准确性和连贯性。

衍生相关工作

基于LongABC-32K数据集，研究者们开发了多项经典工作。例如，LongAttn-8B模型通过在该数据集上的持续预训练，显著提升了长文本生成的质量。此外，该数据集还催生了一系列关于长上下文依赖建模的研究，如长文本摘要生成、跨文档信息抽取和多轮对话系统优化等，推动了自然语言处理领域的进一步发展。

数据集最近研究