five

LongABC-32K

收藏
github2025-02-27 更新2025-03-19 收录
下载链接:
https://github.com/Lyun0912-wu/LongAttn
下载链接
链接失效反馈
官方服务:
资源简介:
LongABC-32K是一个32K长度的长上下文数据集,来源于开源的Arxiv、Book和Code数据,经过预处理后,每个类别包含12亿个token。通过LongAttn框架基于LLaMA-3.1-70B从LongABC-32K-Raw中筛选出的数据集,每个类别包含1.5亿个token。

LongABC-32K is a 32K-length long-context dataset sourced from open-source Arxiv, Book, and Code datasets. After preprocessing, each category of this dataset contains 1.2 billion tokens. A filtered dataset extracted from LongABC-32K-Raw using the LongAttn framework based on LLaMA-3.1-70B has 150 million tokens per category.
创建时间:
2025-02-20
原始信息汇总

LongAttn数据集概述

数据集简介

  • 名称:LongAttn
  • 用途:用于通过token级注意力机制选择长上下文训练数据
  • 核心方法:利用LLMs的自注意力机制测量数据的长程依赖关系,通过计算token级依赖强度和token分数分布均匀性来量化长程依赖

发布模型与数据集

  1. LongABC-32K-Raw

    • 来源:开源Arxiv、Book和Code数据预处理后获得
    • 特点:32K长度长上下文数据集
    • 规模:每个类别包含120亿token
  2. LongABC-32K

    • 来源:基于LLaMA-3.1-70B从LongABC-32K-Raw中筛选
    • 筛选方法:使用LongAttn框架
    • 规模:每个类别包含15亿token
  3. LongAttn-8B

    • 基础模型:LLaMA-3-8B
    • 训练数据:LongABC-32K
    • 性能:使用45亿token训练的模型性能优于从LongABC-32K-Raw随机选取180亿token训练的模型

数据格式

  1. 预处理前数据格式 json [{"content":"This is a pre-training data of variable length."}]

  2. 预处理后数据格式 json [{"content":"This is a pre-training data of 32K length.","data_id":"Prefix_0000001"}]

引用

bibtex @article{wu2025longattn, title={LongAttn: Selecting Long-context Training Data via Token-level Attention}, author={Wu, Longyun and Zhu, Dawei and Zhao, Guangxiang and Yu, Zhuocheng and Ran, Junfeng and Wong, Xiangyu and Sun, Lin and Li, Sujian}, journal={arXiv preprint arXiv:2502.16860}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
LongABC-32K数据集的构建基于开源数据源Arxiv、Book和Code,经过预处理后生成长度为32K的长上下文数据集。通过LongAttn框架,利用LLaMA-3.1-70B模型对原始数据进行筛选,量化了长程依赖关系,确保了数据的高效性和准确性。筛选后的数据集每个类别包含15亿个标记,显著提升了模型训练的效果。
特点
LongABC-32K数据集的特点在于其专注于长上下文数据的筛选与优化。通过LongAttn框架,数据集能够有效捕捉长程依赖关系,提升了模型对长文本的理解能力。此外,数据集的每个类别均经过精心筛选,确保了数据的高质量和多样性,为长上下文模型的训练提供了坚实的基础。
使用方法
使用LongABC-32K数据集时,首先需通过GitHub克隆代码库并安装必要的依赖项。随后,运行预处理脚本对数据进行滑动窗口处理,并为数据分配唯一标识符。接着,使用过滤脚本获取数据的注意力图并计算长程依赖指标,最终筛选出符合条件的数据。该数据集的使用流程清晰,便于研究人员快速上手并应用于长上下文模型的训练与评估。
背景与挑战
背景概述
LongABC-32K数据集是由Wu Longyun等人于2025年提出的,旨在解决长上下文数据选择问题。该数据集基于开源数据Arxiv、Book和Code,经过预处理后生成长度为32K的上下文数据。通过引入LongAttn框架,利用自注意力机制量化长程依赖关系,从而更精确地筛选出高质量的训练数据。该数据集在长上下文模型训练中表现出色,显著提升了模型性能,对自然语言处理领域的长上下文建模研究具有重要影响。
当前挑战
LongABC-32K数据集在构建过程中面临多重挑战。首先,长上下文数据的筛选需要高效计算自注意力机制中的长程依赖关系,这对计算资源提出了极高要求。其次,数据预处理阶段需对超长文本进行滑动窗口处理,并确保数据的一致性和完整性,这对算法设计和实现提出了技术挑战。此外,如何平衡数据筛选的准确性与计算效率,以及如何验证筛选后的数据对模型性能的实际提升,也是该数据集构建中的核心难题。
常用场景
经典使用场景
LongABC-32K数据集在自然语言处理领域中被广泛用于长上下文依赖的模型训练。通过其32K长度的上下文窗口,该数据集特别适合于训练能够理解和生成长文本序列的模型,如长文档摘要、机器翻译和对话系统。其独特的数据筛选机制确保了训练数据的质量,使得模型在处理长文本时表现出更高的准确性和连贯性。
衍生相关工作
基于LongABC-32K数据集,研究者们开发了多项经典工作。例如,LongAttn-8B模型通过在该数据集上的持续预训练,显著提升了长文本生成的质量。此外,该数据集还催生了一系列关于长上下文依赖建模的研究,如长文本摘要生成、跨文档信息抽取和多轮对话系统优化等,推动了自然语言处理领域的进一步发展。
数据集最近研究
最新研究方向
在自然语言处理领域,长上下文数据的处理一直是研究的热点之一。LongABC-32K数据集的推出,为长上下文数据的筛选和预处理提供了新的解决方案。该数据集通过引入LongAttn框架,利用自注意力机制量化长距离依赖关系,从而实现了更精确和高效的数据选择。这一方法不仅提升了模型在长上下文任务中的表现,还为未来的研究提供了新的方向。当前的研究重点在于如何进一步优化长上下文数据的筛选算法,以及探索这些数据在不同预训练模型中的应用效果。LongABC-32K的发布,标志着长上下文数据处理技术的一个重要里程碑,对推动自然语言处理领域的发展具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作