Long document dataset

github2024-05-06 更新2024-05-31 收录

下载链接：

https://github.com/LiqunW/Long-document-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是为论文Long Document Classification from Local Word Glimpses via Recurrent Attention Learning准备的。数据集由从arXiv网站下载的论文组成，通过arXiv sanity preserver程序收集。所有下载的论文均为pdf格式，使用arXiv sanity preserver程序提供的pdf转txt工具转换为txt格式。数据集包含11个不同的类别，具体类别和文档数量及平均字数在表格中详细列出。

本数据集专为《基于局部单词瞥见与循环注意力学习的长文档分类》一文之研究需求所编制。数据集汇集自arXiv网站公开发表的学术论文，经arXiv sanity preserver程序精心搜集整理。所收录论文均为PDF格式，并经arXiv sanity preserver程序提供的PDF转TXT工具悉数转换成TXT格式。数据集涵盖了11个不同类别，各类别具体文档数量及平均字数均在附表中详尽呈现。

创建时间：

2019-02-22

原始信息汇总

Long Document Dataset 概述

数据集来源

数据集由arXiv网站下载的论文组成，通过arXiv sanity preserver程序收集。
所有论文最初为PDF格式，后通过arXiv sanity preserver提供的pdf转txt程序转换为txt格式。

数据集内容

包含11个不同类别。
每个类别的文档数量和平均字数如下：

类别名称	文档数量	平均字数
cs.AI (人工智能)	2995	6212
cs.CE (计算工程)	2505	5777
cs.CV (计算机视觉)	2525	5630
cs.DS (数据结构)	4136	7439
cs.IT (信息论)	3233	5938
cs.NE (神经与进化计算)	3012	5856
cs.PL (编程语言)	2901	7012
cs.SY (系统与控制)	3106	5948
math.AC (交换代数)	2885	5984
math.GR (群论)	3065	6642
math.ST (统计理论)	6025	6983

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从arXiv网站下载的学术论文，这些论文通过arXiv sanity preserver程序进行收集，并使用其提供的pdf转txt工具将所有论文格式转换为文本格式。数据集涵盖了11个不同的学科类别，包括人工智能、计算机视觉、信息理论等，确保了多样性和广泛性。

使用方法

该数据集适用于长文档分类和处理的研究，特别适合于需要处理大量文本数据的机器学习模型训练。用户可以通过加载txt格式的文档进行数据预处理，如分词、特征提取等，进而应用于文本分类、主题建模等任务。数据集的多样性和广泛性使其成为研究长文档处理技术的理想选择。

背景与挑战

背景概述

Long document dataset 是为论文《Long Document Classification from Local Word Glimpses via Recurrent Attention Learning》所创建的数据集，主要用于长文档分类研究。该数据集由arXiv网站上的学术论文组成，通过arXiv sanity preserver程序收集，并使用其提供的pdf转txt工具将所有论文转换为文本格式。数据集涵盖了11个不同类别，包括人工智能、计算机视觉、信息论等，每个类别包含数千篇文档，平均每篇文档的词汇量在5000至7000之间。这一数据集的构建旨在推动长文档分类技术的发展，特别是在处理大规模、高维度的文本数据方面，为相关领域的研究提供了丰富的资源。

当前挑战

Long document dataset 在构建和应用过程中面临多项挑战。首先，长文档的分类问题本身具有复杂性，尤其是当文档长度和词汇量较大时，传统的文本分类方法可能难以有效处理。其次，数据集的构建过程中，从PDF格式转换为文本格式时，可能会引入格式错误或信息丢失，影响数据质量。此外，不同类别的文档在内容和结构上存在显著差异，如何设计有效的特征提取和分类模型，以应对这些多样性，是该数据集应用中的另一大挑战。

常用场景

经典使用场景

Long document dataset 主要用于长文档分类任务，特别是在学术论文的分类领域。该数据集通过提取arXiv网站上的PDF格式论文并转换为文本格式，涵盖了11个不同类别的学术领域，如人工智能、计算机视觉、信息论等。其经典使用场景包括构建和评估长文档分类模型，尤其是那些依赖于局部词片段的分类方法，如通过循环注意力学习机制来捕捉文档中的关键信息。

解决学术问题

该数据集解决了长文档分类中的关键学术问题，特别是在处理高维度和复杂结构的长文本时，如何有效提取和利用局部信息进行分类。通过提供多样化的学术领域数据，它为研究者提供了一个标准化的测试平台，促进了长文档分类算法的发展和优化，对提升分类精度和模型泛化能力具有重要意义。

实际应用

在实际应用中，Long document dataset 可用于学术论文的自动分类和归档，帮助研究机构和图书馆更高效地管理海量文献资源。此外，它还可应用于信息检索系统，通过自动分类提高检索效率和准确性。在工业界，该数据集也可用于构建智能推荐系统，根据用户兴趣自动推荐相关领域的学术论文。

数据集最近研究