ccdv/arxiv-classification
收藏Hugging Face2022-10-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ccdv/arxiv-classification
下载链接
链接失效反馈官方服务:
资源简介:
---
language: en
task_categories:
- text-classification
tags:
- long context
task_ids:
- multi-class-classification
- topic-classification
size_categories: 10K<n<100K
---
**Arxiv Classification: a classification of Arxiv Papers (11 classes).**
This dataset is intended for long context classification (documents have all > 4k tokens). \
Copied from "Long Document Classification From Local Word Glimpses via Recurrent Attention Learning"
```
@ARTICLE{8675939,
author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao},
journal={IEEE Access},
title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning},
year={2019},
volume={7},
number={},
pages={40707-40718},
doi={10.1109/ACCESS.2019.2907992}
}
```
* See: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8675939
* See: https://github.com/LiqunW/Long-document-dataset
It contains 11 slightly unbalanced classes, 33k Arxiv Papers divided into 3 splits: train (28k), val (2.5k) and test (2.5k).
2 configs:
* default
* no_ref, removes references to the class inside the document (eg: [cs.LG] -> [])
Compatible with [run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification) script:
```
export MODEL_NAME=roberta-base
export MAX_SEQ_LENGTH=512
python run_glue.py \
--model_name_or_path $MODEL_NAME \
--dataset_name ccdv/arxiv-classification \
--do_train \
--do_eval \
--max_seq_length $MAX_SEQ_LENGTH \
--per_device_train_batch_size 8 \
--gradient_accumulation_steps 4 \
--learning_rate 2e-5 \
--num_train_epochs 1 \
--max_eval_samples 500 \
--output_dir tmp/arxiv
```
语言:英语
任务类别:文本分类(text-classification)
标签:长上下文(long context)
任务子类型:多类别分类(multi-class-classification)、主题分类(topic-classification)
样本规模:10000 < 样本数 < 100000
**arXiv(Arxiv)论文分类:面向11个类别的分类任务**
本数据集专为长上下文分类任务打造,所有待分类文档的Token(Token)数均超过4000。
本数据集改编自论文《基于循环注意力学习的局部词扫视长文档分类(Long Document Classification From Local Word Glimpses via Recurrent Attention Learning)》:
@ARTICLE{8675939,
author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao},
journal={IEEE Access},
title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning},
year={2019},
volume={7},
number={},
pages={40707-40718},
doi={10.1109/ACCESS.2019.2907992}
}
* 参考链接:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8675939
* 参考链接:https://github.com/LiqunW/Long-document-dataset
本数据集包含11个略有不均衡的类别,共计3.3万篇arXiv论文,被划分为训练集(2.8万篇)、验证集(2500篇)与测试集(2500篇)三个子集。
数据集提供两种配置:
* 默认配置(default)
* 无引用配置(no_ref):移除文档内与类别相关的标记(例如将`[cs.LG]`替换为`[]`)。
本数据集兼容[run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification)脚本:
export MODEL_NAME=roberta-base
export MAX_SEQ_LENGTH=512
python run_glue.py
--model_name_or_path $MODEL_NAME
--dataset_name ccdv/arxiv-classification
--do_train
--do_eval
--max_seq_length $MAX_SEQ_LENGTH
--per_device_train_batch_size 8
--gradient_accumulation_steps 4
--learning_rate 2e-5
--num_train_epochs 1
--max_eval_samples 500
--output_dir tmp/arxiv
提供机构:
ccdv
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 任务类别: 文本分类
- 标签: 长上下文
- 任务ID: 多类别分类, 主题分类
- 大小类别: 10K<n<100K
数据集描述
- 名称: Arxiv Classification
- 类别数: 11个(轻微不平衡)
- 文档数量: 33k Arxiv Papers
- 数据划分: 训练集 (28k), 验证集 (2.5k), 测试集 (2.5k)
- 配置:
- default
- no_ref(移除文档内的类别引用)
兼容性
-
兼容脚本: run_glue.py
-
示例运行参数: bash export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512
python run_glue.py --model_name_or_path $MODEL_NAME --dataset_name ccdv/arxiv-classification
--do_train --do_eval --max_seq_length $MAX_SEQ_LENGTH --per_device_train_batch_size 8 --gradient_accumulation_steps 4 --learning_rate 2e-5 --num_train_epochs 1 --max_eval_samples 500 --output_dir tmp/arxiv
搜集汇总
数据集介绍

构建方式
在学术文献自动分类领域,arXiv分类数据集源自预印本平台arXiv的论文资源,其构建过程体现了严谨的数据工程方法。该数据集从原始论文中提取文本内容,并依据arXiv的学科分类体系进行标注,涵盖了数学与计算机科学的11个主要子领域。数据划分遵循机器学习常规,将33,388篇论文分为训练集、验证集和测试集,其中训练样本约28,388篇,验证与测试各2,500篇,确保了模型评估的统计可靠性。特别值得注意的是,数据集提供了两种配置:默认版本保留完整文本,而no_ref版本则移除了文中对类别的直接引用,这一设计有效避免了模型通过表面线索进行预测,从而提升了分类任务的挑战性与真实性。
特点
该数据集的核心特征在于其专注于长文本分类任务,所有文档均超过4,000个标记,这为研究长序列建模与注意力机制提供了理想平台。数据类别涵盖数学代数几何、计算机视觉、人工智能、控制系统等11个学科方向,类别分布呈现轻微不平衡,反映了真实学术领域的发文比例。文本内容为学术论文全文,语言专业且结构复杂,包含公式、引用及专业术语,对模型的语义理解能力提出了较高要求。两种配置的并行为研究者提供了对照实验条件,便于深入分析引用信息对分类性能的影响,从而推动文档分类方法在真实场景下的鲁棒性发展。
使用方法
该数据集可直接通过HuggingFace数据集库加载,支持与Transformers库中的文本分类脚本无缝集成。使用者可指定配置为default或no_ref,并利用标准数据划分进行模型训练与评估。针对长文本特性,建议在预处理时结合截断或分段策略,以适应预训练模型的输入长度限制。参考提供的示例代码,可便捷地调用如RoBERTa等基础模型,设置序列长度、批次大小与学习率等超参数,执行端到端的分类流程。数据集的标准化格式确保了其与主流深度学习框架的兼容性,便于研究者在学术文献分类、长文档理解等领域开展实验与比较分析。
背景与挑战
背景概述
在自然语言处理领域,长文本分类一直是极具挑战性的研究方向,尤其是面对学术文献这类结构复杂、信息密集的文档。arXiv分类数据集由Liqun Wang等研究人员于2019年构建,旨在为长文档分类任务提供高质量的基准数据。该数据集精选了arXiv预印本服务器中的三万三千余篇学术论文,涵盖数学与计算机科学的十一个子领域,如数学代数几何(math.AC)、计算机视觉(cs.CV)与人工智能(cs.AI)等。通过系统性地标注这些长篇学术文献,该数据集不仅推动了注意力机制在长文档建模中的应用,也为后续研究提供了评估模型处理复杂语义结构能力的标准平台。
当前挑战
该数据集致力于解决长文档自动分类的核心难题,其挑战主要体现在两个方面:一是领域问题的复杂性,学术文献通常包含密集的专业术语、复杂的逻辑结构和跨段落语义关联,传统分类模型难以有效捕捉全局上下文信息;二是数据构建过程中的技术障碍,包括原始文本的长度远超常规序列模型处理极限、类别间存在轻微不平衡分布,以及需要精细处理文献内部对类别的自引用(如[cs.LG]标记)以避免数据泄露,这些因素共同增加了模型训练与评估的难度。
常用场景
经典使用场景
在学术文本挖掘领域,长文档分类一直是自然语言处理中的一项挑战。ccdv/arxiv-classification数据集以其超过四千个标记的文档长度,为研究者提供了评估模型处理长上下文能力的经典场景。该数据集常用于训练和测试基于注意力机制的循环神经网络,如Recurrent Attention Learning模型,以探索模型如何从局部词汇片段中捕捉全局语义信息,进而实现精确的多类别学术论文分类。
实际应用
在实际应用中,ccdv/arxiv-classification数据集被广泛用于构建智能学术文献管理系统。例如,它可以自动对arXiv平台上的新论文进行主题归类,帮助研究人员快速筛选相关领域的前沿工作。此外,该数据集还能支撑学术搜索引擎的优化,提升文献检索的准确性和效率,为学术社区提供高效的知识组织工具。
衍生相关工作
围绕该数据集,衍生了一系列经典研究工作。其中,原始论文《Long Document Classification From Local Word Glimpses via Recurrent Attention Learning》提出了基于循环注意力学习的模型框架。后续研究则在此基础上扩展,探索了Transformer架构的变体、多任务学习策略以及跨领域迁移方法,进一步推动了长文档分类技术的创新与演进。
以上内容由遇见数据集搜集并总结生成



