ccdv/arxiv-classification

Name: ccdv/arxiv-classification
Creator: ccdv
Published: 2022-10-22 09:23:50
License: 暂无描述

Hugging Face2022-10-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ccdv/arxiv-classification

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: en task_categories: - text-classification tags: - long context task_ids: - multi-class-classification - topic-classification size_categories: 10K<n<100K --- **Arxiv Classification: a classification of Arxiv Papers (11 classes).** This dataset is intended for long context classification (documents have all > 4k tokens). \ Copied from "Long Document Classification From Local Word Glimpses via Recurrent Attention Learning" ``` @ARTICLE{8675939, author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao}, journal={IEEE Access}, title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning}, year={2019}, volume={7}, number={}, pages={40707-40718}, doi={10.1109/ACCESS.2019.2907992} } ``` * See: https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8675939 * See: https://github.com/LiqunW/Long-document-dataset It contains 11 slightly unbalanced classes, 33k Arxiv Papers divided into 3 splits: train (28k), val (2.5k) and test (2.5k). 2 configs: * default * no_ref, removes references to the class inside the document (eg: [cs.LG] -> []) Compatible with [run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification) script: ``` export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py \ --model_name_or_path $MODEL_NAME \ --dataset_name ccdv/arxiv-classification \ --do_train \ --do_eval \ --max_seq_length $MAX_SEQ_LENGTH \ --per_device_train_batch_size 8 \ --gradient_accumulation_steps 4 \ --learning_rate 2e-5 \ --num_train_epochs 1 \ --max_eval_samples 500 \ --output_dir tmp/arxiv ```

语言：英语任务类别：文本分类（text-classification）标签：长上下文（long context）任务子类型：多类别分类（multi-class-classification）、主题分类（topic-classification）样本规模：10000 < 样本数 < 100000 **arXiv（Arxiv）论文分类：面向11个类别的分类任务** 本数据集专为长上下文分类任务打造，所有待分类文档的Token（Token）数均超过4000。本数据集改编自论文《基于循环注意力学习的局部词扫视长文档分类（Long Document Classification From Local Word Glimpses via Recurrent Attention Learning）》： @ARTICLE{8675939, author={He, Jun and Wang, Liqun and Liu, Liu and Feng, Jiao and Wu, Hao}, journal={IEEE Access}, title={Long Document Classification From Local Word Glimpses via Recurrent Attention Learning}, year={2019}, volume={7}, number={}, pages={40707-40718}, doi={10.1109/ACCESS.2019.2907992} } * 参考链接：https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8675939 * 参考链接：https://github.com/LiqunW/Long-document-dataset 本数据集包含11个略有不均衡的类别，共计3.3万篇arXiv论文，被划分为训练集（2.8万篇）、验证集（2500篇）与测试集（2500篇）三个子集。数据集提供两种配置： * 默认配置（default） * 无引用配置（no_ref）：移除文档内与类别相关的标记（例如将`[cs.LG]`替换为`[]`）。本数据集兼容[run_glue.py](https://github.com/huggingface/transformers/tree/master/examples/pytorch/text-classification)脚本： export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512 python run_glue.py --model_name_or_path $MODEL_NAME --dataset_name ccdv/arxiv-classification --do_train --do_eval --max_seq_length $MAX_SEQ_LENGTH --per_device_train_batch_size 8 --gradient_accumulation_steps 4 --learning_rate 2e-5 --num_train_epochs 1 --max_eval_samples 500 --output_dir tmp/arxiv

提供机构：

ccdv

原始信息汇总

数据集概述

基本信息

语言: 英语
任务类别: 文本分类
标签: 长上下文
任务ID: 多类别分类, 主题分类
大小类别: 10K<n<100K

数据集描述

名称: Arxiv Classification
类别数: 11个（轻微不平衡）
文档数量: 33k Arxiv Papers
数据划分: 训练集 (28k), 验证集 (2.5k), 测试集 (2.5k)
配置:
- default
- no_ref（移除文档内的类别引用）

兼容性

兼容脚本: run_glue.py
示例运行参数: bash export MODEL_NAME=roberta-base export MAX_SEQ_LENGTH=512

python run_glue.py --model_name_or_path $MODEL_NAME --dataset_name ccdv/arxiv-classification
--do_train --do_eval --max_seq_length $MAX_SEQ_LENGTH --per_device_train_batch_size 8 --gradient_accumulation_steps 4 --learning_rate 2e-5 --num_train_epochs 1 --max_eval_samples 500 --output_dir tmp/arxiv

搜集汇总

数据集介绍

构建方式

在学术文献自动分类领域，arXiv分类数据集源自预印本平台arXiv的论文资源，其构建过程体现了严谨的数据工程方法。该数据集从原始论文中提取文本内容，并依据arXiv的学科分类体系进行标注，涵盖了数学与计算机科学的11个主要子领域。数据划分遵循机器学习常规，将33,388篇论文分为训练集、验证集和测试集，其中训练样本约28,388篇，验证与测试各2,500篇，确保了模型评估的统计可靠性。特别值得注意的是，数据集提供了两种配置：默认版本保留完整文本，而no_ref版本则移除了文中对类别的直接引用，这一设计有效避免了模型通过表面线索进行预测，从而提升了分类任务的挑战性与真实性。

特点

该数据集的核心特征在于其专注于长文本分类任务，所有文档均超过4,000个标记，这为研究长序列建模与注意力机制提供了理想平台。数据类别涵盖数学代数几何、计算机视觉、人工智能、控制系统等11个学科方向，类别分布呈现轻微不平衡，反映了真实学术领域的发文比例。文本内容为学术论文全文，语言专业且结构复杂，包含公式、引用及专业术语，对模型的语义理解能力提出了较高要求。两种配置的并行为研究者提供了对照实验条件，便于深入分析引用信息对分类性能的影响，从而推动文档分类方法在真实场景下的鲁棒性发展。

使用方法

该数据集可直接通过HuggingFace数据集库加载，支持与Transformers库中的文本分类脚本无缝集成。使用者可指定配置为default或no_ref，并利用标准数据划分进行模型训练与评估。针对长文本特性，建议在预处理时结合截断或分段策略，以适应预训练模型的输入长度限制。参考提供的示例代码，可便捷地调用如RoBERTa等基础模型，设置序列长度、批次大小与学习率等超参数，执行端到端的分类流程。数据集的标准化格式确保了其与主流深度学习框架的兼容性，便于研究者在学术文献分类、长文档理解等领域开展实验与比较分析。

背景与挑战

背景概述

在自然语言处理领域，长文本分类一直是极具挑战性的研究方向，尤其是面对学术文献这类结构复杂、信息密集的文档。arXiv分类数据集由Liqun Wang等研究人员于2019年构建，旨在为长文档分类任务提供高质量的基准数据。该数据集精选了arXiv预印本服务器中的三万三千余篇学术论文，涵盖数学与计算机科学的十一个子领域，如数学代数几何（math.AC）、计算机视觉（cs.CV）与人工智能（cs.AI）等。通过系统性地标注这些长篇学术文献，该数据集不仅推动了注意力机制在长文档建模中的应用，也为后续研究提供了评估模型处理复杂语义结构能力的标准平台。

当前挑战

该数据集致力于解决长文档自动分类的核心难题，其挑战主要体现在两个方面：一是领域问题的复杂性，学术文献通常包含密集的专业术语、复杂的逻辑结构和跨段落语义关联，传统分类模型难以有效捕捉全局上下文信息；二是数据构建过程中的技术障碍，包括原始文本的长度远超常规序列模型处理极限、类别间存在轻微不平衡分布，以及需要精细处理文献内部对类别的自引用（如[cs.LG]标记）以避免数据泄露，这些因素共同增加了模型训练与评估的难度。

常用场景

经典使用场景

在学术文本挖掘领域，长文档分类一直是自然语言处理中的一项挑战。ccdv/arxiv-classification数据集以其超过四千个标记的文档长度，为研究者提供了评估模型处理长上下文能力的经典场景。该数据集常用于训练和测试基于注意力机制的循环神经网络，如Recurrent Attention Learning模型，以探索模型如何从局部词汇片段中捕捉全局语义信息，进而实现精确的多类别学术论文分类。

实际应用

在实际应用中，ccdv/arxiv-classification数据集被广泛用于构建智能学术文献管理系统。例如，它可以自动对arXiv平台上的新论文进行主题归类，帮助研究人员快速筛选相关领域的前沿工作。此外，该数据集还能支撑学术搜索引擎的优化，提升文献检索的准确性和效率，为学术社区提供高效的知识组织工具。

衍生相关工作

围绕该数据集，衍生了一系列经典研究工作。其中，原始论文《Long Document Classification From Local Word Glimpses via Recurrent Attention Learning》提出了基于循环注意力学习的模型框架。后续研究则在此基础上扩展，探索了Transformer架构的变体、多任务学习策略以及跨领域迁移方法，进一步推动了长文档分类技术的创新与演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集