mlcore/arxiv-classifier

Name: mlcore/arxiv-classifier
Creator: mlcore
Published: 2024-07-19 21:37:10
License: 暂无描述

Hugging Face2024-07-19 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/mlcore/arxiv-classifier

下载链接

链接失效反馈

官方服务：

资源简介：

arXiv分类器数据集包含多个配置（default、major、all2023），每个配置下有不同的数据文件路径。数据集使用标准化术语，包括字段（Field）和子字段（Subfield），并提供了与旧术语的对应关系。数据预处理步骤包括将原始数据转换为JSON格式，并进行了数据泄漏和arXiv标识符的有效性检查。

提供机构：

mlcore

原始信息汇总

arXiv Classifier Data

数据集配置

默认配置 (default)
- 训练集: minor/train.json
- 测试集: minor/test.json
主要配置 (major)
- 训练集: major/train.json
- 测试集: major/test.json
全部2023配置 (all2023)
- 验证集: all2023/val.json

术语标准化

领域 (Field): 生物学/计算机科学/物理学
子领域 (Subfield):
- 主要子领域 (Primary subfield): 给定主要子领域，可以推断出领域
- 次要子领域 (Secondary subfields): 包括主要子领域，以及论文中标记的任何子领域（1-5个）

原始数据

原始数据来源: https://www.dropbox.com/scl/fo/wwu0ifghw4sco09g67frb/h?rlkey=6ddg3yab9la3zeddvmnsfktxq&e=1&dl=0

预处理

主要/次要类别数据预处理: bash python preprocess_major_minor.py -d <DATASET NAME> -s <SPLIT> -op <PATH TO SAVE PREPROCESSED DATA>
全部2023语料库预处理: bash python preprocess_all2023.py

注意事项

仅包含论文的v1版本，以避免训练和测试集之间的数据泄露。

5,000+

优质数据集

54 个

任务类型

进入经典数据集