mlcore/arxiv-classifier
收藏Hugging Face2024-07-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mlcore/arxiv-classifier
下载链接
链接失效反馈官方服务:
资源简介:
arXiv分类器数据集包含多个配置(default、major、all2023),每个配置下有不同的数据文件路径。数据集使用标准化术语,包括字段(Field)和子字段(Subfield),并提供了与旧术语的对应关系。数据预处理步骤包括将原始数据转换为JSON格式,并进行了数据泄漏和arXiv标识符的有效性检查。
arXiv分类器数据集包含多个配置(default、major、all2023),每个配置下有不同的数据文件路径。数据集使用标准化术语,包括字段(Field)和子字段(Subfield),并提供了与旧术语的对应关系。数据预处理步骤包括将原始数据转换为JSON格式,并进行了数据泄漏和arXiv标识符的有效性检查。
提供机构:
mlcore
原始信息汇总
arXiv Classifier Data
数据集配置
- 默认配置 (
default)- 训练集:
minor/train.json - 测试集:
minor/test.json
- 训练集:
- 主要配置 (
major)- 训练集:
major/train.json - 测试集:
major/test.json
- 训练集:
- 全部2023配置 (
all2023)- 验证集:
all2023/val.json
- 验证集:
术语标准化
- 领域 (
Field): 生物学/计算机科学/物理学 - 子领域 (
Subfield):- 主要子领域 (
Primary subfield): 给定主要子领域,可以推断出领域 - 次要子领域 (
Secondary subfields): 包括主要子领域,以及论文中标记的任何子领域(1-5个)
- 主要子领域 (
原始数据
- 原始数据来源:
https://www.dropbox.com/scl/fo/wwu0ifghw4sco09g67frb/h?rlkey=6ddg3yab9la3zeddvmnsfktxq&e=1&dl=0
预处理
-
主要/次要类别数据预处理: bash python preprocess_major_minor.py -d <DATASET NAME> -s <SPLIT> -op <PATH TO SAVE PREPROCESSED DATA>
-
全部2023语料库预处理: bash python preprocess_all2023.py
注意事项
- 仅包含论文的v1版本,以避免训练和测试集之间的数据泄露。



