five

mlcore/arxiv-classifier

收藏
Hugging Face2024-07-19 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/mlcore/arxiv-classifier
下载链接
链接失效反馈
官方服务:
资源简介:
arXiv分类器数据集包含多个配置(default、major、all2023),每个配置下有不同的数据文件路径。数据集使用标准化术语,包括字段(Field)和子字段(Subfield),并提供了与旧术语的对应关系。数据预处理步骤包括将原始数据转换为JSON格式,并进行了数据泄漏和arXiv标识符的有效性检查。

arXiv分类器数据集包含多个配置(default、major、all2023),每个配置下有不同的数据文件路径。数据集使用标准化术语,包括字段(Field)和子字段(Subfield),并提供了与旧术语的对应关系。数据预处理步骤包括将原始数据转换为JSON格式,并进行了数据泄漏和arXiv标识符的有效性检查。
提供机构:
mlcore
原始信息汇总

arXiv Classifier Data

数据集配置

  • 默认配置 (default)
    • 训练集: minor/train.json
    • 测试集: minor/test.json
  • 主要配置 (major)
    • 训练集: major/train.json
    • 测试集: major/test.json
  • 全部2023配置 (all2023)
    • 验证集: all2023/val.json

术语标准化

  • 领域 (Field): 生物学/计算机科学/物理学
  • 子领域 (Subfield):
    • 主要子领域 (Primary subfield): 给定主要子领域,可以推断出领域
    • 次要子领域 (Secondary subfields): 包括主要子领域,以及论文中标记的任何子领域(1-5个)

原始数据

  • 原始数据来源: https://www.dropbox.com/scl/fo/wwu0ifghw4sco09g67frb/h?rlkey=6ddg3yab9la3zeddvmnsfktxq&e=1&dl=0

预处理

  • 主要/次要类别数据预处理: bash python preprocess_major_minor.py -d <DATASET NAME> -s <SPLIT> -op <PATH TO SAVE PREPROCESSED DATA>

  • 全部2023语料库预处理: bash python preprocess_all2023.py

注意事项

  • 仅包含论文的v1版本,以避免训练和测试集之间的数据泄露。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作