five

FilomKhash/Mathematical_Subject_Class_Prediction

收藏
Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FilomKhash/Mathematical_Subject_Class_Prediction
下载链接
链接失效反馈
官方服务:
资源简介:
MSC数据集包含164,230篇与至少一个MSC(数学主题分类)代码相关的arXiv预印本的文本数据(标题和摘要)。主要任务是基于处理后的文本(标题+摘要)预测3字符的MSC代码,这是一个多标签分类任务。数据集的结构包括`cleaned_text`列作为文本分类任务的输入,最后531列是独热编码的MSC类,作为多标签分类任务的目标变量。其他列如`url`、`title`、`abstract`和`primary_category`是辅助信息。数据集的子任务是基于`cleaned_text`预测`primary_category`,这是一个多类文本分类任务,约有30个不同的标签。数据集的划分采用了分层抽样,以确保各划分中目标变量的比例差异不大。数据集的收集和清理过程包括删除版本过多的预印本、仅保留最新版本、删除没有MSC类的预印本、删除2010年以前的数学主题分类条目,并对标题和摘要进行清理处理。

MSC数据集包含164,230篇与至少一个MSC(数学主题分类)代码相关的arXiv预印本的文本数据(标题和摘要)。主要任务是基于处理后的文本(标题+摘要)预测3字符的MSC代码,这是一个多标签分类任务。数据集的结构包括`cleaned_text`列作为文本分类任务的输入,最后531列是独热编码的MSC类,作为多标签分类任务的目标变量。其他列如`url`、`title`、`abstract`和`primary_category`是辅助信息。数据集的子任务是基于`cleaned_text`预测`primary_category`,这是一个多类文本分类任务,约有30个不同的标签。数据集的划分采用了分层抽样,以确保各划分中目标变量的比例差异不大。数据集的收集和清理过程包括删除版本过多的预印本、仅保留最新版本、删除没有MSC类的预印本、删除2010年以前的数学主题分类条目,并对标题和摘要进行清理处理。
提供机构:
FilomKhash
原始信息汇总

数据集描述

该数据集包含164,230篇arXiv预印本的文本数据(标题和摘要),这些预印本至少关联一个MSC(数学主题分类)代码。基于处理后的文本(标题+摘要)预测3个字符的MSC代码,相当于一个多标签分类任务。

数据集结构

  • cleaned_text列应用于文本分类任务的输入,该列是通过处理数学相关预印本的文本数据(标题和摘要)获得的。
  • 最后531列是单热编码的MSC类别,应用于多标签分类任务的目标变量。
  • 其他列为辅助列:
    • url:预印本的URL(截至2023年12月的最新版本),
    • title:原始标题,
    • abstract:原始摘要,
    • primary_category:主要的arXiv类别(对于此数据,几乎总是数学存档或数学物理存档的类别)。
  • 子任务:基于cleaned_text预测primary_category,一个具有约30个不同标签的多类文本分类任务。

数据分割

使用分层抽样进行数据分割,以确保目标变量在各分割中的比例大致相同。

数据集 描述 实例数量
main.zip 全部数据 164,230
train.zip 训练集 104,675
val.zip 验证集 18,540
test.zip 测试集 41,015

数据收集和清洗

详细过程在此笔记本中描述。原始数据通过arxiv包抓取,然后进行以下处理:

  • 删除版本数量异常多的预印本,
  • 仅保留最新的arXiv版本,
  • 删除元数据中不包含任何MSC类别的预印本,
  • 删除使用2010年以前数学主题分类约定的条目,
  • 连接摘要和标题字符串,并进行以下步骤以获得cleaned_text列:
    • 删除LaTeX数学环境和URL引用,
    • 将文本转换为小写,标准化重音并删除特殊字符,
    • 删除英语和一些特定语料库的停用词,
    • 词干提取。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作