FilomKhash/Mathematical_Subject_Class_Prediction
收藏Hugging Face2024-01-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FilomKhash/Mathematical_Subject_Class_Prediction
下载链接
链接失效反馈官方服务:
资源简介:
MSC数据集包含164,230篇与至少一个MSC(数学主题分类)代码相关的arXiv预印本的文本数据(标题和摘要)。主要任务是基于处理后的文本(标题+摘要)预测3字符的MSC代码,这是一个多标签分类任务。数据集的结构包括`cleaned_text`列作为文本分类任务的输入,最后531列是独热编码的MSC类,作为多标签分类任务的目标变量。其他列如`url`、`title`、`abstract`和`primary_category`是辅助信息。数据集的子任务是基于`cleaned_text`预测`primary_category`,这是一个多类文本分类任务,约有30个不同的标签。数据集的划分采用了分层抽样,以确保各划分中目标变量的比例差异不大。数据集的收集和清理过程包括删除版本过多的预印本、仅保留最新版本、删除没有MSC类的预印本、删除2010年以前的数学主题分类条目,并对标题和摘要进行清理处理。
MSC数据集包含164,230篇与至少一个MSC(数学主题分类)代码相关的arXiv预印本的文本数据(标题和摘要)。主要任务是基于处理后的文本(标题+摘要)预测3字符的MSC代码,这是一个多标签分类任务。数据集的结构包括`cleaned_text`列作为文本分类任务的输入,最后531列是独热编码的MSC类,作为多标签分类任务的目标变量。其他列如`url`、`title`、`abstract`和`primary_category`是辅助信息。数据集的子任务是基于`cleaned_text`预测`primary_category`,这是一个多类文本分类任务,约有30个不同的标签。数据集的划分采用了分层抽样,以确保各划分中目标变量的比例差异不大。数据集的收集和清理过程包括删除版本过多的预印本、仅保留最新版本、删除没有MSC类的预印本、删除2010年以前的数学主题分类条目,并对标题和摘要进行清理处理。
提供机构:
FilomKhash
原始信息汇总
数据集描述
该数据集包含164,230篇arXiv预印本的文本数据(标题和摘要),这些预印本至少关联一个MSC(数学主题分类)代码。基于处理后的文本(标题+摘要)预测3个字符的MSC代码,相当于一个多标签分类任务。
数据集结构
cleaned_text列应用于文本分类任务的输入,该列是通过处理数学相关预印本的文本数据(标题和摘要)获得的。- 最后531列是单热编码的MSC类别,应用于多标签分类任务的目标变量。
- 其他列为辅助列:
url:预印本的URL(截至2023年12月的最新版本),title:原始标题,abstract:原始摘要,primary_category:主要的arXiv类别(对于此数据,几乎总是数学存档或数学物理存档的类别)。
- 子任务:基于
cleaned_text预测primary_category,一个具有约30个不同标签的多类文本分类任务。
数据分割
使用分层抽样进行数据分割,以确保目标变量在各分割中的比例大致相同。
| 数据集 | 描述 | 实例数量 |
|---|---|---|
| main.zip | 全部数据 | 164,230 |
| train.zip | 训练集 | 104,675 |
| val.zip | 验证集 | 18,540 |
| test.zip | 测试集 | 41,015 |
数据收集和清洗
详细过程在此笔记本中描述。原始数据通过arxiv包抓取,然后进行以下处理:
- 删除版本数量异常多的预印本,
- 仅保留最新的arXiv版本,
- 删除元数据中不包含任何MSC类别的预印本,
- 删除使用2010年以前数学主题分类约定的条目,
- 连接摘要和标题字符串,并进行以下步骤以获得
cleaned_text列:- 删除LaTeX数学环境和URL引用,
- 将文本转换为小写,标准化重音并删除特殊字符,
- 删除英语和一些特定语料库的停用词,
- 词干提取。



