FilomKhash/Mathematical_Subject_Class_Prediction

Name: FilomKhash/Mathematical_Subject_Class_Prediction
Creator: FilomKhash
Published: 2024-01-28 17:17:15
License: 暂无描述

Hugging Face2024-01-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/FilomKhash/Mathematical_Subject_Class_Prediction

下载链接

链接失效反馈

官方服务：

资源简介：

MSC数据集包含164,230篇与至少一个MSC（数学主题分类）代码相关的arXiv预印本的文本数据（标题和摘要）。主要任务是基于处理后的文本（标题+摘要）预测3字符的MSC代码，这是一个多标签分类任务。数据集的结构包括`cleaned_text`列作为文本分类任务的输入，最后531列是独热编码的MSC类，作为多标签分类任务的目标变量。其他列如`url`、`title`、`abstract`和`primary_category`是辅助信息。数据集的子任务是基于`cleaned_text`预测`primary_category`，这是一个多类文本分类任务，约有30个不同的标签。数据集的划分采用了分层抽样，以确保各划分中目标变量的比例差异不大。数据集的收集和清理过程包括删除版本过多的预印本、仅保留最新版本、删除没有MSC类的预印本、删除2010年以前的数学主题分类条目，并对标题和摘要进行清理处理。

提供机构：

FilomKhash

原始信息汇总

数据集描述

该数据集包含164,230篇arXiv预印本的文本数据（标题和摘要），这些预印本至少关联一个MSC（数学主题分类）代码。基于处理后的文本（标题+摘要）预测3个字符的MSC代码，相当于一个多标签分类任务。

数据集结构

cleaned_text列应用于文本分类任务的输入，该列是通过处理数学相关预印本的文本数据（标题和摘要）获得的。
最后531列是单热编码的MSC类别，应用于多标签分类任务的目标变量。
其他列为辅助列：
- url：预印本的URL（截至2023年12月的最新版本），
- title：原始标题，
- abstract：原始摘要，
- primary_category：主要的arXiv类别（对于此数据，几乎总是数学存档或数学物理存档的类别）。
子任务：基于cleaned_text预测primary_category，一个具有约30个不同标签的多类文本分类任务。

数据分割

使用分层抽样进行数据分割，以确保目标变量在各分割中的比例大致相同。

数据集	描述	实例数量
main.zip	全部数据	164,230
train.zip	训练集	104,675
val.zip	验证集	18,540
test.zip	测试集	41,015

数据收集和清洗

详细过程在此笔记本中描述。原始数据通过arxiv包抓取，然后进行以下处理：

删除版本数量异常多的预印本，
仅保留最新的arXiv版本，
删除元数据中不包含任何MSC类别的预印本，
删除使用2010年以前数学主题分类约定的条目，
连接摘要和标题字符串，并进行以下步骤以获得cleaned_text列：
- 删除LaTeX数学环境和URL引用，
- 将文本转换为小写，标准化重音并删除特殊字符，
- 删除英语和一些特定语料库的停用词，
- 词干提取。

5,000+

优质数据集

54 个

任务类型

进入经典数据集