stevengubkin/mathoverflow_text_arxiv_labels
收藏Hugging Face2023-08-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stevengubkin/mathoverflow_text_arxiv_labels
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Stack Exchange下载的,经过一系列处理步骤。首先,使用TexSoup工具将所有数学环境中的文本替换为[UNK]。其次,将标题和正文内容进行了拼接。对于原始数据中的“答案”帖子,根据它们所回答的问题的标签进行了标记。数据集仅保留了使用至少一个32个arxiv标签的帖子,并且这些帖子必须获得超过5个赞。最后,使用MultilabelStratifiedShuffleSplit方法对数据集进行了训练/验证/测试的划分,以确保多标签共现统计的准确性。
本数据集采用知识共享署名-相同方式共享4.0(CC BY-SA 4.0)许可协议。
数据集从https://archive.org/download/stackexchange 下载获取。
处理过程中,我们使用TexSoup(https://pypi.org/project/TexSoup/)将所有数学环境内的文本替换为[UNK]。例如原文本为:"The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if...",会被替换为:"The integral [UNK] is easy to evaluate if..."。
需注意,仍有部分ASCII格式的数学表达式被保留,例如用户常书写的`f: X --> Y`这类形式未作替换。
我们将帖子的标题与正文进行拼接整合。
部分帖子为回答帖而非提问帖,在原始数据中这类回答帖未被标注标签;我们为每一则回答帖添加了其所回应的提问帖所对应的分类标签。
我们仅保留了至少包含以下32个arxiv分类标签之一的帖子:'ac.commutative-algebra'、'ag.algebraic-geometry'、……、'st.statistics'。
同时仅保留了获赞数超过5的帖子。
训练集、验证集与测试集的划分采用了MultilabelStratifiedShuffleSplit(https://github.com/trent-b/iterative-stratification)方法,该方法相比纯随机划分能够更好地保留多标签共现统计特性。
提供机构:
stevengubkin
原始信息汇总
数据集处理
- 文本替换:使用TexSoup工具将数学环境中的所有文本替换为[UNK]。例如,原文本“The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if...”被替换为“The integral [UNK] is easy to evaluate if...”。
- 保留内容:保留了一些“ascii math”,例如人们有时会写成“f: X --> Y”的形式。
- 标题与正文合并:将标题和正文内容进行合并。
- 标签处理:对于“answer”类型的帖子,使用相应问题的标签进行标记。
数据筛选
- 标签筛选:仅保留使用至少一个32个arxiv标签(如ac.commutative-algebra, ag.algebraic-geometry, ..., st.statistics)的帖子。
- 投票筛选:仅保留获得超过5个赞的帖子。
数据分割
- 分割方法:使用MultilabelStratifiedShuffleSplit方法进行训练集、验证集和测试集的分割,以更好地尊重多标签共现统计。



