stevengubkin/mathoverflow_text_arxiv_labels

Name: stevengubkin/mathoverflow_text_arxiv_labels
Creator: stevengubkin
Published: 2023-08-27 18:43:03
License: 暂无描述

Hugging Face2023-08-27 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/stevengubkin/mathoverflow_text_arxiv_labels

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从Stack Exchange下载的，经过一系列处理步骤。首先，使用TexSoup工具将所有数学环境中的文本替换为[UNK]。其次，将标题和正文内容进行了拼接。对于原始数据中的“答案”帖子，根据它们所回答的问题的标签进行了标记。数据集仅保留了使用至少一个32个arxiv标签的帖子，并且这些帖子必须获得超过5个赞。最后，使用MultilabelStratifiedShuffleSplit方法对数据集进行了训练/验证/测试的划分，以确保多标签共现统计的准确性。

本数据集采用知识共享署名-相同方式共享4.0（CC BY-SA 4.0）许可协议。数据集从https://archive.org/download/stackexchange 下载获取。处理过程中，我们使用TexSoup（https://pypi.org/project/TexSoup/）将所有数学环境内的文本替换为[UNK]。例如原文本为："The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if..."，会被替换为："The integral [UNK] is easy to evaluate if..."。需注意，仍有部分ASCII格式的数学表达式被保留，例如用户常书写的`f: X --> Y`这类形式未作替换。我们将帖子的标题与正文进行拼接整合。部分帖子为回答帖而非提问帖，在原始数据中这类回答帖未被标注标签；我们为每一则回答帖添加了其所回应的提问帖所对应的分类标签。我们仅保留了至少包含以下32个arxiv分类标签之一的帖子：'ac.commutative-algebra'、'ag.algebraic-geometry'、……、'st.statistics'。同时仅保留了获赞数超过5的帖子。训练集、验证集与测试集的划分采用了MultilabelStratifiedShuffleSplit（https://github.com/trent-b/iterative-stratification）方法，该方法相比纯随机划分能够更好地保留多标签共现统计特性。

提供机构：

stevengubkin

原始信息汇总

数据集处理

文本替换：使用TexSoup工具将数学环境中的所有文本替换为[UNK]。例如，原文本“The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if...”被替换为“The integral [UNK] is easy to evaluate if...”。
保留内容：保留了一些“ascii math”，例如人们有时会写成“f: X --> Y”的形式。
标题与正文合并：将标题和正文内容进行合并。
标签处理：对于“answer”类型的帖子，使用相应问题的标签进行标记。

数据筛选

标签筛选：仅保留使用至少一个32个arxiv标签（如ac.commutative-algebra, ag.algebraic-geometry, ..., st.statistics）的帖子。
投票筛选：仅保留获得超过5个赞的帖子。

数据分割

分割方法：使用MultilabelStratifiedShuffleSplit方法进行训练集、验证集和测试集的分割，以更好地尊重多标签共现统计。

5,000+

优质数据集

54 个

任务类型

进入经典数据集