five

stevengubkin/mathoverflow_text_arxiv_labels

收藏
Hugging Face2023-08-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/stevengubkin/mathoverflow_text_arxiv_labels
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是从Stack Exchange下载的,经过一系列处理步骤。首先,使用TexSoup工具将所有数学环境中的文本替换为[UNK]。其次,将标题和正文内容进行了拼接。对于原始数据中的“答案”帖子,根据它们所回答的问题的标签进行了标记。数据集仅保留了使用至少一个32个arxiv标签的帖子,并且这些帖子必须获得超过5个赞。最后,使用MultilabelStratifiedShuffleSplit方法对数据集进行了训练/验证/测试的划分,以确保多标签共现统计的准确性。

本数据集采用知识共享署名-相同方式共享4.0(CC BY-SA 4.0)许可协议。 数据集从https://archive.org/download/stackexchange 下载获取。 处理过程中,我们使用TexSoup(https://pypi.org/project/TexSoup/)将所有数学环境内的文本替换为[UNK]。例如原文本为:"The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if...",会被替换为:"The integral [UNK] is easy to evaluate if..."。 需注意,仍有部分ASCII格式的数学表达式被保留,例如用户常书写的`f: X --> Y`这类形式未作替换。 我们将帖子的标题与正文进行拼接整合。 部分帖子为回答帖而非提问帖,在原始数据中这类回答帖未被标注标签;我们为每一则回答帖添加了其所回应的提问帖所对应的分类标签。 我们仅保留了至少包含以下32个arxiv分类标签之一的帖子:'ac.commutative-algebra'、'ag.algebraic-geometry'、……、'st.statistics'。 同时仅保留了获赞数超过5的帖子。 训练集、验证集与测试集的划分采用了MultilabelStratifiedShuffleSplit(https://github.com/trent-b/iterative-stratification)方法,该方法相比纯随机划分能够更好地保留多标签共现统计特性。
提供机构:
stevengubkin
原始信息汇总

数据集处理

  • 文本替换:使用TexSoup工具将数学环境中的所有文本替换为[UNK]。例如,原文本“The integral $int_a^b f(x) extrm{ d}x$ is easy to evaluate if...”被替换为“The integral [UNK] is easy to evaluate if...”。
  • 保留内容:保留了一些“ascii math”,例如人们有时会写成“f: X --> Y”的形式。
  • 标题与正文合并:将标题和正文内容进行合并。
  • 标签处理:对于“answer”类型的帖子,使用相应问题的标签进行标记。

数据筛选

  • 标签筛选:仅保留使用至少一个32个arxiv标签(如ac.commutative-algebra, ag.algebraic-geometry, ..., st.statistics)的帖子。
  • 投票筛选:仅保留获得超过5个赞的帖子。

数据分割

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作