five

math-similarity/class-zbmath-identifier

收藏
Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/math-similarity/class-zbmath-identifier
下载链接
链接失效反馈
官方服务:
资源简介:
--- task_categories: - text-classification --- # class-zbmath-identifier This is a proxy dataset to model semantic similarity of short mathematical texts from [zbMath](https://zbMath.org).This proxy only contains zbMath.org identifiers (aka an) instead of full titles / abstracts. ## Columns * **an_a** (*string*): zbMath.org identifier of work *a* * **MSC_a** (*string*): primary MSC<sub>5</sub> of work *a* * **MSC2_a** (*list(string)*): secondary MSC<sub>5</sub>s of work *a* * **an_b** (*string*): zbMath.org identifier of work *b* * **MSC_b** (*string*): primary MSC<sub>5</sub> of work *b* * **MSC2_b** (*list(string)*): secondary MSC<sub>5</sub>s of work *b* * **label** (*bool*): * **1**: semantically similar texts * **0**: semantically dissimilar texts The label is based on the MSC and MSC2 classification codes. If **MSC_a** and **MSC_b** are equal and **MSC2_a** and **MSC2_b** overlap in at least one code, works are defined as semantically similar.
提供机构:
math-similarity
原始信息汇总

数据集概述

数据集名称

class-zbmath-identifier

任务类别

  • 文本分类

数据集描述

本数据集是一个代理数据集,用于模拟来自zbMath的短数学文本的语义相似性。该代理数据集仅包含zbMath.org的标识符(简称an),而非完整的标题或摘要。

数据集结构

列信息

  • an_a (string): 作品a的zbMath.org标识符
  • MSC_a (string): 作品a的主要MSC<sub>5</sub>分类代码
  • MSC2_a (list(string)): 作品a的次要MSC<sub>5</sub>分类代码列表
  • an_b (string): 作品b的zbMath.org标识符
  • MSC_b (string): 作品b的主要MSC<sub>5</sub>分类代码
  • MSC2_b (list(string)): 作品b的次要MSC<sub>5</sub>分类代码列表
  • label (bool):
    • 1: 语义相似的文本
    • 0: 语义不相似的文本

标签定义

标签基于MSC和MSC2分类代码。如果MSC_aMSC_b相等,且MSC2_aMSC2_b至少有一个代码重叠,则定义作品为语义相似。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作