math-similarity/class-zbmath-identifier
收藏Hugging Face2024-06-06 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/math-similarity/class-zbmath-identifier
下载链接
链接失效反馈官方服务:
资源简介:
---
task_categories:
- text-classification
---
# class-zbmath-identifier
This is a proxy dataset to model semantic similarity of short mathematical texts from [zbMath](https://zbMath.org).This proxy only contains zbMath.org identifiers (aka an) instead of full titles / abstracts.
## Columns
* **an_a** (*string*): zbMath.org identifier of work *a*
* **MSC_a** (*string*): primary MSC<sub>5</sub> of work *a*
* **MSC2_a** (*list(string)*): secondary MSC<sub>5</sub>s of work *a*
* **an_b** (*string*): zbMath.org identifier of work *b*
* **MSC_b** (*string*): primary MSC<sub>5</sub> of work *b*
* **MSC2_b** (*list(string)*): secondary MSC<sub>5</sub>s of work *b*
* **label** (*bool*):
* **1**: semantically similar texts
* **0**: semantically dissimilar texts
The label is based on the MSC and MSC2 classification codes. If **MSC_a** and **MSC_b** are equal and **MSC2_a** and **MSC2_b** overlap in at least one code, works are defined as semantically similar.
提供机构:
math-similarity
原始信息汇总
数据集概述
数据集名称
class-zbmath-identifier
任务类别
- 文本分类
数据集描述
本数据集是一个代理数据集,用于模拟来自zbMath的短数学文本的语义相似性。该代理数据集仅包含zbMath.org的标识符(简称an),而非完整的标题或摘要。
数据集结构
列信息
- an_a (string): 作品a的zbMath.org标识符
- MSC_a (string): 作品a的主要MSC<sub>5</sub>分类代码
- MSC2_a (list(string)): 作品a的次要MSC<sub>5</sub>分类代码列表
- an_b (string): 作品b的zbMath.org标识符
- MSC_b (string): 作品b的主要MSC<sub>5</sub>分类代码
- MSC2_b (list(string)): 作品b的次要MSC<sub>5</sub>分类代码列表
- label (bool):
- 1: 语义相似的文本
- 0: 语义不相似的文本
标签定义
标签基于MSC和MSC2分类代码。如果MSC_a和MSC_b相等,且MSC2_a和MSC2_b至少有一个代码重叠,则定义作品为语义相似。



