MathRecGoldStandData
收藏github2024-05-21 更新2024-05-31 收录
下载链接:
https://github.com/gipplab/MathRecGoldStandData
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含数学内容的科学研究文章推荐黄金标准数据集,包含421个推荐对和80个种子研究文章。数据集提供了推荐对的内容和文档详细信息,如标题、摘要、作者等。
This is a gold standard dataset for scientific research article recommendations containing mathematical content, comprising 421 recommendation pairs and 80 seed research articles. The dataset provides the content of the recommendation pairs and detailed document information such as titles, abstracts, authors, etc.
创建时间:
2022-09-30
原始信息汇总
数据集概述
数据集名称
- 名称: Towards Better STEM Recommendations: A Gold-Standard Dataset with Math Content
数据集内容
- 包含内容: 421个推荐对,每个推荐对包含种子研究文章及其推荐的相关研究文章。
- 文件位置: 位于
dataset文件夹下的recommendationPairs.csv和documentContents.csv。
数据集详细信息
-
推荐对:
-
文件:
dataset/recommendationPairs.csv -
内容: 包含所有推荐对及其zbMATHOpen_ID。推荐对按相关性降序排列。
-
示例:
Seed 1st recommendation 2nd recommendation 3rd recommendation 4th recommendation 5th recommendation 1566951 4181495 930151 5083606 1579464 6338806 1363213 1445144 1036371 6225939 2165994 1801581 1308161 1356576 4193896 5638157 5007259 1303018 951967 5354085 5120555 427914 224045 1591097 5049067 3867686 1758339 2136591
-
-
文档内容:
-
文件:
dataset/documentContents.csv -
内容: 包含每篇研究文章的详细信息,如标题、摘要、作者、MSC代码、全文链接等。
-
示例:
zbMATH_ID Title Abstract/Review/Summarry Authors Keywords MSCs Full text link References 10342 Maximal contact ...... The author proves the following theorem: Fix an infinite...... Cossart V..... Samuel stratum and desingularization..... [{code: 14E15... https://doi.org/10.1215/S0012-7094-91-06303-9 S. Abhyankar: Resolution of.....
-
数据集使用
- 使用场景: 用于评估推荐系统,特别是涉及科学研究文章的推荐。
- 示例脚本: 提供用于评估推荐系统的示例脚本,如
abstractSimil.py、formulaeSimil.py和refrencesSimil.py。
数据集许可
- 许可: CC-BY-SA 4.0
搜集汇总
数据集介绍

构建方式
在构建MathRecGoldStandData数据集时,研究者们首先从zbMATH Open数据库中提取了大量的科学研究文章,并将其存储为本地文本文件。随后,通过一系列预处理步骤,如去除短小或无关的文档、提取主题和数学对象标识(TOIs和MOIs),以及将LaTeX格式转换为MathML格式,确保了数据的质量和一致性。最终,通过计算捕获概率和选择代表性的种子文档,形成了包含421个推荐对和80个种子研究文章的黄金标准数据集。
特点
MathRecGoldStandData数据集的主要特点在于其高质量的推荐对和详细的文档内容。每个推荐对不仅包含种子研究文章的ID,还提供了按相关性排序的推荐文章列表。此外,数据集中的每个研究文章都包含了标题、摘要、作者、关键词、MSC代码、全文链接和参考文献等详细信息,为推荐系统的评估提供了丰富的上下文。
使用方法
使用MathRecGoldStandData数据集时,用户可以通过提供的Python脚本进行数据预处理和种子文档选择,或者直接利用现有的数据集进行推荐系统的评估。例如,用户可以运行src/exampleEvaluation目录下的脚本,分别计算摘要、公式和参考文献的相似度,以评估推荐系统的性能。此外,数据集还支持通过zbMATH Open API直接获取研究文章的内容,增强了数据集的灵活性和实用性。
背景与挑战
背景概述
MathRecGoldStandData数据集由一支专注于科学研究文章推荐系统的研究团队于2024年4月创建,旨在提升STEM领域中数学内容的推荐质量。该数据集包含了421对推荐文章及其80篇种子研究文章,通过zbMATH Open API获取并整理。主要研究人员通过精心设计的预处理和种子文档选择流程,确保了数据集的高质量和代表性。此数据集不仅为推荐系统研究提供了宝贵的资源,还推动了数学内容在STEM领域中的应用和理解。
当前挑战
MathRecGoldStandData数据集在构建过程中面临多项挑战。首先,从zbMATH Open获取并筛选出具有代表性的种子研究文章需要复杂的预处理步骤,包括去除无关文档和提取关键信息。其次,推荐对的生成和排序需依据相关性进行精确计算,确保推荐结果的准确性和实用性。此外,数据集的维护和更新也是一个持续的挑战,以确保其始终反映最新的研究动态和推荐算法的发展。
常用场景
经典使用场景
在科学研究领域,MathRecGoldStandData数据集的经典使用场景主要体现在推荐系统的评估与优化上。该数据集提供了421对推荐文章及其相关内容,通过这些数据,研究者可以构建和测试基于数学内容的推荐算法。例如,研究者可以利用数据集中的种子文档和推荐列表,评估推荐系统在不同数学领域文章推荐中的准确性和相关性,从而优化推荐算法的性能。
解决学术问题
MathRecGoldStandData数据集解决了科学研究中推荐系统准确性评估的难题。传统的推荐系统评估往往依赖于通用数据集,难以准确反映特定领域如数学研究的推荐需求。该数据集通过提供高质量的数学研究文章推荐对,使得研究者能够更精确地评估和改进推荐算法,从而提升推荐系统在STEM(科学、技术、工程和数学)领域的应用效果。
衍生相关工作
MathRecGoldStandData数据集的发布催生了一系列相关研究工作。例如,有研究者基于该数据集开发了新的推荐算法,专注于提高数学内容推荐的准确性。同时,该数据集也被用于验证和比较不同推荐模型的性能,推动了推荐系统在STEM领域的研究进展。此外,数据集的开放获取特性还促进了跨学科的合作研究,如结合机器学习和数学领域的专家知识,进一步提升推荐系统的智能化水平。
以上内容由遇见数据集搜集并总结生成



