Math Genealogy Project, ogbn-arxiv
收藏arXiv2025-01-03 更新2025-01-07 收录
下载链接:
https://mathgenealogy.org/index.php, https://github.com/DiegoHuerta1/A-Probabilistic-Model-for-Node-Classification-in-Directed-Graphs
下载链接
链接失效反馈官方服务:
资源简介:
本论文涉及两个数据集:Math Genealogy Project和ogbn-arxiv。Math Genealogy Project数据集是从公开的数学系谱信息中提取并专门为节点分类任务创建的,这是该数据首次用于分类任务。ogbn-arxiv数据集则是一个广泛认可的基准数据集,常用于节点分类算法的评估。Math Genealogy Project数据集的内容包括数学家的系谱关系,而ogbn-arxiv数据集则包含学术论文的引用网络。这些数据集的应用领域主要集中在图结构数据的节点分类任务上,旨在通过概率模型提高分类的准确性和可解释性。
This paper utilizes two datasets: Math Genealogy Project and ogbn-arxiv. The Math Genealogy Project dataset is extracted from public mathematician genealogical information and specifically constructed for node classification tasks, marking the first time this dataset is applied to classification tasks. The ogbn-arxiv dataset, on the other hand, is a widely recognized benchmark dataset commonly used for evaluating node classification algorithms. The Math Genealogy Project dataset contains genealogical relationships among mathematicians, while the ogbn-arxiv dataset encompasses citation networks of academic papers. The application scenarios of these datasets primarily focus on node classification tasks for graph-structured data, aiming to improve the accuracy and interpretability of classification via probabilistic models.
创建时间:
2025-01-03
搜集汇总
数据集介绍

构建方式
Math Genealogy Project 数据集的构建基于数学家的学术谱系信息,通过收集全球数学家的博士学位信息,包括姓名、毕业年份、导师、论文标题以及数学学科分类(MSC)。数据集以有向图的形式表示,节点代表数学家,边表示导师与学生之间的关系。论文标题作为节点属性,MSC分类作为节点标签。数据集经过筛选,仅保留包含论文标题的节点,最终形成包含267,774个节点和281,288条边的有向图。
特点
该数据集的特点在于其丰富的学术谱系信息,涵盖了数学家的导师-学生关系以及论文标题等文本数据。MSC分类为节点提供了明确的学科标签,使得该数据集适用于节点分类任务。此外,数据集中约65%的节点具有MSC标签,其余节点则通过图结构信息辅助分类,增强了数据集的连通性和信息传递能力。
使用方法
该数据集主要用于节点分类任务,特别是预测数学家的MSC分类。通过结合图结构信息(如导师-学生关系)和节点属性(如论文标题),可以训练分类模型。常用的方法包括基于概率推理的模型(如朴素贝叶斯)和基于神经网络的模型(如图卷积网络)。数据集被划分为训练集、验证集和测试集,分别用于模型训练、超参数调优和性能评估。
背景与挑战
背景概述
Math Genealogy Project 数据集是一个记录全球数学家学术谱系的项目,旨在收集数学、统计学、计算机科学等领域博士学位的获得者及其导师关系的信息。该数据集由 Diego Huerta 和 Gerardo Arizmendi 在 2025 年首次应用于节点分类任务,特别是在有向图中进行节点标签预测的研究中。该数据集的核心研究问题是通过图结构数据和节点属性(如论文标题)来预测数学家的研究领域分类(MSC)。这一研究为图数据挖掘和节点分类任务提供了新的资源,并在学术界产生了广泛影响。
当前挑战
Math Genealogy Project 数据集在应用过程中面临多重挑战。首先,节点分类任务的核心挑战在于如何有效利用图结构信息(如导师-学生关系)和节点属性(如论文标题)来预测未标记节点的标签。其次,数据集的构建过程中存在数据不完整的问题,许多数学家的研究领域分类(MSC)缺失,这增加了预测的难度。此外,由于图数据的复杂性和规模,如何设计高效且可解释的模型来处理大规模图数据也是一个重要挑战。最后,与其他图神经网络模型相比,如何在不牺牲预测性能的前提下提供更高的模型可解释性,是该数据集应用中的另一个关键挑战。
常用场景
经典使用场景
Math Genealogy Project数据集常用于节点分类任务,特别是在数学领域的学术谱系研究中。该数据集通过构建有向图,节点代表数学家,边代表导师-学生关系,节点的属性包括论文标题和数学学科分类(MSC)。经典的使用场景是通过图结构和文本属性预测数学家的研究领域,尤其是在MSC标签缺失的情况下,利用图神经网络或概率模型进行节点分类。
解决学术问题
该数据集解决了节点分类中的两个关键学术问题:一是如何在图结构中利用节点属性和标签信息进行预测,特别是在标签不完整的情况下;二是如何通过概率模型提供可解释的预测结果,避免传统图神经网络的“黑箱”问题。通过引入概率模型,该数据集为节点分类任务提供了新的基准,并展示了其在数学谱系研究中的潜力。
衍生相关工作
基于Math Genealogy Project数据集,衍生了许多经典工作,特别是在图神经网络和概率模型的节点分类任务中。例如,论文中提出的概率模型通过最大似然估计和最大后验估计进行节点分类,展示了其在预测性能和可解释性上的优势。此外,该数据集还被用于与其他基准数据集(如ogbn-arxiv)进行比较,推动了图结构数据分类算法的进一步发展。
以上内容由遇见数据集搜集并总结生成



