MENTORSHIP

Name: MENTORSHIP
Creator: 信息学院，雪城大学，纽约州雪城
Published: 2021-06-12 00:12:15
License: 暂无描述

arXiv2021-06-12 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.4917086

下载链接

链接失效反馈

官方服务：

资源简介：

MENTORSHIP是一个由雪城大学信息学院创建的大规模数据集，包含743,176条跨112个科学领域的导师关系。该数据集通过众包方式收集，避免了传统数据集的局限性，如领域狭窄和忽视早期职业及非出版相关互动。数据集内容丰富，包括科学家的出版数据和使用深度学习内容分析的‘语义’研究表示。此外，考虑到性别和种族在科学分析中的重要性，数据集还提供了这些因素的估计。MENTORSHIP旨在促进科学领域导师关系的研究，加深我们对导师在科学家职业成果中作用的理。

MENTORSHIP is a large-scale dataset developed by the School of Information Studies at Syracuse University, containing 743,176 mentor-mentee relationships spanning 112 scientific disciplines. Collected via crowdsourcing, this dataset circumvents the limitations of traditional datasets, such as narrow domain coverage, neglect of early-career researchers and exclusion of non-publication-related interactions. The dataset features rich content, including scientists' publication records and "semantic" research representations derived through deep learning-based content analysis. Furthermore, given the critical role of gender and race in scientific analyses, the dataset also provides estimates of these two demographic factors. MENTORSHIP aims to advance research on mentor-mentee relationships in scientific fields and deepen our understanding of the role mentors play in scientists' career outcomes.

提供机构：

信息学院，雪城大学，纽约州雪城

创建时间：

2021-06-12

搜集汇总

数据集介绍

构建方式

MENTORSHIP数据集以学术家族树（Academic Family Tree, AFT）网站为起点，通过众包方式收集了覆盖112个学科的743176条导师-学生关系。研究团队首先清理AFT中的人员数据，剔除信息不完整或重复的条目，随后从连接表中提取导师-学生对，并过滤无效记录。为丰富学者信息，团队将AFT研究者与微软学术图谱（Microsoft Academic Graph, MAG）进行匹配：一方面通过导师-学生合著关系进行匹配，另一方面借助姓名与机构信息进行补充匹配，最终成功关联了63.8%的研究者。此外，利用深度学习方法对研究者的论文标题与摘要进行语义表征（TF-IDF和SPECTER嵌入），并基于姓名推断其性别与种族/民族信息。

使用方法

用户可将MENTORSHIP与MAG数据库整合，以探究导师对学生学术生涯的影响。MAG提供了论文与引文的详细元数据，用户据此可计算科学学中常用的指标（如生产力、影响力等）。数据集中的DOI与PMID标识符便于通过CrossRef API或NCBI E-utilities API获取论文元数据。对于语义分析，用户可通过SciPy库加载TF-IDF向量文件（scipy.sparse.load_npz），或直接使用提供的SPECTER向量进行研究者相似度计算。此外，研究者向量还可用于推荐系统、学术匹配等场景。所有数据以CSV、NPZ和Pickle格式提供，并附有实体关系图（图2）以辅助数据理解。

背景与挑战

背景概述

在科学计量学与知识社会学领域，导师关系（mentorship）被视为塑造科研人员职业轨迹的核心机制，深刻影响其选题偏好、学术产出与职业发展。然而，既有研究多依赖单一学科领域或间接信号（如合著关系）来推断导师关系，导致结论的普适性受限。2021年，由Syracuse大学信息科学学院的Qing Ke与Daniel E. Acuna领衔，联合得克萨斯大学奥斯汀分校及俄勒冈健康与科学大学的研究团队，构建了MENTORSHIP数据集。该数据集通过众包平台Academic Family Tree（AFT）与微软学术图谱（MAG）的深度整合，收录了涵盖112个学科领域的743,176对导师关系，并借助深度学习技术提取了研究者的语义表征与人口统计特征（性别与种族）。这一开创性工作突破了传统数据库的碎片化局限，为科学学中导师效应的跨学科、大规模量化分析提供了坚实基础。

当前挑战

MENTORSHIP数据集所面临的挑战体现在多个维度。首先，在领域问题层面，科学导师关系的研究长期受困于数据稀疏性与覆盖偏倚：现有数据库如数学谱系项目或ProQuest仅聚焦单学科或地域，且缺乏出版物信息，难以揭示导师关系的普遍规律。MENTORSHIP虽通过跨学科整合缓解了此问题，但众包性质导致样本代表性不足，例如神经科学领域研究者占比过高，而社会科学与人文学科的匹配率显著偏低（如教育领域仅31.8%）。其次，在构建过程中，研究者面临两大技术挑战：一是AFT与MAG间的机构与人员匹配，需通过贪婪算法与名称变体规则处理海量异构数据，最终仍存在约36%的研究者无法成功链接；二是人口统计推断的偏差，尤其是非裔美国人姓名的种族预测精度不足（基于姓名的模型在Black in Neuro验证集上准确率仅19.5%），凸显了敏感属性估计中训练数据不均衡与跨文化泛化的难题。

常用场景

经典使用场景

MENTORSHIP数据集为科学领域中的导师-学员关系研究提供了前所未有的全景式数据基础。该数据集覆盖了112个学科领域、近74万组导师-学员关系，突破了以往单一学科或仅依赖合著关系的局限。在经典使用中，研究者可借助该数据集系统性地分析导师特征（如生产力、影响力、性别与种族）对学员学术生涯轨迹的塑造作用，尤其适用于探究导师在学员选题偏好、职业选择、早期科研产出及长期学术成就中的因果效应。

解决学术问题

该数据集有效解决了科学学领域中长期存在的关键学术难题：缺乏大规模、跨学科且包含语义与人口统计学特征的导师关系数据。此前研究多局限于数学或天文学等特定领域，或依赖间接信号（如合著）推断导师关系，导致结论的普适性受限。MENTORSHIP通过整合学术谱系、出版物语义嵌入（TF-IDF与SPECTER）以及基于深度学习的性别与种族推断，为量化分析导师关系对科研不平等、学术传承与知识流动的影响提供了可靠工具，推动了科学学从描述性统计向因果推断的范式跃迁。

实际应用

在实际应用中，MENTORSHIP数据集可服务于科研政策制定与科研管理优化。科研机构可利用该数据评估不同学科中导师-学员匹配模式对人才培养效率的影响，例如识别高产出导师的共同特征以优化导师分配制度。资助机构可结合性别与种族信息分析科研领域中的多样性鸿沟，针对性设计促进弱势群体科研参与的政策。此外，该数据还可用于构建学术推荐系统，通过语义相似性为新晋研究者匹配潜在导师，或预测科研合作网络中的知识传递路径。

数据集最近研究