five

LAGOS-AND

收藏
arXiv2022-07-14 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/4568624
下载链接
链接失效反馈
官方服务:
资源简介:
LAGOS-AND是由武汉大学信息管理学院创建的大规模黄金标准数据集,用于学术作者姓名消歧。该数据集通过整合ORCID和DOI等权威学术资源,自动构建了包含750万引文的数据集,涵盖近80万独特作者。数据集分为两个子集:LAGOS-AND-BLOCK用于基于聚类的消歧研究,LAGOS-AND-PAIRWISE用于基于分类的消歧研究。在构建过程中,研究了姓氏变异程度,并评估了多种消歧方法及MAG作者ID系统。该数据集旨在为未来的消歧研究提供新的见解,并已公开可用。

LAGOS-AND is a large-scale gold-standard dataset created by the School of Information Management, Wuhan University, for academic author name disambiguation. This dataset was automatically constructed by integrating authoritative academic resources such as ORCID and DOI, containing 7.5 million citations and covering nearly 800,000 unique authors. The dataset is divided into two subsets: LAGOS-AND-BLOCK for clustering-based disambiguation research, and LAGOS-AND-PAIRWISE for classification-based disambiguation research. During the construction process, the degree of surname variation was investigated, and multiple disambiguation methods and the MAG Author ID system were evaluated. This dataset aims to provide new insights for future disambiguation research and has been publicly available.
提供机构:
武汉大学信息管理学院
创建时间:
2021-04-05
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献数据库普遍面临作者姓名歧义问题的背景下,LAGOS-AND数据集的构建巧妙地利用了ORCID和DOI两大权威学术资源。其核心方法是通过DOI将ORCID数据库与微软学术图谱(MAG)进行无歧义链接,从而自动获取作者的真实姓名(CFN)及其发表记录。构建流程包括元数据提取、数据库链接、作者位置识别以及姓氏变异检测等关键步骤。通过聚合操作,最终形成了面向聚类研究的LAGOS-AND-BLOCK和面向分类研究的LAGOS-AND-PAIRWISE两个大规模、高质量的子数据集,整个过程实现了自动化与可复现。
特点
LAGOS-AND数据集在作者消歧领域展现出若干显著特征。其规模庞大,初始版本即包含由近80万作者撰写的750万次引用,是目前已知最大的黄金标准数据集。该数据集全面覆盖了姓名歧义的同名(homonyms)与异名(synonyms)问题,并以作者在ORCID页面上维护的可信全名作为分块依据,确保了分块的权威性。尤为重要的是,通过多维度验证,该数据集在出版日期、作者位置、性别、民族、姓名流行度及学科领域等六个方面与整个MAG数据库表现出高度相似性,从而具备了出色的现实代表性。
使用方法
该数据集为作者姓名消歧研究提供了标准化的评估平台。LAGOS-AND-BLOCK专用于评估聚类式消歧方法或检验现有作者标识系统(如MAG的作者ID)的性能,用户可直接在其分块结构上进行算法测试。LAGOS-AND-PAIRWISE则适用于训练和评估分类式消歧模型,其提供的配对引用实例带有明确的作者归属标签。研究者可利用数据集已划分的训练、验证和测试集进行模型开发与性能比较。此外,数据集揭示的姓氏变异程度等分析结果,也为改进传统基于姓氏分块的消歧框架提供了重要洞见。
背景与挑战
背景概述
LAGOS-AND数据集由武汉大学信息管理学院的研究团队于2021年2月创建,旨在应对学术文献数据库中普遍存在的作者姓名歧义问题。该数据集通过整合权威学术资源ORCID和DOI,构建了大规模、高质量的作者姓名消歧黄金标准数据。其核心研究问题聚焦于如何利用可信赖的外部标识符,自动化生成能够真实反映大规模文献数据库复杂姓名模式的标注数据,以克服传统人工标注数据集在规模、过程透明度和偏差控制上的局限。该数据集的发布为开发更有效的监督与半监督消歧算法提供了关键基础设施,并对文献计量学、数字图书馆管理等领域的实证研究产生了深远影响。
当前挑战
LAGOS-AND数据集所针对的作者姓名消歧领域,其核心挑战在于如何在海量且噪声充斥的学术文献中,精准区分同名作者(同形异义)并合并同一作者的不同名称变体(同义异形)。这一问题的复杂性源于姓名书写惯例的文化差异、名称拼写错误、机构解析不一致以及婚姻等社会因素导致的姓名变更。在数据集构建过程中,研究团队面临多重技术挑战:首先,需要设计可靠的启发式算法,在缺乏明确位置信息的情况下,从文献元数据中准确识别ORCID作者在其声称的论文中的作者位置;其次,必须系统性地检测并量化姓氏变异现象,以评估其对广泛采用的基于姓氏分块消歧框架的潜在影响;此外,还需确保生成的块结构与配对数据集在多个维度(如出版时间、作者位置、性别、民族、姓名流行度及学科领域)上与真实文献数据库的分布保持高度相似,以避免引入系统性偏差。
常用场景
经典使用场景
在学术文献计量与知识图谱构建领域,作者姓名歧义问题长期困扰着大规模文献数据库的精确分析。LAGOS-AND数据集通过整合权威的ORCID和DOI资源,为基于聚类和分类的作者姓名消歧研究提供了大规模、高质量的黄金标准数据。其最经典的使用场景在于为监督与半监督消歧算法提供训练与评估基准,特别是针对百万级别文献数据库中的复杂姓名歧义模式,包括同音异义与同义异名现象,使得研究者能够在接近真实数据分布的环境下开发和验证算法性能。
实际应用
LAGOS-AND数据集的实际应用价值体现在多个层面。在学术信息服务领域,它可用于优化数字图书馆、学术搜索引擎及知识图谱平台中的作者身份识别系统,提升作者档案的准确性与完整性,从而支持更精确的学术影响力分析、合作网络构建与人才发现。在科研管理层面,高质量的作者消歧数据是进行大规模科学计量学分析、追踪科研人员职业生涯轨迹、评估机构科研产出以及研究科学界性别平等、跨学科合作等宏观议题不可或缺的基础设施,确保了相关研究结论的可靠性。
衍生相关工作
自LAGOS-AND发布以来,其大规模与高质量的特性催生了一系列相关的经典研究工作。数据集本身被广泛用作评估新型消歧算法的基准,促进了融合深度学习、图神经网络等先进技术的消歧模型发展。基于其揭示的姓氏高变异现象,后续研究开始重新审视并改进传统的基于姓氏或姓名首字母分块的消歧框架。此外,该数据集支撑了对现有大型学术平台作者ID系统性能的独立评估研究,引发了学术界对大规模消歧系统实际部署效果与评估方法论的深入反思,并推动了利用ORCID等开放资源构建更完善学术实体关联数据的研究方向。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作