WhoIsWho

Name: WhoIsWho
Creator: 清华大学
Published: 2023-06-06 16:41:31
License: 暂无描述

arXiv2023-06-06 更新2024-06-21 收录

下载链接：

http://whoiswho.biendata.xyz/

下载链接

链接失效反馈

官方服务：

资源简介：

WhoIsWho数据集是由清华大学开发的一个大规模学术名称消歧基准，包含超过100万个文档。该数据集通过交互式标注过程构建，涉及10多名专业标注者，历时约24个月。数据集内容丰富，包括文档的标题、作者名、组织、关键词、摘要、出版年份和会议/期刊信息。WhoIsWho数据集旨在解决在线学术系统中名称消歧这一基本问题，特别是在研究论文数量不断增长的背景下，提高算法在处理大规模和高质量数据集上的有效性。该数据集的应用领域广泛，包括但不限于学术搜索平台的优化、学术合作网络的构建以及学术评价系统的改进。

The WhoIsWho dataset is a large-scale academic name disambiguation benchmark developed by Tsinghua University, containing over one million documents. It was constructed through an interactive annotation process, involving more than 10 professional annotators and taking approximately 24 months to complete. The dataset is rich in content, including the title, author names, affiliations, keywords, abstracts, publication years, and conference/journal information of the documents. The WhoIsWho dataset aims to address the fundamental problem of name disambiguation in online academic systems, particularly to improve the effectiveness of algorithms when processing large-scale and high-quality datasets against the backdrop of the ever-growing number of research papers. The dataset has a wide range of application scenarios, including but not limited to the optimization of academic search platforms, the construction of academic collaboration networks, and the improvement of academic evaluation systems.

提供机构：

清华大学

创建时间：

2023-02-23

搜集汇总

数据集介绍

构建方式

在学术文献爆炸式增长的背景下，作者姓名歧义问题日益凸显，WhoIsWho数据集的构建旨在为此提供大规模高质量基准。该数据集从AMiner数据库中采样原始文献数据，涵盖399,255篇文献和45,187位真实作者，涉及421个常见歧义姓名。构建过程采用一种创新的人机协同标注框架，通过构建多属性相似度图、图神经网络精炼及社区检测子聚类，将复杂的标注任务分解为清洗、验证、添加与合并四个步骤，并引入多数投票策略聚合不同标注者的结果，从而在保证高精度的前提下高效处理海量数据。

特点

WhoIsWho数据集在规模、复杂性与准确性方面均具有显著优势。作为目前规模最大的人工标注作者姓名消歧数据集，它包含近40万篇文献，远超现有同类基准。数据集中每个歧义姓名对应的文献数量分布广泛，最大文档集超过六千篇，能够充分模拟真实场景中的复杂模式。该数据集通过严谨的标注流程与投票机制，有效消除了人工标注中常见的错误标记问题，确保了标签的高可靠性。其多样化的文献属性与复杂的作者关系结构，为开发鲁棒性强的消歧模型提供了极具挑战性的测试环境。

使用方法

该数据集主要用于训练与评估作者姓名消歧模型。研究者可将数据集划分为训练集、验证集和测试集，用于监督学习模型的训练。评估时，通常采用基于文档对的精确率、召回率和F1值等指标，并可分别计算微观与宏观平均分数以全面衡量模型性能。数据集支持两种基本任务场景：从零开始的姓名消歧与持续姓名消歧。使用者可以基于文献的标题、摘要、合著者、所属机构等多种属性构建特征，并利用数据集提供的地面真实聚类结果，开发和验证包括图神经网络在内的各类消歧算法。

背景与挑战

背景概述

在学术信息爆炸性增长的背景下，作者姓名歧义问题成为数字文献库面临的核心挑战之一。WhoIsWho数据集由清华大学、杜克大学等机构的研究团队于2018年构建，旨在为作者姓名消歧任务提供大规模、高质量的人工标注基准。该数据集包含来自AMiner数据库的399,255篇文献，涵盖45,187位真实作者和421个常见歧义姓名，其核心研究问题聚焦于如何准确地将共享相同姓名的文献聚类到对应的真实作者身份下。WhoIsWho的发布显著推动了姓名消歧领域的发展，为机器学习模型提供了不可或缺的训练与评估资源，并成功支撑了相关数据挑战赛，吸引了全球研究者的广泛参与。

当前挑战

WhoIsWho数据集所针对的姓名消歧领域本身存在固有复杂性：文献数量庞大且增长迅速，同名作者间的特征重叠度高，而区分性特征往往稀疏或隐晦，这对算法的准确性与可扩展性提出了严峻考验。在构建过程中，研究团队面临多重挑战：首先，人工标注需处理海量文献间的成对关系，例如数千篇文献即对应数百万对关系，远超人类处理能力；其次，判断两篇文献是否属于同一作者常需依赖第三方文献的上下文信息，增加了标注的认知负荷；此外，标注工作量大、协作困难，易导致效率低下与错误累积。为此，团队创新性地提出了人机协同的标注框架，通过图神经网络模型辅助相似性计算、可视化界面优化交互流程，并将任务分解为清洗、验证、添加与合并四个步骤，结合多数投票策略确保标注质量与一致性。

常用场景

经典使用场景

在学术文献管理领域，作者姓名歧义问题长期困扰着数字图书馆和引文分析系统。WhoIsWho数据集作为大规模人工标注的姓名消歧基准，其经典使用场景在于为机器学习模型提供训练与评估平台。研究者利用该数据集开发先进的消歧算法，通过分析文档间的相似性特征与协作网络结构，实现对同名作者文献的精确聚类，从而提升学术数据库的实体解析能力。

衍生相关工作

该数据集的发布催生了多项重要研究工作，包括基于图神经网络的端到端消歧模型和半监督聚类算法的创新。例如，Aminer团队提出的监督归纳嵌入方法利用该数据集学习文档表征，而Zhang等人则探索了基于协作网络的图嵌入技术。这些衍生工作通过WhoIsWho的评估验证了算法性能，共同推动了姓名消歧领域从传统特征工程向深度学习范式的转变。

数据集最近研究