dataset-person-name-disambiguation

github2018-01-28 更新2024-05-31 收录

下载链接：

https://github.com/balaneshin/dataset-person-name-disambiguation

下载链接

链接失效反馈

官方服务：

资源简介：

创建一个用于人名消歧的数据集，使用维基百科、DBLP作者和PPDB等多种来源的组合。

Create a dataset for name disambiguation using a combination of multiple sources such as Wikipedia, DBLP authors, and PPDB.

创建时间：

2017-07-14

原始信息汇总

数据集概述

数据集名称

dataset-person-name-disambiguation

数据集目的

创建用于人名消歧的数据集，结合使用维基百科、DBLP作者和PPDB等多种数据源。

数据来源

DBPedia
- 数据文件：persondata_en.nt.bz2, disambiguations_en.nt.bz2
The Paraphrase Database (PPDB)
- 数据文件：ppdb-1.0-s-lexical.gz, ppdb-1.0-s-o2m.gz
DBLP authors
- 数据文件：DBLP10k.csv

数据集生成步骤

运行createdata.py脚本处理下载的文件，生成persons.match文件。
可选步骤：从PPDB数据集中提取NNP数据，并追加到persons.match文件中。

数据集样本结构

Name	Disambiguation	isVariation
Marria G Honnet	Marry Honnet	y
Mohammed Fazle Baki	Md. Fazle Baki	y
Shensheng Zhang	Shen-sheng Zhang	y
James B. D. Joshi	James Joshi	y
Thomas A. Down	Thomas Down	y
Frank Hung-Fat Leung	Frank H. Leung	y
Geoffrey W. Hill	G. W. Hill	y
Simon L. Harding	Simon Harding	y
Antonio Fernández	Antonio Fernández Anta	y
Argyrios Zymnis	Argyris Zymnis	y
N. R. Achuthan	Nirmala Achutyan	y
Fabrice Muamba	Fabrice Muamba	n
Ursula Vaughan Williams	Vaughan Williams	y
Henry Earle Vaughan	Henry Earle	y
Bernard Lens III	Bernard Lens	y
Muthukulam Raghavan Pillai	Raghavan	y
James Fisher Robinson	James Fisher	y
Jimmy Needles	Needle	y
W. E. B. Du Bois	Web	y
Sylvester Perry Ryan	Perry Ryan	y
James Beaty, Jr.	Beaty	y
George Manning McDade	George Manning	y
Alejandro Zaffaroni	Zaffaroni	n
Ellie Goulding	Ellie Goulding	n

数据集字段说明

Name: 人名
Disambiguation: 人名消歧后的形式
isVariation: 是否为变体（y表示是，n表示否）

搜集汇总

数据集介绍

构建方式

dataset-person-name-disambiguation数据集的构建，是基于对多个数据源的综合利用，包括Wikipedia、DBLP作者数据以及PPDB（Paraphrase Database）。首先，从DBPedia下载persondata_en.nt.bz2和disambiguations_en.nt.bz2文件，并解压。其次，从PPDB下载并解压ppdb-1.0-s-lexical.gz和ppdb-1.0-s-o2m.gz文件。最后，从DBLP作者数据中下载DBLP10k.csv文件。通过执行createdata.py脚本处理这些文件，生成最终的匹配数据集。

特点

该数据集的特点在于，它是一个专门为人物名称消歧义设计的资源。它利用了不同来源的数据，从而提供了丰富的变体形式，有助于模型的训练和评估。数据集中的消歧义信息包括人物名称的各种变体，以及它们是否为同一人的标记。此外，数据集还包含了非人物名称的>NNP（名词短语）数据，有助于学习拼写模式。

使用方法

使用该数据集时，用户需要首先下载上述提到的数据源文件，并按照README中提供的步骤进行解压和预处理。然后，运行createdata.py脚本生成匹配数据文件persons.match。可选地，用户还可以将nnp.match文件追加到persons.match中，以增加>NNP数据。最终生成的数据文件可用于人物名称消歧义的机器学习模型的训练和测试。

背景与挑战

背景概述

在知识图谱和自然语言处理领域，人名消歧是一项重要任务，旨在识别文本中提及的同一实体。dataset-person-name-disambiguation数据集应运而生，旨在为人名消歧研究提供支持。该数据集创建于近期，汇集了来自DBpedia、DBLP作者数据及PPDB等多个来源的信息，由相关研究人员精心构建，以解决实体识别和人名消歧中的难题。数据集自发布以来，受到学术界广泛关注，对人名消歧相关领域的研究起到了推动作用。

当前挑战

dataset-person-name-disambiguation数据集在构建过程中面临诸多挑战。首先，整合多个来源的数据需要克服数据异构性问题。其次，构建过程中，如何确保数据质量，尤其是人名的准确性和一致性，是一大难题。此外，数据集在解决人名消歧问题的同时，还需面对如何有效支持模型学习人名拼写模式等挑战。在应用层面，该数据集的使用者亦需面对如何设计高效算法处理大规模数据集的挑战。

常用场景

经典使用场景

dataset-person-name-disambiguation数据集汇集了Wikipedia、DBLP作者和PPDB等多源数据，其经典使用场景在于提供一份用于人名消歧的基准数据集，旨在帮助研究人员开发能够准确识别和区分具有多种表达形式同一人名的算法。

解决学术问题

该数据集解决了学术研究中人名歧义问题，这对于学术文献挖掘、人物关系网络构建、知识图谱完善等领域至关重要。它通过提供标准化的消歧结果，助力提升信息检索的准确性和效率。

衍生相关工作

基于此数据集，研究者已衍生出多项相关工作，包括但不限于人名消歧算法的比较研究、消歧模型的性能评估、以及多语言人名消歧的探索等，进一步推动了相关领域的学术发展和技术进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集