dataset-person-name-disambiguation
收藏github2023-08-25 更新2024-05-31 收录
下载链接:
https://github.com/dhwajraj/dataset-person-name-disambiguation
下载链接
链接失效反馈官方服务:
资源简介:
创建一个用于人名消歧的数据集,使用维基百科、DBLP作者和PPDB等多种来源的组合。
Create a dataset for name disambiguation using a combination of multiple sources such as Wikipedia, DBLP authors, and PPDB.
创建时间:
2016-11-17
原始信息汇总
数据集概述
数据集名称
dataset-person-name-disambiguation
数据集目的
用于创建个人名称消歧的数据集,结合了维基百科、DBLP作者和PPDB等多个来源。
数据来源
-
DBPedia
- 文件:persondata_en.nt.bz2, disambiguations_en.nt.bz2
- 下载链接:http://downloads.dbpedia.org/3.6/en/
-
The Paraphrase Database (PPDB)
- 文件:ppdb-1.0-s-lexical.gz, ppdb-1.0-s-o2m.gz
- 下载链接:http://www.cis.upenn.edu/~ccb/ppdb/release-1.0/
-
DBLP authors
- 文件:DBLP10k.csv
- 下载链接:https://hpi.de/fileadmin/user_upload/fachgebiete/naumann/projekte/repeatability/DBLP/
数据集生成步骤
- 运行createdata.py处理下载的文件,生成persons.match。
- 可选步骤:从PPDB数据集中提取NNP数据,并将其追加到persons.match中。
数据集样本
| Name | Disambiguation | isVariation |
|---|---|---|
| Marria G Honnet | Marry Honnet | y |
| Mohammed Fazle Baki | Md. Fazle Baki | y |
| Shensheng Zhang | Shen-sheng Zhang | y |
| James B. D. Joshi | James Joshi | y |
| Thomas A. Down | Thomas Down | y |
| Frank Hung-Fat Leung | Frank H. Leung | y |
| Geoffrey W. Hill | G. W. Hill | y |
| Simon L. Harding | Simon Harding | y |
| Antonio Fernández | Antonio Fernández Anta | y |
| Argyrios Zymnis | Argyris Zymnis | y |
| N. R. Achuthan | Nirmala Achutyan | y |
| Fabrice Muamba | Fabrice Muamba | n |
| Ursula Vaughan Williams | Vaughan Williams | y |
| Henry Earle Vaughan | Henry Earle | y |
| Bernard Lens III | Bernard Lens | y |
| Muthukulam Raghavan Pillai | Raghavan | y |
| James Fisher Robinson | James Fisher | y |
| Jimmy Needles | Needle | y |
| W. E. B. Du Bois | Web | y |
| Sylvester Perry Ryan | Perry Ryan | y |
| James Beaty, Jr. | Beaty | y |
| George Manning McDade | George Manning | y |
| Alejandro Zaffaroni | Zaffaroni | n |
| Ellie Goulding | Ellie Goulding | n |
此数据集样本展示了个人名称及其可能的变体,以及是否为变体的标记。
搜集汇总
数据集介绍

构建方式
dataset-person-name-disambiguation数据集的构建基于多源数据的整合与处理。首先,从DBPedia、Paraphrase Database(PPDB)以及DBLP作者数据集中下载相关数据文件,包括人物数据、消歧数据以及作者信息。随后,通过运行自定义的Python脚本`createdata.py`,将下载的数据文件进行处理,生成人物名称匹配文件。此外,为了增强数据集的多样性,还从PPDB中提取了专有名词(NNP)数据,并将其合并到最终的数据集中。这一过程确保了数据集在人物名称消歧任务中的广泛适用性和丰富性。
特点
该数据集的特点在于其多样性和实用性。数据集涵盖了来自不同领域的人物名称及其变体,包括学术界的作者名称、历史人物以及公众人物等。每个名称条目都标注了其对应的消歧名称以及是否为变体(isVariation字段)。这种标注方式使得数据集能够有效支持人物名称消歧任务,尤其是在处理同名异义或异名同义的情况下。此外,数据集的构建还考虑了名称的拼写变体,进一步增强了其在自然语言处理任务中的应用价值。
使用方法
使用该数据集时,首先需要下载并解压相关的数据源文件,包括DBPedia、PPDB和DBLP的数据。随后,通过运行`createdata.py`脚本生成人物名称匹配文件。用户可以根据需要选择是否合并PPDB中的专有名词数据。生成的数据集文件以表格形式存储,包含名称、消歧名称以及是否为变体的标注信息。用户可以直接将该数据集用于训练或测试人物名称消歧模型,或作为其他自然语言处理任务的辅助数据。数据集的结构清晰,便于进一步的分析和扩展。
背景与挑战
背景概述
dataset-person-name-disambiguation数据集旨在解决人名消歧问题,通过整合多种数据源如维基百科、DBLP作者数据库和PPDB(Paraphrase Database)来构建。该数据集的创建时间不详,但其核心研究问题聚焦于如何准确区分同名或相似名称的不同个体,这一问题在信息检索、知识图谱构建等领域具有重要应用价值。通过结合DBPedia、PPDB和DBLP等权威数据源,该数据集为研究人员提供了一个丰富的实验平台,推动了人名消歧技术的发展。
当前挑战
该数据集面临的挑战主要体现在两个方面。首先,人名消歧问题本身具有较高的复杂性,尤其是在处理跨语言、跨文化背景下的名称时,如何准确识别和区分同名或相似名称的个体仍然是一个难题。其次,在数据集的构建过程中,如何有效整合来自不同数据源的信息,并确保数据的质量和一致性,也是一个重要的技术挑战。此外,数据源之间的格式差异和语义不一致性,进一步增加了数据处理的难度。
常用场景
经典使用场景
在自然语言处理领域,dataset-person-name-disambiguation数据集被广泛用于解决人名消歧问题。通过整合来自Wikipedia、DBLP作者数据库和PPDB(Paraphrase Database)的数据,该数据集为研究人员提供了一个丰富的资源,用于训练和评估人名消歧模型。特别是在处理同名异义和异名同义问题时,该数据集能够帮助模型更准确地识别和区分不同个体。
衍生相关工作
基于dataset-person-name-disambiguation数据集,许多经典的研究工作得以展开。例如,研究人员开发了基于深度学习的消歧模型,利用该数据集进行训练和评估,显著提升了人名消歧的准确率。此外,该数据集还催生了一系列关于人名变体识别和实体链接的研究,推动了自然语言处理领域的技术进步。
数据集最近研究
最新研究方向
在自然语言处理领域,人名消歧(Person Name Disambiguation)是一个长期存在的挑战,尤其是在处理大规模文献数据库时。dataset-person-name-disambiguation数据集通过整合Wikipedia、DBLP作者数据和PPDB(Paraphrase Database)等多源数据,为人名消歧任务提供了丰富的训练和测试资源。近年来,随着深度学习技术的快速发展,基于该数据集的研究方向逐渐转向利用预训练语言模型(如BERT、GPT等)进行人名消歧任务。这些模型能够更好地捕捉人名变体之间的语义关系,并通过上下文信息提高消歧的准确性。此外,该数据集还被广泛应用于跨语言人名消歧和知识图谱构建等前沿领域,推动了学术界和工业界在信息检索、知识管理等方面的技术进步。
以上内容由遇见数据集搜集并总结生成



