dataset-person-name-disambiguation
收藏github2018-03-29 更新2024-05-31 收录
下载链接:
https://github.com/vvvictorlee/dataset-person-name-disambiguation
下载链接
链接失效反馈官方服务:
资源简介:
创建一个用于人名消歧的数据集,使用维基百科、DBLP作者和PPDB等多种来源的组合。
Create a dataset for name disambiguation using a combination of multiple sources such as Wikipedia, DBLP authors, and PPDB.
创建时间:
2018-03-29
原始信息汇总
数据集概述
数据集名称
dataset-person-name-disambiguation
数据集目的
用于人物名称消歧,结合了维基百科、DBLP作者和PPDB等多个数据源。
数据源下载
-
DBPedia
- 下载链接:DBPedia数据集
- 包含文件:persondata_en.nt.bz2, disambiguations_en.nt.bz2
-
The Paraphrase Database (PPDB)
- 下载链接:PPDB数据集
- 包含文件:ppdb-1.0-s-lexical.gz, ppdb-1.0-s-o2m.gz
-
DBLP authors
- 下载链接:DBLP作者数据集
- 包含文件:DBLP10k.csv
数据集生成
- 步骤1:运行createdata.py脚本处理下载的文件,生成persons.match文件。
- 步骤2 (可选):从PPDB数据集中提取NNP数据集,辅助学习拼写模式,并追加到persons.match文件中。
数据集样本
| Name | Disambiguation | isVariation |
|---|---|---|
| Marria G Honnet | Marry Honnet | y |
| Mohammed Fazle Baki | Md. Fazle Baki | y |
| Shensheng Zhang | Shen-sheng Zhang | y |
| James B. D. Joshi | James Joshi | y |
| Thomas A. Down | Thomas Down | y |
| Frank Hung-Fat Leung | Frank H. Leung | y |
| Geoffrey W. Hill | G. W. Hill | y |
| Simon L. Harding | Simon Harding | y |
| Antonio Fernández | Antonio Fernández Anta | y |
| Argyrios Zymnis | Argyris Zymnis | y |
| N. R. Achuthan | Nirmala Achutyan | y |
| Fabrice Muamba | Fabrice Muamba | n |
| Ursula Vaughan Williams | Vaughan Williams | y |
| Henry Earle Vaughan | Henry Earle | y |
| Bernard Lens III | Bernard Lens | y |
| Muthukulam Raghavan Pillai | Raghavan | y |
| James Fisher Robinson | James Fisher | y |
| Jimmy Needles | Needle | y |
| W. E. B. Du Bois | Web | y |
| Sylvester Perry Ryan | Perry Ryan | y |
| James Beaty, Jr. | Beaty | y |
| George Manning McDade | George Manning | y |
| Alejandro Zaffaroni | Zaffaroni | n |
| Ellie Goulding | Ellie Goulding | n |
以上为数据集的关键信息概述。
搜集汇总
数据集介绍

构建方式
dataset-person-name-disambiguation数据集的构建,是通过整合多个来源的数据来实现的,包括DBpedia、PPDB以及DBLP authors等。首先从DBpedia下载人物数据及消歧数据,然后从PPDB获取同义词数据库,最后从DBLP获取作者列表。在数据预处理阶段,利用Python脚本createdata.py处理下载的文件,生成匹配数据,并可选地追加来自PPDB的nnp数据集以辅助学习拼写模式。
特点
该数据集的主要特点是整合了不同来源的数据,以解决人物名称消歧的问题。它不仅包含了人物名称及其变体,还标注了是否为同一人。数据集的多样性和综合性使其在人物名称消歧任务中具有较高的实用价值。此外,数据集的构建考虑了拼写模式的多样性,增加了学习的复杂性。
使用方法
使用该数据集时,首先需要下载相应的数据源,包括DBpedia的人物数据和消歧数据、PPDB的同义词数据库以及DBLP的作者数据。接着,通过运行提供的Python脚本createdata.py处理这些数据,生成匹配数据文件persons.match。如果需要,还可以追加nnp数据集以丰富数据。最终得到的文件可用于人物名称消歧的模型训练和评估。
背景与挑战
背景概述
在人物名称消歧领域,dataset-person-name-disambiguation数据集应运而生。该数据集由多个来源组合构建而成,包括Wikipedia、DBLP作者数据以及PPDB(Paraphrase Database),旨在为研究人员提供一个全面的实验平台。自创建以来,该数据集已得到广泛的应用,其核心研究问题聚焦于如何准确地区分具有相似或相同名称的不同个体。该数据集的影响力在学术界逐渐显现,成为推动人物名称消歧技术发展的重要资源。
当前挑战
数据集构建过程中,研究人员面临了多方面的挑战。首先,整合不同来源的数据,确保数据质量和一致性,是一大挑战。其次,人物名称的多样性和复杂性使得消歧任务本身具有挑战性,尤其是在处理名称变体和同名人问题方面。此外,如何有效利用PPDB中的释义数据来辅助学习拼写模式,也是数据集构建过程中需要解决的问题。
常用场景
经典使用场景
在构建人物名称消歧的数据处理模型时,dataset-person-name-disambiguation数据集提供了丰富的样本资源。该数据集融合了Wikipedia、DBLP作者库和PPDB同义词数据库的数据,通过这些多元化的信息源,研究者能够训练模型以识别和消歧不同语境下的人物名称。
实际应用
在实际应用中,dataset-person-name-disambiguation数据集被广泛运用于社交媒体分析、图书馆目录整理以及身份认证系统。它帮助相关系统准确识别个人身份,避免了信息混淆和错误关联。
衍生相关工作
基于该数据集,研究者们衍生出了一系列相关的工作,包括但不限于改进人物名称消歧算法、构建更为复杂的消歧模型,以及将消歧技术应用于特定领域的文本分析,这些工作进一步拓宽了人物名称消歧技术的应用范围和研究深度。
以上内容由遇见数据集搜集并总结生成



