First and Last Names Dataset

github2019-12-15 更新2024-05-31 收录

下载链接：

https://github.com/davidmcclure/name-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含全球范围内大约16万个名字和10万个姓氏的数据集，旨在提供高精度和高召回率的数据。

A dataset containing approximately 160,000 given names and 100,000 surnames from across the globe, designed to provide data with high precision and high recall.

创建时间：

2019-09-28

原始信息汇总

姓名数据集

数据集概述

包含约16万条名字（First Names）
包含约10万条姓氏（Last Names）

安装方法

bash pip install names-dataset

使用示例

python from names_dataset import NameDataset m = NameDataset() m.search_first_name(Mikael) m.search_last_name(Remy)

可靠性说明

数据集强调高精度，适用于基于先验知识验证姓名的情况。
在文本中识别姓名实体时，可能会出现较多误报。

数据来源

数据集从多个网站获取，具体来源列表详见：
- http://listofrandomnames.com/index.cfm?generated
- https://www.sajari.com/public-data
- http://www.20000-names.com/
- https://catalogue.data.gov.bc.ca/dataset/most-popular-boys-names-for-the-past-100-years
- https://catalogue.data.gov.bc.ca/dataset/most-popular-girl-names-for-the-past-100-years
- https://www.nrscotland.gov.uk/statistics-and-data/statistics/statistics-by-theme/vital-events/names/babies-first-names/full-lists-of-babies-first-names-2010-to-2014
- 其他来源详见README文件。

搜集汇总

数据集介绍

构建方式

该数据集的构建旨在创建一个具有高精确度和高召回率的良好数据集。通过整合多个来源的姓名数据，包括但不限于随机姓名生成器、公共数据集、各国流行姓名统计以及电影数据库等，构建了一个包含约16万个姓氏和10万个名字的数据集。

使用方法

使用该数据集非常简便。用户可以通过安装names-dataset Python包，使用NameDataset类进行姓名搜索。该数据集提供了search_first_name和search_last_name方法，分别用于搜索名字和姓氏。此外，数据集还支持对给定文本中的姓名实体进行识别。

背景与挑战

背景概述

First and Last Names Dataset是一个旨在精确识别和区分人名的数据集，创建于近期，由数据科学家和开发者菲利普·雷米（Philippe Remy）主导。该数据集汇集了约160,000个常见第一名和100,000个常见姓氏，来源于多个国家和文化背景。其核心研究问题是提高人名识别的精确度和召回率，对于自然语言处理、实体识别和人名标准化等领域具有重要的研究价值和实际应用意义。

当前挑战

在构建该数据集的过程中，研究团队面临的主要挑战包括如何平衡精确度与召回率，以及如何从众多来源中筛选出有效且准确的人名数据。此外，数据集在处理多文化背景下的人名时，还需克服语言和字符编码的多样性带来的挑战。在应用层面，该数据集在识别文本中的人名实体时可能会产生大量误报，例如将普通名词错误识别为人名，这需要在实际应用中进一步优化算法和模型。

常用场景

经典使用场景

在自然语言处理领域，姓名识别是文本挖掘的重要任务之一。First and Last Names Dataset数据集提供了大约160k个首名和100k个姓氏，旨在通过高精确度和召回率，辅助研究者进行姓名识别和分类。

解决学术问题

该数据集解决了学术研究中姓名识别的准确性问题，提高了对文本中姓名实体的识别精确度，减少了误识别现象，对于提升实体识别算法的性能具有重要的意义和影响。

实际应用

在实际应用中，该数据集可被用于开发自动化的姓名识别系统，如客户身份验证、信息检索和数据分析等，为相关领域的应用提供了可靠的数据基础。

数据集最近研究