中文人名语料库（Chinese-Names-Corpus）

github2020-11-02 更新2024-05-31 收录

下载链接：

https://github.com/hgznull/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含中文常见人名、中文古代人名、中文姓氏、中文称呼、英文人名、日文人名等多个子数据集，数据大小从数千到数百万不等，主要用于中文分词和人名实体识别。

This dataset encompasses multiple sub-datasets including common Chinese personal names, ancient Chinese personal names, Chinese surnames, Chinese titles, English personal names, and Japanese personal names, with data sizes ranging from several thousand to several million. It is primarily utilized for Chinese word segmentation and personal name entity recognition.

创建时间：

2020-09-26

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

数据集概述

中文常见人名（Chinese_Names_Corpus）

数据大小：120万。
语料来源：从亿级人名语料中提取。
数据清洗：已清洗，但仍存有少量badcase。
新增功能：人名生成器。

中文古代人名（Ancient_Names_Corpus）

数据大小：25万。
语料来源：多个人名词典汇总。
数据清洗：已清洗。

中文姓氏（Chinese_Family_Name）

数据大小：1千。
语料来源：从亿级人名语料中提取。
数据清洗：已清洗。

中文称呼（Chinese_Relationship）

数据大小：5千（称呼词根）；18万（中文称呼）。
语料来源：多个人名词典汇总。
数据清洗：已清洗，但仍存有大量badcase。

英文人名语料库（English-Names-Corpus）

翻译人名（English_Cn_Name_Corpus）

数据大小：48万。
语料来源：多个人名词典汇总。
数据清洗：已清洗，但仍存有少量badcase，以地名居多。

日文人名语料库（Japanese_Names_Corpus）

日文人名（Japanese_Names_Corpus）

数据大小：18万。
数据来源：从维基百科中提取。
数据清洗：已清洗，但仍存有少量badcase。

中文词典语料库（Chinese_Dict_Corpus）

成语词典（ChengYu_Corpus）

数据大小：5万。
语料来源：多个成语词典汇总。
数据清洗：已清洗。

更新记录

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.04
删除了2600余非人名、或低频人名。 -2019.04.15
删除了约1万余非人名、或低频人名。 -2019.07.27
将文件移动到文件夹。 -2019.10.21
新增人名生成器。 -2020.01.29

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建基于大规模的人名数据提取与清洗。该数据集从亿级人名语料中筛选出常见的中文人名，并结合多个古代人名词典和姓氏词典进行汇总。数据清洗过程中，尽管已尽力去除非人名和低频人名，但仍存在少量badcase。此外，数据集还包含了从维基百科提取的日文人名和多个成语词典汇总的成语数据，确保了数据的多样性和广泛性。

特点

该数据集涵盖了120万中文常见人名、25万中文古代人名、1千中文姓氏、5千称呼词根及18万中文称呼，以及48万翻译人名和18万日文人名。数据集的特点在于其广泛的数据来源和严格的数据清洗流程，确保了数据的准确性和实用性。尽管存在少量badcase，但其丰富的人名资源和多语言支持使其成为中文分词、人名识别等任务的重要参考。

使用方法

中文人名语料库适用于中文分词、人名识别等自然语言处理任务。用户可以通过加载数据集中的不同子集，如中文常见人名、古代人名、姓氏等，进行相关研究或应用开发。数据集还提供了人名生成器功能，用户可以根据需求生成符合特定规则的人名。此外，数据集的多语言支持使其能够应用于跨语言的人名识别和翻译任务，为相关领域的研究提供了便利。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是由业余项目“萌名NameMoe”衍生而来的一个语料库，主要用于中文分词和人名识别。该数据集自2017年起逐步更新，涵盖了中文常见人名、古代人名、姓氏、称呼等多个子集，数据总量超过120万条。语料来源广泛，包括亿级人名语料和多个人名词典，经过多次数据清洗，但仍存在少量badcase。该数据集在自然语言处理领域具有重要应用价值，尤其是在中文分词和人名识别任务中，为相关研究提供了丰富的数据支持。

当前挑战

中文人名语料库在构建和应用过程中面临多重挑战。首先，数据清洗的复杂性是一个主要问题，尽管经过多次清洗，仍存在少量badcase，尤其是非人名或低频人名的混入，影响了数据的纯净度。其次，语料来源的多样性导致数据格式和质量不一致，增加了数据整合的难度。此外，人名识别任务本身具有较高的复杂性，尤其是在处理多音字、同音字以及跨文化人名时，模型的准确性和鲁棒性面临严峻考验。最后，数据集的更新和维护需要持续投入，以确保数据的时效性和完整性。

常用场景

经典使用场景

中文人名语料库（Chinese-Names-Corpus）在自然语言处理领域中被广泛应用于中文分词和人名识别任务。该数据集通过提供大量经过清洗的中文人名数据，帮助研究人员和开发者构建更精确的分词模型和命名实体识别系统。特别是在处理中文文本时，人名识别往往是一个复杂且具有挑战性的任务，而该数据集为这一领域的研究提供了坚实的基础。

衍生相关工作

中文人名语料库的发布催生了一系列相关研究与应用。例如，基于该数据集的研究成果被用于改进中文分词算法，提升了命名实体识别的准确率。此外，该数据集还激发了人名生成器的开发，为个性化取名提供了技术支持。这些衍生工作不仅丰富了中文自然语言处理的研究内容，也为实际应用场景提供了更多可能性。

数据集最近研究