中文人名语料库（Chinese-Names-Corpus）

github2020-11-09 更新2024-05-31 收录

下载链接：

https://github.com/DGHeroin/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含中文常见人名、古代人名、姓氏、称呼以及英文和日文人名等多个子数据集，数据大小从数千到数百万不等，来源于亿级人名语料和多个人名词典汇总，经过清洗处理，可用于中文分词和人名识别。

This dataset encompasses multiple sub-datasets including common Chinese names, ancient Chinese names, surnames, titles, as well as English and Japanese names. The data size ranges from several thousand to several million entries, sourced from a corpus of hundreds of millions of names and aggregated from various name dictionaries. After undergoing cleaning processes, it is suitable for use in Chinese word segmentation and name recognition tasks.

创建时间：

2019-03-03

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

数据集概述

中文常见人名（Chinese_Names_Corpus）

数据大小：120万
语料来源：从亿级人名语料中提取
数据清洗：已清洗，但仍存有少量badcase
新增功能：人名生成器

中文古代人名（Ancient_Names_Corpus）

数据大小：25万
语料来源：多个人名词典汇总
数据清洗：已清洗

中文姓氏（Chinese_Family_Name）

数据大小：1千
语料来源：从亿级人名语料中提取
数据清洗：已清洗

中文称呼（Chinese_Relationship）

数据大小：5千（称呼词根）；18万（中文称呼）
语料来源：多个人名词典汇总
数据清洗：已清洗，但仍存有大量badcase

英文人名语料库（English-Names-Corpus）

翻译人名（English_Cn_Name_Corpus）

数据大小：48万
语料来源：多个人名词典汇总
数据清洗：已清洗，但仍存有少量badcase，以地名居多

日文人名语料库（Japanese_Names_Corpus）

日文人名（Japanese_Names_Corpus）

数据大小：18万
数据来源：从维基百科中提取
数据清洗：已清洗，但仍存有少量badcase

中文词典语料库（Chinese_Dict_Corpus）

成语词典（ChengYu_Corpus）

数据大小：5万
语料来源：多个成语词典汇总
数据清洗：已清洗

更新记录

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.04
删除了2600余非人名、或低频人名。 -2019.04.15
删除了约1万余非人名、或低频人名。 -2019.07.27
将文件移动到文件夹。 -2019.10.21
新增人名生成器。 -2020.01.29

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建基于亿级人名语料的提取与多个人名词典的汇总。数据清洗过程严格，尽管仍存在少量badcase，但整体质量较高。该语料库涵盖了中文常见人名、古代人名、姓氏及称呼等多个类别，数据量分别达到120万、25万、1千和5千至18万不等。此外，还包含了英文翻译人名和日文人名，数据量分别为48万和18万。语料库的更新以删除非人名或低频人名为主，确保数据的准确性和实用性。

特点

该数据集的特点在于其广泛的数据来源和严格的数据清洗流程。中文常见人名部分从亿级语料中提取，古代人名和姓氏则通过多个人名词典汇总，确保了数据的多样性和代表性。数据集还包含了英文翻译人名和日文人名，进一步扩展了其应用范围。尽管数据清洗过程中仍存在少量badcase，但整体数据质量较高，适用于中文分词、人名识别等多种自然语言处理任务。

使用方法

中文人名语料库（Chinese-Names-Corpus）的使用方法较为灵活，适用于多种自然语言处理任务。用户可以通过该语料库进行中文分词、人名识别等操作，尤其适合用于开发基于人名识别的应用或工具。数据集中的中文常见人名、古代人名、姓氏及称呼等类别可以单独使用，也可以结合使用，以满足不同场景的需求。此外，数据集还提供了人名生成器功能，用户可以根据需要生成符合特定规则的人名，进一步扩展了其应用场景。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是由业余项目“萌名NameMoe”衍生而来的一个语料库，主要用于中文分词和人名识别。该数据集自2017年起逐步更新，涵盖了中文常见人名、古代人名、姓氏、称呼等多个类别，数据来源包括亿级人名语料和多个人名词典。其创建者通过不断的数据清洗和更新，确保了语料库的准确性和实用性。该语料库在自然语言处理领域具有重要价值，尤其是在中文文本处理和人名识别任务中，为相关研究提供了丰富的数据支持。

当前挑战

中文人名语料库在构建和应用过程中面临多重挑战。首先，数据清洗的复杂性是一个主要问题，尽管已进行了多次清洗，但仍存在少量badcase，尤其是在称呼和翻译人名部分。其次，语料库的更新和维护需要持续投入，以确保数据的时效性和准确性。此外，由于语料库涉及多种语言和文化背景，如何在不同语言之间保持一致性也是一个技术难点。最后，语料库的规模虽然庞大，但在低频人名和非人名的处理上仍需进一步优化，以提高其在具体应用场景中的实用性。

常用场景

经典使用场景

中文人名语料库（Chinese-Names-Corpus）广泛应用于中文自然语言处理领域，特别是在中文分词和人名识别任务中。该数据集通过提供大量经过清洗的中文人名数据，帮助研究人员和开发者构建更加精确的分词模型和命名实体识别系统。其丰富的语料来源和定期的数据更新，确保了模型在处理复杂中文文本时的高效性和准确性。

实际应用

在实际应用中，中文人名语料库被广泛用于智能客服、搜索引擎优化、社交媒体分析等场景。例如，在智能客服系统中，准确识别用户姓名有助于提供个性化的服务体验；在搜索引擎中，精确的人名识别能够提升搜索结果的相关性。此外，该数据集还可用于中文文本生成工具，如取名软件，帮助用户生成符合文化背景的姓名。

衍生相关工作

基于中文人名语料库，许多经典的自然语言处理工作得以衍生。例如，研究人员利用该数据集开发了高效的中文分词工具和命名实体识别系统。此外，该数据集还催生了多个中文文本生成项目，如基于语料库的取名工具“萌名NameMoe”。这些工作不仅提升了中文自然语言处理的技术水平，还为相关领域的应用开发提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成