中文人名语料库（Chinese-Names-Corpus）

github2021-11-22 更新2024-05-31 收录

下载链接：

https://github.com/Explorer1092/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多种类型的人名数据集，如中文常见人名、古代人名、姓氏、称呼等，数据大小从数千到数百万不等，来源广泛，经过数据清洗处理。

This dataset encompasses a variety of personal names, including common Chinese names, ancient names, surnames, and titles. The data volume ranges from several thousand to several million entries, sourced from a wide array of origins and has undergone thorough data cleaning processes.

创建时间：

2018-11-22

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

中文常见人名（Chinese_Names_Corpus）

数据大小：120万。
语料来源：从亿级人名语料中提取。
数据清洗：已清洗，但仍存有少量badcase。

中文古代人名（Ancient_Names_Corpus）

数据大小：25万。
语料来源：多个人名词典汇总。
数据清洗：已清洗。

中文姓氏（Chinese_Family_Name）

数据大小：1千。
语料来源：从亿级人名语料中提取。
数据清洗：已清洗。

中文称呼（Chinese_Relationship）

数据大小：5千，称呼词根；18万，中文称呼。
语料来源：多个人名词典汇总。
数据清洗：已清洗，但仍存有大量badcase。

英文人名语料库（English-Names-Corpus）

翻译人名（English_Cn_Name_Corpus）

数据大小：48万。
语料来源：多个人名词典汇总。
数据清洗：已清洗，但仍存有少量badcase，以地名居多。

日文人名语料库（Japanese_Names_Corpus）

日文人名（Japanese_Names_Corpus）

数据大小：18万。
数据来源：从维基百科中提取。
数据清洗：已清洗，但仍存有少量badcase。

中文词典语料库（Chinese_Dict_Corpus）

成语词典（ChengYu_Corpus）

数据大小：5万。
语料来源：多个成语词典汇总。
数据清洗：已清洗。

更新记录

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.04
删除了2600余非人名、或低频人名。 -2019.04.15
删除了约1万余非人名、或低频人名。 -2019.07.27
将文件移动到文件夹。 -2019.10.21
新增人名生成器。 -2020.01.29
删除了约6万余非人名、或低频人名。 -2020.12.13
更新人名生成器。 -2021.11.22
删除了约700余非人名、或低频人名。 -2022.11.30

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建基于大数据和自然语言处理技术。通过分词工具对海量文本进行分词和词频统计，经过数据清洗后，形成了千万级的人名词典。在此基础上，进一步对数据进行性别、年龄、拼音、情感、人名指数等多维度标记，最终构建了包含5600万+中文人名的人名图谱。数据来源包括亿级人名语料、多个人名词典以及维基百科等，确保了数据的广泛性和多样性。

特点

该数据集涵盖了中文常见人名、古代人名、姓氏、称呼等多个子集，数据规模庞大且分类细致。中文常见人名子集包含120万条数据，古代人名子集包含25万条数据，姓氏子集包含1千条数据，称呼子集包含5千条词根和18万条中文称呼。此外，数据集还提供了英文和日文人名语料库，进一步扩展了其应用范围。数据经过多次清洗，但仍保留了少量badcase，反映了真实语料的复杂性。

使用方法

中文人名语料库适用于中文分词、人名识别、自然语言处理等场景。用户可以通过加载数据集，利用其丰富的标注信息进行人名识别模型的训练与优化。此外，数据集还提供了人名生成器功能，可用于生成符合特定条件的中文人名。对于研究古代文化或跨语言人名识别的用户，古代人名和日文人名子集提供了宝贵的资源。使用过程中，建议结合数据清洗工具进一步优化数据质量，以提高模型性能。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是由萌名（NameMoe）团队基于大数据和自然语言处理技术构建的综合性人名数据集。该数据集创建于2017年，主要研究人员通过分词工具对海量文本进行分词和词频统计，经过数据清洗后，形成了包含5600万+中文人名图谱的庞大语料库。该数据集不仅涵盖了现代中文人名，还包括古代人名、姓氏、称呼等多个子集，广泛应用于中文分词、人名识别等自然语言处理任务。其构建过程体现了对中文命名文化的深入理解，并为相关领域的研究提供了重要的数据支持。

当前挑战

中文人名语料库在构建过程中面临多重挑战。首先，数据清洗的复杂性不容忽视，尽管经过多次清洗，仍存在少量badcase，尤其是在称呼和翻译人名部分。其次，人名识别任务本身具有较高的难度，尤其是在处理低频人名或非标准命名时，容易产生误判。此外，跨语言人名（如日文人名）的识别与清洗也带来了额外的复杂性，特别是在区分人名与地名时。这些挑战不仅影响了数据集的精度，也对后续的自然语言处理任务提出了更高的要求。

常用场景

经典使用场景

中文人名语料库（Chinese-Names-Corpus）广泛应用于自然语言处理领域，尤其是在中文分词和人名识别任务中。该数据集通过海量文本的分词和词频统计，构建了包含5600万+的中文人名图谱，为研究者提供了丰富的语料资源。在中文信息处理系统中，该数据集常被用于提升人名识别的准确性和分词系统的性能，尤其在处理复杂的中文文本时，能够有效识别和区分人名与其他词汇。

解决学术问题

中文人名语料库解决了中文自然语言处理中的关键问题，如人名识别的模糊性和分词系统的精度提升。通过对海量文本的分词和词频统计，该数据集为研究者提供了高质量的人名语料，支持性别、年龄、拼音等多维度标记，显著提升了人名识别的准确性和分词系统的鲁棒性。此外，该数据集还为中文命名实体识别、情感分析等任务提供了重要支持，推动了中文自然语言处理技术的发展。

衍生相关工作

中文人名语料库的发布催生了一系列相关研究工作，尤其是在中文自然语言处理领域。基于该数据集，研究者开发了多种人名识别算法和分词工具，显著提升了中文文本处理的效率。此外，该数据集还支持了中文命名实体识别、情感分析等任务的研究，推动了相关领域的技术进步。例如，基于该数据集的人名生成器工具，为中文取名和文化研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成