中文常见人名（Chinese_Names_Corpus）

github2019-04-18 更新2024-05-31 收录

下载链接：

https://github.com/fusijie/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名（一点点小私心）。清洗后仍存有少量badcase。

1.2 million. Extracted from a corpus of hundreds of millions of personal names. Rare surnames and names containing uncommon characters have been removed. A small number of celebrity names were randomly deleted (a slight personal preference). After cleaning, a few bad cases still remain.

创建时间：

2019-01-23

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万
来源：从亿级人名语料中提取
处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名
状态：清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模：25万
来源：多个人名词典汇总
处理：删除了罕见姓氏、带生僻字的人名
状态：清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模：18万
来源：从维基百科中提取
处理：删除了罕见姓氏、带生僻字的人名
状态：清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模：48万
来源：多个人名词典汇总
处理：删除了翻译人名常用字之外的人名，混有少量西化中文人名
状态：清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模：1千
来源：从亿级人名语料中提取
处理：删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

规模：5千（称呼词根），18万（中文称呼）
来源：多个人名词典汇总
处理：删除了部分带贬义的称呼
状态：清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模：5万
来源：多个成语词典汇总
状态：清洗后仍存有少量badcase

数据集更新历史

2017.08.08：删除了1000余非人名
2017.11.25：删除了5000余非人名
2017.12.17：新增了18万日文人名
2017.12.30：删除了1500余非人名（主要是日文地名）
2018.11.04：删除了约3万余非人名、或低频人名

搜集汇总

数据集介绍

构建方式

中文常见人名（Chinese_Names_Corpus）的构建，源于亿级人名语料，经过筛选与清洗，去除了罕见姓氏、生僻字人名及部分名人姓名，确保了数据集的实用性与泛化能力。

使用方法

用户可直接利用该数据集进行中文分词与人名识别的训练与测试。数据集以文本格式存储，用户需根据具体的任务需求，进行适当的预处理，如格式转换、编码统一等，以满足模型的输入要求。

背景与挑战

背景概述

中文常见人名（Chinese_Names_Corpus）数据集，作为业余项目“萌名”的副产品，其创建旨在为中文分词和人名识别提供高质量的语料支持。该数据集自亿级人名语料中提取，经专业人员筛选，去除了罕见姓氏及带有生僻字的人名，并适当随机删除了部分名人姓名，以减少数据集中的偏差。该数据集自推出以来，对于自然语言处理领域，尤其是中文命名实体识别任务，贡献显著，为相关研究提供了宝贵的资源。

当前挑战

尽管中文常见人名数据集在构建过程中采取了多种清洗策略，但仍然面临一些挑战。首先，数据集中存在少量badcase，这些错误案例可能对模型的训练和评估造成干扰。其次，构建过程中如何平衡数据集的多样性和准确性，避免引入过多的噪声数据，是一个持续的挑战。此外，随着语言使用的变迁，数据集的时效性也需要不断更新和维护。在领域问题上，该数据集解决的中文分词和人名识别任务，面临着识别准确率和召回率之间的权衡，以及如何处理多音字和同名人名的挑战。

常用场景

经典使用场景

在自然语言处理领域，中文常见人名（Chinese_Names_Corpus）数据集的典型应用场景是作为训练集，用于提升中文分词和人名识别的准确性。该数据集通过大规模真实人名的集合，为模型训练提供了丰富的样本资源，使得模型能够更好地理解和区分人名与普通词汇。

解决学术问题

该数据集有效地解决了中文自然语言处理中的人名识别问题，提高了分词的精确度，对于避免在文本处理中错误分割人名具有重要意义。它为学术研究提供了可靠的基础数据，对于研究社会语言学、人名文化以及姓名学等领域具有显著影响。

实际应用

在实际应用中，中文常见人名数据集被广泛应用于搜索引擎、社交媒体、智能客服等场景，以增强系统对中文人名的识别能力，优化用户体验，并在信息检索和数据分析中发挥重要作用。

数据集最近研究