Chinese-Names-Corpus

github2017-12-22 更新2024-05-31 收录

下载链接：

https://github.com/coffeehb/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含120万常见中文人名，已删除名人姓名；25万古代中文人名，已删除罕见姓和部分带生僻字的人名；1万日本常见人名；2万英文常见姓或名；1千个中文姓氏，已删除罕见姓，复姓只保留了‘欧阳’；5千称呼词根，18万中文称呼；48万翻译人名，混有部分西化中文人名，如‘李伯恩’。

本数据集汇聚了共计一百二十万例的通用中文人名，其中已剔除知名人士的姓名；此外，还包括二十五万古代中文人名，已筛除罕见姓氏及部分包含生僻字的姓名；一万例日本常用人名；两万例英文常见姓氏或人名；一千个已被精选的中文姓氏，其中罕见姓氏已被移除，复合姓氏仅保留了‘欧阳’；五千个称呼词根，以及十八万例中文称呼用语；另外，还包含四十八万翻译人名，其中混有部分西化的中文人名，例如‘李伯恩’。

创建时间：

2017-05-25

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

数据集概述

中文人名：包含120万常见中文人名，已删除名人姓名。
古代中文人名：包含25万古代中文人名，已删除罕见姓和部分带生僻字的人名。
日本常见人名：包含1万日本常见人名，数据来源于网络。
英文常见姓或名：包含2万英文常见姓或名，数据来源于网络。
中文姓氏：包含1千个中文姓氏，已删除罕见姓，复姓仅保留“欧阳”。
称呼词根：包含5千称呼词根，衍生出18万中文称呼。
翻译人名：包含48万翻译人名，混有部分西化中文人名，如“李伯恩”。

数据集整理者

整理者：思南斋
整理日期：2017年04月23日

搜集汇总

数据集介绍

构建方式

针对中文人名的语言学研究需求，Chinese-Names-Corpus数据集通过广泛收集与精心筛选相结合的方式构建而成。该数据集汇集了各类中文人名，并经过筛选移除名人姓名及生僻字姓名，确保了数据的普遍性与实用性。

特点

该数据集特色在于其规模宏大，包含了120万常见中文人名，25万古代中文人名，以及来自不同文化背景的日本与英文名字。特别地，对于中文姓氏的处理，数据集特意删除了罕见姓和大部分复姓，保留了普遍使用的千个中文姓氏，以及丰富的中文称呼词根和翻译人名，增强了其在语言处理任务中的适用性。

使用方法

用户可直接访问该数据集，根据不同的研究或应用需求进行筛选与利用。数据集以纯文本形式提供，便于整合入各类自然语言处理系统。用户在使用时，应遵循数据集的版权和使用规定，确保研究目的的合法性与正当性。

背景与挑战

背景概述

在自然语言处理领域，特别是在中文命名实体识别任务中，高质量的数据集对于模型训练和评估至关重要。Chinese-Names-Corpus中文人名语料库，创建于2017年，由思南斋整理，旨在为研究者提供一个丰富的中文人名数据资源。该数据集包含了120万常见中文人名，25万古代中文人名，以及从网络收集的1万日本常见人名和2万英文常见姓或名等，为中文命名实体的研究提供了坚实的数据基础，对推动相关领域的技术发展产生了显著影响。

当前挑战

尽管Chinese-Names-Corpus为研究领域提供了宝贵的资源，但在实际应用中仍面临诸多挑战。首先，数据集中名人姓名的删除可能导致某些特定研究场景下的信息缺失。其次，古代人名的收集可能因生僻字的删除而影响数据集的完整性。此外，数据集在构建过程中对于罕见姓和复姓的处理，可能限制了其在某些细分领域的适用性。同时，数据集的多样性和覆盖范围在应对跨文化命名实体识别时，也存在着一定的局限性。

常用场景

经典使用场景

在自然语言处理领域，中文人名识别是文本挖掘与信息提取的重要环节。Chinese-Names-Corpus作为一个庞大的中文人名字符串集合，其经典的使用场景主要在于为名实体识别系统提供训练数据，进而实现对中文文本中人名的自动识别与标注。

解决学术问题

该数据集解决了中文人名识别中样本量不足、人名多样化及含有生僻字等问题，为学术研究提供了丰富的、经过筛选的实验样本，有助于提升名实体识别的准确性和鲁棒性，对语言学研究、姓名学及社会人口学等领域同样具有重要的参考价值。

衍生相关工作

基于Chinese-Names-Corpus，研究者们开展了一系列相关的经典工作，包括但不限于人名识别算法的研究、中文命名规则的分析、以及跨语言人名翻译的标准化研究，为相关领域的发展奠定了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集