Chinese-Names-Corpus

github2019-07-14 更新2024-05-31 收录

下载链接：

https://github.com/5up3rc/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含120万常见中文人名、25万古代中文人名、1万日本常见人名、2万英文常见姓或名、1千个中文姓氏、5千称呼词根及18万中文称呼。名人姓名和罕见姓、生僻字已删除。

This dataset comprises 1.2 million common Chinese personal names, 250,000 ancient Chinese personal names, 10,000 common Japanese personal names, 20,000 common English surnames or given names, 1,000 Chinese surnames, 5,000 appellation roots, and 180,000 Chinese appellations. Celebrity names and rare surnames, as well as uncommon characters, have been excluded.

创建时间：

2017-04-12

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集内容

常见中文人名：包含120万个常见中文人名，已删除名人姓名。
古代中文人名：包含25万个古代中文人名，已删除罕见姓和部分带生僻字的人名。
日本常见人名：包含1万个日本常见人名，数据来源于网络。
英文常见姓或名：包含2万个英文常见姓或名，数据来源于网络。
中文姓氏：包含1千个中文姓氏，已删除罕见姓，复姓仅保留“欧阳”。
称呼词根与称呼：包含5千个称呼词根和18万个中文称呼。

后续更新计划

翻译人名：预计将增加10万个翻译人名。

搜集汇总

数据集介绍

构建方式

该数据集，Chinese-Names-Corpus，通过广泛搜集与精心筛选的方式构建而成。其主体由120万常见中文人名构成，并在此基础上，纳入了25万古代中文人名以及1万日本常见人名，同时辅以2万英文常见姓或名，以及1千个中文姓氏和5千称呼词根，形成了丰富而多元的人名语料库。

特点

该数据集的特点在于其覆盖面广，包含现代与古代中文人名，同时还涉及日本与英文人名，体现了跨文化的特色。特别值得一提的是，数据集中对于罕见姓及生僻字的处理，确保了其实用性和准确性。另外，18万中文称呼的收录，更是增添了数据集的实用价值。

使用方法

用户在使用该数据集时，可以根据具体的研究需求，选择相应的人名子集。数据集以纯文本形式提供，易于导入和处理。针对后续可能的翻译人名更新，用户也需关注数据集的动态更新，以便获取最新的数据资源。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一项旨在丰富自然语言处理领域中文姓名识别资源的重要数据集。该数据集由思南斋于2017年整理完成，包含120万常见中文人名，25万古代中文人名，以及从网络搜集的1万日本常见人名和2万英文常见姓或名。该数据集的核心在于为研究中文姓名的分布规律、文化特征以及姓名识别算法提供基础资源，对中文信息处理、姓名自动识别等领域产生了深远影响。

当前挑战

在构建中文人名语料库的过程中，研究者面临着多方面的挑战。首先，确保人名的真实性和普遍性是一项基础而艰巨的任务，尤其是在筛选和删除罕见姓氏与生僻字时。其次，人名的多样性和复杂性使得构建一个全面且具有代表性的语料库成为难题。此外，随着国际交流的加深，翻译人名的需求日益增长，而翻译的准确性和一致性也是当前数据集更新所面临的挑战之一。

常用场景

经典使用场景

在自然语言处理与人名识别的研究领域，Chinese-Names-Corpus数据集被广泛用于训练模型以识别和生成中文人名。其详尽的常见人名收录，为模型提供了丰富的训练样本，使得人名识别算法能够更加精确地处理真实世界中的文本数据。

解决学术问题

该数据集解决了中文人名识别中因姓名多样性、罕见字和不规范书写所带来的难题，为人名消歧、文本数据挖掘、信息检索等学术研究提供了坚实基础。它促进了中文命名实体识别技术的发展，对于提升中文信息处理质量具有重要意义。

衍生相关工作

基于此数据集，研究者们衍生出一系列相关工作，包括人名生成模型、人名标准化处理、跨语种人名翻译等领域的探索，进一步推动了中文人名处理技术的进步和国际化交流。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集