Chinese-Names-Corpus
收藏github2019-01-15 更新2024-05-31 收录
下载链接:
https://github.com/jin10086/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含120万常见中文人名、25万古代中文人名、1万日本常见人名、2万英文常见姓或名、1千个中文姓氏、5千称呼词根、18万中文称呼、48万翻译人名。
This dataset comprises 1.2 million common Chinese personal names, 250,000 ancient Chinese personal names, 10,000 common Japanese personal names, 20,000 common English surnames or given names, 1,000 Chinese surnames, 5,000 appellation roots, 180,000 Chinese appellations, and 480,000 translated personal names.
创建时间:
2017-07-21
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)
数据集内容
- 常见中文人名:包含120万人名,已删除名人姓名。
- 古代中文人名:包含25万人名,已删除罕见姓和部分带生僻字的人名。
- 日本常见人名:包含1万人名,数据来源于网络。
- 英文常见姓或名:包含2万人名,数据来源于网络。
- 中文姓氏:包含1千个姓氏,已删除罕见姓,复姓只保留了“欧阳”。
- 称呼词根:包含5千个词根,衍生出18万中文称呼。
- 翻译人名:包含48万人名,混有部分西化中文人名,如“李伯恩”。
数据集整理者
- 整理者:思南斋
- 整理日期:2017年04月23日
搜集汇总
数据集介绍

构建方式
针对中文人名这一特定领域,Chinese-Names-Corpus数据集的构建采取了从网络资源中广泛搜集的方式,涵盖各类人名,经过筛选移除名人姓名、罕见姓氏及生僻字,确保了数据集的普适性与实用性。
使用方法
用户在使用Chinese-Names-Corpus数据集时,可以直接根据数据集的类别进行调用。例如,若需研究古代人名,则可直接引用古代中文人名数据。此外,数据集亦提供了翻译人名,可用于姓名翻译相关的研究,用户可根据具体研究需求进行筛选和应用。
背景与挑战
背景概述
在中文自然语言处理领域,人名的识别与处理是一项基础且关键的任务。Chinese-Names-Corpus人名语料库的构建,旨在为相关研究提供丰富的数据支持。该数据集由@思南斋于2017年整理完成,包含了120万常见中文人名,以及25万古代中文人名,此外还涵盖了1万日本常见人名、2万英文常见姓或名、1千个中文姓氏和5千称呼词根等,是中文命名实体识别研究的重要资源。数据集的构建不仅丰富了中文语言资源库,也为中文信息处理技术的发展提供了有力支撑。
当前挑战
尽管Chinese-Names-Corpus为中文人名识别研究提供了宝贵的资源,但在实际应用中仍面临诸多挑战。首先,由于人名的多样性和复杂性,数据集中对于罕见姓和生僻字的处理可能导致某些场景下的识别准确性下降。其次,数据集中包含了西化中文人名,这在一定程度上增加了人名归一化和标准化的难度。再者,随着社会的发展和人名的变迁,数据集的时效性和覆盖性也需要不断地更新和补充,以适应新的研究需求。
常用场景
经典使用场景
在自然语言处理领域,尤其是命名实体识别(NER)任务中,Chinese-Names-Corpus数据集以其庞大的中文人名语料库,成为训练模型识别中文人名的宝贵资源。该数据集覆盖了从古代到现代,以及不同文化背景下的中文人名,为研究者提供了全面而细致的研究素材。
解决学术问题
Chinese-Names-Corpus数据集解决了中文人名识别中样本量不足、覆盖面不广的问题。它的使用极大地提升了NER模型对中文人名的识别准确率,进而促进了中文文本处理技术的进步,对于语言学、社会学等领域的学术研究具有重要的参考价值。
实际应用
在实际应用中,Chinese-Names-Corpus数据集被广泛应用于搜索引擎的人名检索优化、社交媒体的标签识别,以及智能客服系统中的人名自动识别等场景,显著提高了相关服务的智能化水平。
数据集最近研究
最新研究方向
在自然语言处理与人名识别领域,Chinese-Names-Corpus作为丰富的人名语料库,其最新研究方向聚焦于深度学习模型对人名的识别与归档。研究者们致力于提升模型对于多语种、多文化背景人名的理解和准确度,特别是在处理姓名歧义、罕见姓氏及西化中文人名的归档上。该数据集的运用,不仅有助于提高人名识别系统的性能,也对促进跨文化交流、身份认证等方面具有重要意义。
以上内容由遇见数据集搜集并总结生成



