Chinese-Names-Corpus
收藏github2019-11-16 更新2024-05-31 收录
下载链接:
https://github.com/manning23/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含120万常见中文人名、25万古代中文人名、1万日本常见人名、2万英文常见姓或名、1千个中文姓氏以及5千称呼词根和18万中文称呼。
This dataset comprises 1.2 million common Chinese personal names, 250,000 ancient Chinese personal names, 10,000 common Japanese personal names, 20,000 common English surnames or given names, 1,000 Chinese surnames, as well as 5,000 appellation roots and 180,000 Chinese appellations.
创建时间:
2017-04-12
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集内容
- 常见中文人名:包含120万人名,已删除名人姓名。
- 古代中文人名:包含25万人名,已删除罕见姓和部分带生僻字的人名。
- 日本常见人名:包含1万人名,数据来源于网络。
- 英文常见姓或名:包含2万人名,数据来源于网络。
- 中文姓氏:包含1千个姓氏,已删除罕见姓,复姓中只保留了“欧阳”。
- 称呼词根:包含5千个词根,衍生出18万中文称呼。
后续更新计划
- 计划添加翻译人名,预计数量为10万个。
搜集汇总
数据集介绍

构建方式
Chinese-Names-Corpus人名语料库的构建,采取了对常见及古代中文人名的广泛搜集,并经过了精心筛选与清洗。该数据集整合了120万常见中文人名,去除了名人姓名以避免数据偏差。同时,收录了25万古代中文人名,并剔除了部分生僻字和罕见姓氏,以提高数据的可用性和准确性。此外,数据集中还包含了1万日本常见人名及2万英文常见姓或名,以及通过网络搜集的1千个中文姓氏和5千称呼词根,构建成为一个多维度的人名语料库。
特点
该数据集的特点在于其规模宏大,覆盖面广,不仅包含了现代常用的人名,也纳入了古代人名,为研究人名文化提供了丰富的素材。同时,通过去除名人和生僻字,数据集更加适用于自然语言处理相关任务,如命名实体识别等。此外,该数据集的国际化特点,即包含了日本和英文人名,使得其在跨文化交流和语言学习领域同样具有应用价值。
使用方法
用户在使用Chinese-Names-Corpus数据集时,可以将其应用于中文命名实体识别、人名预测、自然语言处理模型训练等多种场景。数据集以文本格式存储,易于导入和使用。用户在处理数据时,应首先对数据集进行必要的预处理,如格式转换、数据清洗等。针对未来的翻译人名更新,用户可关注数据集的后续版本,以便获得更加全面的人名语料资源。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一项旨在为自然语言处理领域提供丰富中文人名数据资源的研究成果,创建于2017年4月2日,由@思南斋整理。该数据集涵盖了120万常见中文人名,25万古代中文人名,以及1万日本常见人名和2万英文常见姓或名,为研究人名识别、姓氏分类及文化传承等领域提供了宝贵的资料。其核心研究问题聚焦于中文人名的结构特征及其在自然语言处理中的应用,对中文信息处理、姓名学以及社会语言学等领域产生了重要影响。
当前挑战
尽管Chinese-Names-Corpus为相关研究提供了有力支撑,但在构建和使用过程中亦面临诸多挑战。首先,该数据集在构建过程中遇到了如何准确筛选和分类人名的难题,尤其是古代人名中存在的大量生僻字和罕见姓氏的处理。其次,数据集的领域问题在于如何有效应用于自然语言处理中的命名实体识别(NER),特别是对于多音字、同音词和人名变体等识别的准确性。此外,数据集的后续更新,如翻译人名的添加,也面临着如何保持数据一致性和扩展性的挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名识别是文本挖掘与信息提取的重要任务。Chinese-Names-Corpus作为一份全面的人名语料库,其经典使用场景主要在于为机器学习模型提供训练数据,以辅助模型准确识别和标注文本中的中文人名,提升实体识别的精确度。
实际应用
在实用层面,该数据集可应用于搜索引擎、社交媒体、内容审核等场景,有效辅助用户信息的筛选与分类,提升信息处理的智能化水平,为互联网内容管理提供技术支持。
衍生相关工作
基于Chinese-Names-Corpus,研究者们衍生出诸多相关工作,如构建更为复杂的命名实体识别系统,对人名进行跨语种的对应研究,以及结合深度学习技术对人名进行更为精细的属性标注等,推动了中文自然语言处理领域的深入研究。
以上内容由遇见数据集搜集并总结生成



