中文人名语料库(Chinese-Names-Corpus)
收藏github2019-06-28 更新2024-05-31 收录
下载链接:
https://github.com/guoyu07/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,总计超过200万条记录,用于中文分词和人名识别。
This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition.
创建时间:
2018-12-04
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集组成
中文常见人名(Chinese_Names_Corpus)
- 规模:120万
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
- 现状:清洗后仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 规模:25万
- 来源:多个人名词典汇总
- 处理:删除了罕见姓氏、带生僻字的人名
- 现状:清洗后仍存有少量badcase
日文人名(Japanese_Names_Corpus)
- 规模:18万
- 来源:从维基百科中提取
- 处理:删除了罕见姓氏、带生僻字的人名
- 现状:清洗后仍存有少量badcase
翻译人名(English_Cn_Name_Corpus)
- 规模:48万
- 来源:多个人名词典汇总
- 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
- 现状:清洗后仍存有少量badcase,尤其是英文地名
中文姓氏(Chinese_Family_Name)
- 规模:1千
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”
中文称呼(Chinese_Relationship)
- 称呼词根规模:5千
- 中文称呼规模:18万
- 来源:多个人名词典汇总
- 处理:删除了部分带贬义的称呼
- 现状:清洗后仍存有大量badcase
成语词典(ChengYu_Corpus)
- 规模:5万
- 来源:多个成语词典汇总
- 现状:清洗后仍存有少量badcase
更新历史
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30
- 删除了约3万余非人名、或低频人名。 -2018.11.04
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建,是从亿级人名语料中提取出常见人名、古代人名、日文人名、翻译人名等,并经过删除罕见姓氏、生僻字以及部分名人姓名等步骤,以清洗后仍含有少量badcase的形态呈现,旨在为中文分词和人名识别提供准确的数据支持。
特点
该数据集特色在于其丰富的数据来源和精细的数据清洗过程,涵盖了从古代到现代,从国内到国外的广泛人名数据,同时确保了数据的实用性和准确性。特别值得一提的是,对于姓氏和称呼的独立整理,为相关研究提供了更为专业的语料。
使用方法
用户可以直接从数据集中提取所需的人名语料进行研究和应用。需要注意的是,数据集可能包含少量的错误数据,即badcase,使用时需进行进一步的筛选和校验。此外,数据集支持不定期更新,用户应关注最新版本以获得最优数据资源。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一项旨在为自然语言处理领域提供基础资源的业余项目产物,其创建可追溯至对取名工具'萌名'的研发过程中。该语料库由大量中文常见人名、古代人名、日文人名、翻译人名、中文姓氏以及中文称呼组成,共计约138万人名相关数据。该数据集的创建,不仅丰富了中文人名识别领域的可用资源,而且对中文分词、命名实体识别等自然语言处理任务具有重要的研究价值。自2017年起,该数据集经历了多次更新与优化,删除了大量非人名及低频人名,提升了数据质量。项目由@萌名整理维护,对相关领域产生了积极的影响。
当前挑战
在构建中文人名语料库的过程中,研究人员面临了诸多挑战。首先,人名数据的收集与清洗过程中,如何准确识别并去除罕见姓氏、生僻字及非人名数据是一大难题。其次,针对数据集中可能存在的badcase,需要不断迭代优化清洗策略,确保语料库的纯净度和实用性。此外,翻译人名中混有的西化中文人名及英文地名的处理,也增加了数据集构建的复杂性。在研究领域,如何利用该语料库解决中文人名识别中的歧义问题,以及如何进一步提升人名识别的准确率和召回率,是当前研究者需要克服的关键挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛用于中文分词与人名识别任务。该数据集以其庞大的样本量和精细的数据清洗,为模型训练提供了坚实基础,成为研究者在设计算法时的首选资源。
衍生相关工作
基于该数据集,研究者们衍生出了一系列相关的工作,如构建更加完善的人名识别模型、研究人名的语言特性等,推动了中文自然语言处理领域的发展,并促进了相关技术的进步。
数据集最近研究
最新研究方向
中文人名语料库(Chinese-Names-Corpus)在自然语言处理领域中,特别是中文分词和人名识别方面的研究占据着重要地位。近期研究聚焦于提升人名识别的准确性,尤其是在处理低频人名和罕见姓氏时的鲁棒性。该数据集的应用推动了中文命名实体的识别技术,对于构建精准的中文文本分析模型具有显著影响。同时,古代人名和日文人名的集成研究,为跨文化和历史文本挖掘提供了宝贵资源。
以上内容由遇见数据集搜集并总结生成



