中文人名语料库(Chinese-Names-Corpus)
收藏github2019-01-18 更新2024-05-31 收录
下载链接:
https://github.com/Samurais/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏、中文称呼等,用于中文分词和人名识别。
This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, translated names, Chinese surnames, and Chinese titles, designed for Chinese word segmentation and name recognition.
创建时间:
2017-12-29
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)
数据集概述
- 来源:业余项目副产品,不定期更新,只删词,不加词。
- 用途:适用于中文分词、人名识别。
数据集细分
中文常见人名(Chinese_Names_Corpus)
- 规模:120万。
- 来源:从亿级人名语料中提取。
- 处理:删除了罕见姓氏、带生僻字的人名,随机删除了部分名人姓名。
- 现状:清洗后仍存有少量badcase。
中文古代人名(Ancient_Names_Corpus)
- 规模:25万。
- 来源:多个人名词典汇总。
- 处理:删除了罕见姓氏、带生僻字的人名。
- 现状:清洗后仍存有少量badcase。
日文人名(Japanese_Names_Corpus)
- 规模:18万。
- 来源:从维基百科中提取。
- 处理:删除了罕见姓氏、带生僻字的人名。
- 现状:清洗后仍存有少量badcase。
翻译人名(English_Cn_Name_Corpus)
- 规模:48万。
- 来源:多个人名词典汇总。
- 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名。
- 现状:清洗后仍存有少量badcase,尤其是英文地名。
中文姓氏(Chinese_Family_Name)
- 规模:1千。
- 来源:从亿级人名语料中提取。
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”。
中文称呼(Chinese_Relationship)
- 规模:5千(称呼词根),18万(中文称呼)。
- 来源:多个人名词典汇总。
- 处理:删除了部分带贬义的称呼。
- 现状:清洗后仍存有大量badcase。
成语词典(ChengYu_Corpus)
- 规模:5万。
- 来源:多个成语词典汇总。
- 现状:清洗后仍存有少量badcase。
更新记录
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1000余非人名(主要是日文地名)。 -2017.12.28
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建是基于大规模人名数据的筛选与清洗。该语料库从亿级人名数据中提取,通过删除罕见姓氏、生僻字人名以及部分名人姓名等步骤,构建出适用于中文分词和人名识别的多个子语料库,包括常见人名、古代人名、日文人名、翻译人名、中文姓氏、中文称呼以及成语词典。
特点
该数据集的特点在于其规模宏大,针对性和实用性强。各子语料库均针对特定需求进行了优化,如删除了罕见和生僻的人名,减少了badcase的干扰。同时,数据集涵盖了从古代到现代,以及不同文化背景的人名数据,丰富了语料库的类型和内容。
使用方法
用户可以通过GitHub页面直接获取该数据集。在使用时,可根据具体研究需求选择相应的子语料库。数据集适用于自然语言处理中的中文分词和人名识别任务,用户需自行进行数据清洗和预处理,以确保数据质量符合研究要求。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)的构建,旨在为自然语言处理领域的研究者提供一份全面且实用的中文人名相关数据集。该数据集的创建起始于一个业余项目,由@思南斋整理,并在2017年12月28日进行了最后一次更新。该数据集的诞生,不仅丰富了中文自然语言处理领域的数据资源,而且对中文分词和人名识别等任务的研究与开发具有显著的推动作用。
当前挑战
在构建中文人名语料库的过程中,研究者面临着多方面的挑战。首先,如何从海量的人名数据中提取出具有普遍性的常见人名,同时避免罕见姓氏和生僻字的影响,是一个技术性难题。其次,数据清洗过程中,确保badcase的尽可能减少,以提升数据集的质量和实用性,同样是一大挑战。此外,针对特定类型的人名,如古代人名、日文人名、翻译人名等,其收集和整理也存在着独特的难题,需要精确的策略和方法来确保数据的准确性和多样性。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛应用于中文分词与人名识别任务中,其庞大的数据量为算法提供了充足的训练样本,从而有效提高了分词与人名识别的准确性。
解决学术问题
该数据集解决了中文文本处理中的人名识别难题,为研究者在命名实体识别、文本分类、信息抽取等学术问题提供了有力支持,对推动中文自然语言处理技术的发展具有重要意义。
衍生相关工作
基于该数据集,研究者们衍生出一系列相关工作,如人名消歧、人名标准化、文本数据清洗等,进一步推动了中文自然语言处理领域的研究与应用发展。
以上内容由遇见数据集搜集并总结生成



