中文人名语料库(Chinese-Names-Corpus)
收藏github2019-01-07 更新2024-05-31 收录
下载链接:
https://github.com/howl-anderson/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名等,总计超过200万条记录,用于中文分词和人名识别。
This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition.
创建时间:
2018-12-03
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集组成
中文常见人名(Chinese_Names_Corpus)
- 规模: 120万
- 来源: 从亿级人名语料中提取
- 处理: 删除了罕见姓氏、带生僻字的人名及部分名人姓名
- 问题: 清洗后仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 规模: 25万
- 来源: 多个人名词典汇总
- 处理: 删除了罕见姓氏、带生僻字的人名
- 问题: 清洗后仍存有少量badcase
日文人名(Japanese_Names_Corpus)
- 规模: 18万
- 来源: 从维基百科中提取
- 处理: 删除了罕见姓氏、带生僻字的人名
- 问题: 清洗后仍存有少量badcase
翻译人名(English_Cn_Name_Corpus)
- 规模: 48万
- 来源: 多个人名词典汇总
- 处理: 删除了翻译人名常用字之外的人名
- 问题: 清洗后仍存有少量badcase,尤其是英文地名
中文姓氏(Chinese_Family_Name)
- 规模: 1千
- 来源: 从亿级人名语料中提取
- 处理: 删除了罕见姓氏,复姓只保留了“欧阳”
中文称呼(Chinese_Relationship)
- 规模: 5千(称呼词根),18万(中文称呼)
- 来源: 多个人名词典汇总
- 处理: 删除了部分带贬义的称呼
- 问题: 清洗后仍存有大量badcase
成语词典(ChengYu_Corpus)
- 规模: 5万
- 来源: 多个成语词典汇总
- 问题: 清洗后仍存有少量badcase
数据集更新记录
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30
- 删除了约3万余非人名、或低频人名。 -2018.11.4
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建主要采取从大规模人名语料中提取并清洗的方式。具体而言,该语料库从亿级人名数据中提炼出常见人名、古代人名、日文人名、翻译人名等多个子集,并对罕见姓氏、生僻字及带有贬义或特殊含义的称呼进行了剔除,旨在提升语料库的纯净度和实用性。
特点
该数据集的特点在于其规模宏大,覆盖了中文常见人名、古代人名、日文人名等多个维度,同时经过精细化的清洗工作,减少了badcase的干扰。此外,数据集还包含了中文姓氏和称呼的语料,丰富了其在中文分词和人名识别等自然语言处理领域的应用范围。
使用方法
用户可通过直接访问该数据集GitHub仓库来获取数据,数据以文本格式存储,便于导入和使用。适用于中文分词、人名识别等研究或应用场景。在使用过程中,用户应遵守数据使用规范,合理利用数据集资源,避免滥用。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一项旨在为中文分词和人名识别提供高质量语料的数据集项目,由业余项目“萌名”衍生而来。该数据集的创建始于对亿级人名语料进行筛选、清洗和整理,旨在构建一个适用于自然语言处理领域的基础资源库。自项目启动以来,该数据集在中文信息处理领域产生了广泛影响,成为研究者和开发者的重要资源。
当前挑战
在构建中文人名语料库的过程中,研究者面临了多方面的挑战。首先,如何在庞大的数据中筛选出常见且具有代表性的中文人名,同时排除罕见和生僻的姓名,是一大难题。其次,数据清洗过程中,如何准确识别并删除非人名数据,尤其是区分人名与地名的挑战。此外,由于人名具有丰富的文化内涵和多样性,如何确保语料库的广泛适用性和准确性,也是持续面临的挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛用于中文分词与人名识别的研究。其丰富的数据资源为模型训练提供了坚实基础,使得研究者能够构建出更加精准的语言模型,以识别和解析文本中的人名信息。
实际应用
在实际应用中,中文人名语料库被应用于搜索引擎、语音识别、推荐系统等,提高了这些系统处理中文文本的准确性和智能化水平,从而优化了用户体验。
衍生相关工作
基于该语料库,研究人员衍生出了一系列相关工作,如人名生成模型、人名相似度计算等,进一步拓展了人名语料库的应用范围,并促进了相关领域的学术研究进展。
以上内容由遇见数据集搜集并总结生成



