中文人名语料库(Chinese-Names-Corpus)
收藏github2018-12-24 更新2024-05-31 收录
下载链接:
https://github.com/yjr930/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名等,每个数据集都有详细的描述和来源说明。
This dataset encompasses multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, each accompanied by detailed descriptions and source information.
创建时间:
2017-12-26
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集组成
-
中文常见人名(Chinese_Names_Corpus)
- 数量:120万
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
-
中文古代人名(Ancient_Names_Corpus)
- 数量:25万
- 来源:多个人名词典汇总
- 处理:删除了罕见姓氏、带生僻字的人名
-
日文人名(Japanese_Names_Corpus)
- 数量:18万
- 来源:从维基百科中提取
- 处理:删除了罕见姓氏、带生僻字的人名
-
翻译人名(English_Cn_Name_Corpus)
- 数量:48万
- 来源:多个人名词典汇总
- 处理:删除了翻译人名常用字之外的人名
-
中文姓氏(Chinese_Family_Name)
- 数量:1千
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”
-
中文称呼(Chinese_Relationship)
- 称呼词根数量:5千
- 中文称呼数量:18万
- 来源:多个人名词典汇总
- 处理:删除了部分带贬义的称呼
-
成语词典(ChengYu_Corpus)
- 数量:5万
- 来源:多个成语词典汇总
数据集更新记录
- 2017.08.08:删除了1000余非人名
- 2017.11.25:删除了5000余非人名
- 2017.12.17:新增了18万日文人名
数据集用途
- 可用于中文分词、人名识别
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建,是从海量人名语料中提取出具有代表性的中文人名,经过筛选和清洗,去除了罕见姓氏和含有生僻字的人名,同时为了确保数据质量,还随机删除了部分名人姓名,以减少数据集中可能存在的偏差。该语料库涵盖了不同类型的人名,如常见人名、古代人名、日文人名和翻译人名等,从而为中文分词和人名识别等任务提供了丰富的数据支持。
特点
该数据集的特点在于其规模庞大,包含约120万条中文常见人名数据,25万条古代人名数据,18万条日文人名数据,以及48万条翻译人名数据。此外,数据集还包含了1千条中文姓氏和5千条中文称呼,以及5万条成语数据。尽管在清洗过程中仍有少量badcase存在,但整体数据质量较高,适用于相关研究领域。特别值得一提的是,数据集的更新维护体现了持续性和专业性。
使用方法
使用该数据集时,用户可根据研究需求选择相应的子集。例如,若研究目标是中文分词,则可优先使用中文常见人名和古代人名子集。人名识别研究则可综合使用各个子集以增强模型的泛化能力。此外,数据集的更新记录详细,用户可通过更新时间来选择适合自己研究阶段的数据版本。在使用过程中,应关注数据集中的badcase,并在模型训练时予以特殊处理,以提高模型的准确性和鲁棒性。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)作为自然语言处理领域的重要资源,起源于某业余项目,其创建旨在为中文分词和人名识别提供高质量的数据支持。该语料库由@思南斋整理,并在不定期更新的过程中,持续优化数据质量,删除了非人名及带有生僻字或罕见姓氏的人名,保留了120万条常见人名、25万条古代人名等,为相关研究提供了宝贵的文本资源。
当前挑战
在构建中文人名语料库的过程中,研究者面临了诸多挑战。首先,确保人名的真实性和普遍性是一大难题,这涉及对亿级人名语料进行筛选和清洗。其次,处理badcase,即不符合常规人名特征的数据,对语料库的准确性提出了考验。此外,针对日文人名和翻译人名的特殊性问题,如日文地名和英文地名的干扰,也增加了构建语料库的复杂性。这些挑战不仅考验了数据清洗和整理的技术,也影响了语料库在实际应用中的性能和效果。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛用于中文分词与人名识别的研究。该数据集的规模庞大,经过精心清洗,包含了常见人名、古代人名、日文人名及翻译人名,为相关算法的训练和评估提供了丰富的资源。
实际应用
实际应用中,该数据集被用于搜索引擎、语音识别系统以及聊天机器人等,以提高这些系统在处理包含人名的文本时的准确性和智能化水平,进而改善用户体验。
衍生相关工作
基于该数据集,研究者们进一步开展了一系列相关工作,如人名生成模型、人名标准化算法等,这些研究不仅拓展了数据集的应用范围,也为语言技术领域带来了新的研究视角和方法论。
以上内容由遇见数据集搜集并总结生成



