中文人名语料库(Chinese-Names-Corpus)
收藏github2017-12-29 更新2024-05-31 收录
下载链接:
https://github.com/lightsilver/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名等,用于中文分词和人名识别。
This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, designed for Chinese word segmentation and name recognition.
创建时间:
2017-12-29
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集组成
中文常见人名(Chinese_Names_Corpus)
- 规模:120万
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏、带生僻字的人名,随机删除了部分名人姓名
- 备注:清洗后仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 规模:25万
- 来源:多个人名词典汇总
- 处理:删除了罕见姓氏、带生僻字的人名
- 备注:清洗后仍存有少量badcase
日文人名(Japanese_Names_Corpus)
- 规模:18万
- 来源:从维基百科中提取
- 处理:删除了罕见姓氏、带生僻字的人名
- 备注:清洗后仍存有少量badcase
翻译人名(English_Cn_Name_Corpus)
- 规模:48万
- 来源:多个人名词典汇总
- 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
- 备注:清洗后仍存有少量badcase,尤其是英文地名
中文姓氏(Chinese_Family_Name)
- 规模:1千
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”
中文称呼(Chinese_Relationship)
- 规模:5千(称呼词根),18万(中文称呼)
- 来源:多个人名词典汇总
- 处理:删除了部分带贬义的称呼
- 备注:清洗后仍存有大量badcase
成语词典(ChengYu_Corpus)
- 规模:5万
- 来源:多个成语词典汇总
- 备注:清洗后仍存有少量badcase
数据集更新记录
- 2017.08.08:删除了1000余非人名
- 2017.11.25:删除了5000余非人名
- 2017.12.17:新增了18万日文人名
- 2017.12.28:删除了1000余非人名(主要是日文地名)
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建采取从大规模人名数据中进行筛选与清洗的方式,旨在为中文分词和人名识别任务提供高质量的数据支持。该语料库包含多个子集,通过对亿级人名语料进行去重、删除罕见姓氏和生僻字,以及筛选出特定类别的名字,如古代人名、日文人名等,从而构建出具有针对性的数据集。
使用方法
用户在使用中文人名语料库时,可以根据自身需求选择相应的子集。数据集可以直接用于训练机器学习模型,例如中文分词或人名识别模型。同时,用户也可以对数据集进行进一步的分析和清洗,以适应特定的研究需求。由于数据集包含了多种类型的名字,用户在使用时应注意区分不同子集的特点,合理利用数据集以提高模型性能。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一个旨在服务于中文自然语言处理领域的珍贵资源,其创建初衷源自某业余项目,由@思南斋负责整理与维护。该语料库包含了从亿级人名数据中提炼出的120万中文常见人名、25万中文古代人名、18万日文人名以及48万翻译人名等,为中文分词和人名识别等任务提供了基础支持。自2017年起,该数据集经历了多次更新与清洗,以确保其质量与准确性,对中文自然语言处理领域的研究具有不容忽视的贡献。
当前挑战
尽管中文人名语料库在构建过程中采取了多种措施以提高数据质量,但仍面临诸多挑战。首先,语料库在清洗过程中存在少量badcase,这可能对模型的泛化能力构成影响。其次,数据集中删除了罕见姓氏和生僻字,可能导致某些特定场景下的覆盖不足。此外,翻译人名中混有少量西化中文人名,以及日文地名等非人名信息,为精确识别带来了额外的困难。这些挑战对于研究人员而言,既是机遇也是进一步研究的出发点。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)常被用于训练模型进行中文分词和人名识别任务。该数据集提供了海量的中文人名实例,有助于模型学习人名的语言特征,从而提高分词和人名识别的准确性。
解决学术问题
该数据集解决了中文文本中人名识别的难题,特别是在处理具有复杂结构和多样性的中文人名时,提供了丰富的样本供学术研究者进行分析和模型训练。其对于研究中文词汇的边界、人名用字的频率分布等语言学问题具有重要意义。
实际应用
在现实应用中,中文人名语料库(Chinese-Names-Corpus)可被用于搜索引擎优化,以提高搜索结果的相关性;在社交媒体和通讯服务中,可用于过滤和识别不当言论;在智能客服系统中,有助于准确识别客户姓名,提升服务体验。
数据集最近研究
最新研究方向
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)的近期研究主要聚焦于提升中文分词和人名识别的准确性。该数据集的丰富性和多样性为深度学习模型训练提供了宝贵的资源,使得研究者能够构建更加精确的命名实体识别系统。目前,学者们正探索运用该数据集对模型进行微调,以处理诸如罕见姓氏和生僻字等复杂情况,进而提高模型的泛化能力和实际应用中的表现。此外,该数据集对于理解中文文化背景和构建文化敏感的算法同样具有重要价值。
以上内容由遇见数据集搜集并总结生成



