中文人名语料库（Chinese-Names-Corpus）

github2019-06-28 更新2024-05-31 收录

下载链接：

https://github.com/guoyu07/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名等，总计超过200万条记录，用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition.

创建时间：

2018-12-04

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万
来源：从亿级人名语料中提取
处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名
现状：清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模：25万
来源：多个人名词典汇总
处理：删除了罕见姓氏、带生僻字的人名
现状：清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模：18万
来源：从维基百科中提取
处理：删除了罕见姓氏、带生僻字的人名
现状：清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模：48万
来源：多个人名词典汇总
处理：删除了翻译人名常用字之外的人名，混有少量西化中文人名
现状：清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模：1千
来源：从亿级人名语料中提取
处理：删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

称呼词根规模：5千
中文称呼规模：18万
来源：多个人名词典汇总
处理：删除了部分带贬义的称呼
现状：清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模：5万
来源：多个成语词典汇总
现状：清洗后仍存有少量badcase

更新历史

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.04

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建，是从亿级人名语料中提取出常见人名、古代人名、日文人名、翻译人名等，并经过删除罕见姓氏、生僻字以及部分名人姓名等步骤，以清洗后仍含有少量badcase的形态呈现，旨在为中文分词和人名识别提供准确的数据支持。

特点

该数据集特色在于其丰富的数据来源和精细的数据清洗过程，涵盖了从古代到现代，从国内到国外的广泛人名数据，同时确保了数据的实用性和准确性。特别值得一提的是，对于姓氏和称呼的独立整理，为相关研究提供了更为专业的语料。

使用方法

用户可以直接从数据集中提取所需的人名语料进行研究和应用。需要注意的是，数据集可能包含少量的错误数据，即badcase，使用时需进行进一步的筛选和校验。此外，数据集支持不定期更新，用户应关注最新版本以获得最优数据资源。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一项旨在为自然语言处理领域提供基础资源的业余项目产物，其创建可追溯至对取名工具'萌名'的研发过程中。该语料库由大量中文常见人名、古代人名、日文人名、翻译人名、中文姓氏以及中文称呼组成，共计约138万人名相关数据。该数据集的创建，不仅丰富了中文人名识别领域的可用资源，而且对中文分词、命名实体识别等自然语言处理任务具有重要的研究价值。自2017年起，该数据集经历了多次更新与优化，删除了大量非人名及低频人名，提升了数据质量。项目由@萌名整理维护，对相关领域产生了积极的影响。

当前挑战

在构建中文人名语料库的过程中，研究人员面临了诸多挑战。首先，人名数据的收集与清洗过程中，如何准确识别并去除罕见姓氏、生僻字及非人名数据是一大难题。其次，针对数据集中可能存在的badcase，需要不断迭代优化清洗策略，确保语料库的纯净度和实用性。此外，翻译人名中混有的西化中文人名及英文地名的处理，也增加了数据集构建的复杂性。在研究领域，如何利用该语料库解决中文人名识别中的歧义问题，以及如何进一步提升人名识别的准确率和召回率，是当前研究者需要克服的关键挑战。

常用场景

经典使用场景

在自然语言处理领域，中文人名语料库（Chinese-Names-Corpus）被广泛用于中文分词与人名识别任务。该数据集以其庞大的样本量和精细的数据清洗，为模型训练提供了坚实基础，成为研究者在设计算法时的首选资源。

衍生相关工作

基于该数据集，研究者们衍生出了一系列相关的工作，如构建更加完善的人名识别模型、研究人名的语言特性等，推动了中文自然语言处理领域的发展，并促进了相关技术的进步。

数据集最近研究