中文人名语料库（Chinese-Names-Corpus）

github2017-12-29 更新2024-05-31 收录

下载链接：

https://github.com/lightsilver/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名、翻译人名等，用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, designed for Chinese word segmentation and name recognition.

创建时间：

2017-12-29

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万
来源：从亿级人名语料中提取
处理：删除了罕见姓氏、带生僻字的人名，随机删除了部分名人姓名
备注：清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模：25万
来源：多个人名词典汇总
处理：删除了罕见姓氏、带生僻字的人名
备注：清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模：18万
来源：从维基百科中提取
处理：删除了罕见姓氏、带生僻字的人名
备注：清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模：48万
来源：多个人名词典汇总
处理：删除了翻译人名常用字之外的人名，混有少量西化中文人名
备注：清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模：1千
来源：从亿级人名语料中提取
处理：删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

规模：5千（称呼词根），18万（中文称呼）
来源：多个人名词典汇总
处理：删除了部分带贬义的称呼
备注：清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模：5万
来源：多个成语词典汇总
备注：清洗后仍存有少量badcase

数据集更新记录

2017.08.08：删除了1000余非人名
2017.11.25：删除了5000余非人名
2017.12.17：新增了18万日文人名
2017.12.28：删除了1000余非人名（主要是日文地名）

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建采取从大规模人名数据中进行筛选与清洗的方式，旨在为中文分词和人名识别任务提供高质量的数据支持。该语料库包含多个子集，通过对亿级人名语料进行去重、删除罕见姓氏和生僻字，以及筛选出特定类别的名字，如古代人名、日文人名等，从而构建出具有针对性的数据集。

使用方法

用户在使用中文人名语料库时，可以根据自身需求选择相应的子集。数据集可以直接用于训练机器学习模型，例如中文分词或人名识别模型。同时，用户也可以对数据集进行进一步的分析和清洗，以适应特定的研究需求。由于数据集包含了多种类型的名字，用户在使用时应注意区分不同子集的特点，合理利用数据集以提高模型性能。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一个旨在服务于中文自然语言处理领域的珍贵资源，其创建初衷源自某业余项目，由@思南斋负责整理与维护。该语料库包含了从亿级人名数据中提炼出的120万中文常见人名、25万中文古代人名、18万日文人名以及48万翻译人名等，为中文分词和人名识别等任务提供了基础支持。自2017年起，该数据集经历了多次更新与清洗，以确保其质量与准确性，对中文自然语言处理领域的研究具有不容忽视的贡献。

当前挑战

尽管中文人名语料库在构建过程中采取了多种措施以提高数据质量，但仍面临诸多挑战。首先，语料库在清洗过程中存在少量badcase，这可能对模型的泛化能力构成影响。其次，数据集中删除了罕见姓氏和生僻字，可能导致某些特定场景下的覆盖不足。此外，翻译人名中混有少量西化中文人名，以及日文地名等非人名信息，为精确识别带来了额外的困难。这些挑战对于研究人员而言，既是机遇也是进一步研究的出发点。

常用场景

经典使用场景

在自然语言处理领域，中文人名语料库（Chinese-Names-Corpus）常被用于训练模型进行中文分词和人名识别任务。该数据集提供了海量的中文人名实例，有助于模型学习人名的语言特征，从而提高分词和人名识别的准确性。

解决学术问题

该数据集解决了中文文本中人名识别的难题，特别是在处理具有复杂结构和多样性的中文人名时，提供了丰富的样本供学术研究者进行分析和模型训练。其对于研究中文词汇的边界、人名用字的频率分布等语言学问题具有重要意义。

实际应用

在现实应用中，中文人名语料库（Chinese-Names-Corpus）可被用于搜索引擎优化，以提高搜索结果的相关性；在社交媒体和通讯服务中，可用于过滤和识别不当言论；在智能客服系统中，有助于准确识别客户姓名，提升服务体验。

数据集最近研究