中文人名语料库（Chinese-Names-Corpus）

github2019-06-05 更新2024-05-31 收录

下载链接：

https://github.com/Tools2/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名等，每个子数据集都从大量语料中提取并经过清洗，用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, among others. Each sub-dataset is extracted from a vast corpus and has undergone thorough cleaning, designed for Chinese word segmentation and name recognition tasks.

创建时间：

2018-08-25

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万
来源：从亿级人名语料中提取
处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名
问题：清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模：25万
来源：多个人名词典汇总
处理：删除了罕见姓氏、带生僻字的人名
问题：清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模：18万
来源：从维基百科中提取
处理：删除了罕见姓氏、带生僻字的人名
问题：清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模：48万
来源：多个人名词典汇总
处理：删除了翻译人名常用字之外的人名，混有少量西化中文人名
问题：清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模：1千
来源：从亿级人名语料中提取
处理：删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

规模：5千（称呼词根），18万（中文称呼）
来源：多个人名词典汇总
处理：删除了部分带贬义的称呼
问题：清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模：5万
来源：多个成语词典汇总
问题：清洗后仍存有少量badcase

数据集更新历史

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建，源于对亿级人名语料的深度挖掘与精细处理。通过对原始语料的筛选，去除了罕见姓氏及带有生僻字的人名，并对名人姓名进行了随机删除，以减少数据集中的偏差。此外，古代人名、日文人名、翻译人名等子数据集的构建，亦采取了类似的数据清洗与筛选策略，旨在确保语料的准确性与可用性。

使用方法

用户可依据实际需求，选择相应的子数据集进行应用。数据集以文本形式存储，易于读取和处理。用户在使用过程中，应遵循数据集的更新日志，以掌握数据集的最新状态。针对数据集中的badcase，建议用户在预处理阶段进行进一步的清洗和校验，以提高后续应用的准确率。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是由萌名项目衍生出的副产品，旨在为中文分词和人名识别等领域提供丰富的数据资源。该语料库始建于2017年，由萌名团队负责维护与更新。语料库包含了从亿级人名数据中提炼出的120万中文常见人名、25万中文古代人名，以及其他语言及文化背景下的人名数据。它不仅为中文自然语言处理领域提供了宝贵的数据支撑，而且对于人名文化的研究亦具有重要价值。

当前挑战

在构建中文人名语料库的过程中，研究者们面临着诸多挑战。首先，数据清洗是其中的一个重要环节，如何有效识别并删除罕见姓氏和带有生僻字的人名，保持数据质量，是一大挑战。其次，语料库中的人名数据需要不断地更新和维护，以适应不断变化的命名习惯和文化背景。此外，人名数据的多样性和复杂性给数据标注和分类带来了困难，特别是在处理badcase时，如何确保标注的准确性和一致性，是当前亟需解决的问题。

常用场景

经典使用场景

在自然语言处理领域中，中文人名语料库（Chinese-Names-Corpus）的典型应用场景是中文分词和人名识别。该数据集提供了大量的中文人名实例，有助于模型学习中文人名的特征，从而在文本中准确地识别出人名。

解决学术问题

该数据集解决了中文分词中的歧义问题，尤其是在处理人名时，能够有效提高分词的准确性。此外，它还为人名消歧义、人名标准化等学术研究问题提供了丰富的语料支持，对于推动相关领域的研究具有重要意义。

实际应用

在实际应用中，中文人名语料库被广泛应用于搜索引擎、在线社交网络、信息抽取、推荐系统等多个场景，以提升系统对中文人名的识别和处理能力，进而提高用户体验。

数据集最近研究