中文人名语料库（Chinese-Names-Corpus）

github2019-01-07 更新2024-05-31 收录

下载链接：

https://github.com/howl-anderson/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名、翻译人名等，总计超过200万条记录，用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition.

创建时间：

2018-12-03

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模: 120万
来源: 从亿级人名语料中提取
处理: 删除了罕见姓氏、带生僻字的人名及部分名人姓名
问题: 清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模: 25万
来源: 多个人名词典汇总
处理: 删除了罕见姓氏、带生僻字的人名
问题: 清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模: 18万
来源: 从维基百科中提取
处理: 删除了罕见姓氏、带生僻字的人名
问题: 清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模: 48万
来源: 多个人名词典汇总
处理: 删除了翻译人名常用字之外的人名
问题: 清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模: 1千
来源: 从亿级人名语料中提取
处理: 删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

规模: 5千（称呼词根），18万（中文称呼）
来源: 多个人名词典汇总
处理: 删除了部分带贬义的称呼
问题: 清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模: 5万
来源: 多个成语词典汇总
问题: 清洗后仍存有少量badcase

数据集更新记录

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.4

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建主要采取从大规模人名语料中提取并清洗的方式。具体而言，该语料库从亿级人名数据中提炼出常见人名、古代人名、日文人名、翻译人名等多个子集，并对罕见姓氏、生僻字及带有贬义或特殊含义的称呼进行了剔除，旨在提升语料库的纯净度和实用性。

特点

该数据集的特点在于其规模宏大，覆盖了中文常见人名、古代人名、日文人名等多个维度，同时经过精细化的清洗工作，减少了badcase的干扰。此外，数据集还包含了中文姓氏和称呼的语料，丰富了其在中文分词和人名识别等自然语言处理领域的应用范围。

使用方法

用户可通过直接访问该数据集GitHub仓库来获取数据，数据以文本格式存储，便于导入和使用。适用于中文分词、人名识别等研究或应用场景。在使用过程中，用户应遵守数据使用规范，合理利用数据集资源，避免滥用。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一项旨在为中文分词和人名识别提供高质量语料的数据集项目，由业余项目“萌名”衍生而来。该数据集的创建始于对亿级人名语料进行筛选、清洗和整理，旨在构建一个适用于自然语言处理领域的基础资源库。自项目启动以来，该数据集在中文信息处理领域产生了广泛影响，成为研究者和开发者的重要资源。

当前挑战

在构建中文人名语料库的过程中，研究者面临了多方面的挑战。首先，如何在庞大的数据中筛选出常见且具有代表性的中文人名，同时排除罕见和生僻的姓名，是一大难题。其次，数据清洗过程中，如何准确识别并删除非人名数据，尤其是区分人名与地名的挑战。此外，由于人名具有丰富的文化内涵和多样性，如何确保语料库的广泛适用性和准确性，也是持续面临的挑战。

常用场景

经典使用场景

在自然语言处理领域，中文人名语料库（Chinese-Names-Corpus）被广泛用于中文分词与人名识别的研究。其丰富的数据资源为模型训练提供了坚实基础，使得研究者能够构建出更加精准的语言模型，以识别和解析文本中的人名信息。

实际应用

在实际应用中，中文人名语料库被应用于搜索引擎、语音识别、推荐系统等，提高了这些系统处理中文文本的准确性和智能化水平，从而优化了用户体验。

衍生相关工作

基于该语料库，研究人员衍生出了一系列相关工作，如人名生成模型、人名相似度计算等，进一步拓展了人名语料库的应用范围，并促进了相关领域的学术研究进展。

以上内容由遇见数据集搜集并总结生成