中文人名语料库（Chinese-Names-Corpus）

github2017-12-25 更新2024-05-31 收录

下载链接：

https://github.com/ACGCoder/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏和中文称呼等，用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese personal names, ancient Chinese personal names, Japanese personal names, translated personal names, Chinese surnames, and Chinese titles, designed for Chinese word segmentation and personal name recognition.

创建时间：

2017-12-25

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

数据集概述

用途：中文分词、人名识别。
更新频率：不定期更新，只删词，不加词。

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万。
来源：从亿级人名语料中提取。
处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名。
质量：清洗后仍存有少量badcase。

中文古代人名（Ancient_Names_Corpus）

规模：25万。
来源：多个人名词典汇总。
处理：删除了罕见姓氏、带生僻字的人名。
质量：清洗后仍存有少量badcase。

日文人名（Japanese_Names_Corpus）

规模：18万。
来源：从维基百科中提取。
处理：删除了罕见姓氏、带生僻字的人名。
质量：清洗后仍存有少量badcase，尤其是日文地名。

翻译人名（English_Cn_Name_Corpus）

规模：48万。
来源：多个人名词典汇总。
处理：删除了翻译人名常用字之外的人名。
质量：清洗后仍存有少量badcase，尤其是英文地名。

中文姓氏（Chinese_Family_Name）

规模：1千。
来源：从亿级人名语料中提取。
处理：删除了罕见姓氏，复姓只保留了“欧阳”。

中文称呼（Chinese_Relationship）

规模：5千（称呼词根），18万（中文称呼）。
来源：多个人名词典汇总。
处理：删除了部分带贬义的称呼。
质量：清洗后仍存有大量badcase。

成语词典（ChengYu_Corpus）

规模：5万。
来源：多个成语词典汇总。
质量：清洗后仍存有少量badcase。

数据集更新历史

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建，基于大规模人名数据，经过筛选与清洗，去除了罕见姓氏和生僻字，同时，为了确保数据质量，还随机删除了部分名人姓名。该语料库包含了常见人名、古代人名、日文人名、翻译人名等多个子集，形成了全面且具有层次性的语言资源。

特点

该数据集的特点在于其规模宏大，覆盖面广，包含了不同时代、不同文化背景的人名数据。经过严格的数据清洗，减少了badcase的干扰，提高了语料库的纯净度和可用性。同时，特别针对中文姓氏和称呼进行了单独的整理，为相关研究提供了便利。

使用方法

使用该数据集时，用户可以根据实际需求选择相应的子集。数据集适用于中文分词、人名识别等自然语言处理任务，用户可通过编程语言直接调用数据进行模型训练或测试。此外，数据集的更新记录详细，方便用户追踪数据变化，确保研究的连续性和准确性。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）作为自然语言处理领域的一个重要资源，其创建旨在为中文分词和人名识别提供高质量的语料支持。该语料库的构建起始于某业余项目，由@思南斋整理并于2017年12月17日进行了最新更新。它涵盖了从亿级人名语料中提取的常见人名、古代人名，以及日文人名和翻译人名等多个子语料库，其中还包含了中文姓氏和称呼的语料。该数据集的构建为研究中文人名的语言特征、文化内涵等提供了基础数据，对中文信息处理领域产生了重要影响。

当前挑战

在构建中文人名语料库的过程中，研究人员面临了诸多挑战。首先，确保人名的真实性和普遍性是一项艰巨的任务，需要从海量数据中提取并清洗出有效的人名数据。其次，罕见姓氏和生僻字的处理，以及badcase的筛选和剔除，对语料库的质量控制提出了更高的要求。此外，针对不同语料库的特定需求，如日文人名和翻译人名的特殊处理，也增加了构建过程的复杂性。在研究领域问题上，如何提高人名识别的准确性和覆盖范围，以及如何在保持数据质量的同时，兼顾数据的多样性和全面性，是该数据集面临的主要挑战。

常用场景

经典使用场景

在自然语言处理领域，中文人名语料库（Chinese-Names-Corpus）的典型应用场景是作为中文分词和人名识别的训练数据。该语料库包含了大量经过清洗和筛选的中文人名，能够帮助机器学习模型有效地区分人名与其他词汇，提高分词和命名实体识别的准确性。

实际应用

在实际应用中，中文人名语料库被广泛用于搜索引擎优化、身份验证系统、社交媒体数据挖掘等领域，为这些系统提供了准确的人名识别功能，进而增强用户体验和系统智能。

衍生相关工作

基于该数据集，学术界和工业界衍生出了多项相关工作，如构建更高效的中文命名实体识别模型、研究人名用字的频率分布、分析姓名文化特征等，推动了中文自然语言处理领域的研究进展。

以上内容由遇见数据集搜集并总结生成