中文人名语料库（Chinese-Names-Corpus）

github2024-05-22 更新2024-05-31 收录

下载链接：

https://github.com/wainshine/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

本项目包含多个数据集，如中文常见人名、中文古代人名、中文姓氏等，数据大小从数千到数百万不等，语料来源广泛，经过数据清洗处理，适用于中文分词、人名识别等场景。

This project encompasses a variety of datasets, including common Chinese personal names, ancient Chinese personal names, and Chinese surnames, among others. The data sizes range from several thousand to several million entries. The corpora are sourced from a wide array of origins and have undergone rigorous data cleaning processes, making them suitable for applications such as Chinese word segmentation and personal name recognition.

创建时间：

2016-12-08

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

中文常见人名（Chinese_Names_Corpus）

数据大小：120万
语料来源：从亿级人名语料中提取
数据清洗：已清洗，但仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

数据大小：25万
语料来源：多个人名词典汇总
数据清洗：已清洗

中文姓氏（Chinese_Family_Name）

数据大小：1千
语料来源：从亿级人名语料中提取
数据清洗：已清洗

中文称呼（Chinese_Relationship）

数据大小：5千称呼词根；18万中文称呼
语料来源：多个人名词典汇总
数据清洗：已清洗，但仍存有大量badcase

英文人名语料库（English-Names-Corpus）

翻译人名（English_Cn_Name_Corpus）

数据大小：48万
语料来源：多个人名词典汇总
数据清洗：已清洗，但仍存有少量badcase，以地名居多

日文人名语料库（Japanese_Names_Corpus）

日文人名（Japanese_Names_Corpus）

数据大小：18万
数据来源：从维基百科中提取
数据清洗：已清洗，但仍存有少量badcase

中文词典语料库（Chinese_Dict_Corpus）

成语词典（ChengYu_Corpus）

数据大小：5万
语料来源：多个成语词典汇总
数据清洗：已清洗

数据更新记录

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30
删除了约3万余非人名、或低频人名。 -2018.11.04
删除了2600余非人名、或低频人名。 -2019.04.15
删除了约1万余非人名、或低频人名。 -2019.07.27
将文件移动到文件夹。 -2019.10.21
新增人名生成器。 -2020.01.29
删除了约6万余非人名、或低频人名。 -2020.12.13
更新人名生成器。 -2021.11.22
删除了约700余非人名、或低频人名。 -2022.11.30

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建基于大数据和自然语言处理技术，通过对海量文本进行分词和词频统计，经过数据清洗后，形成了一个包含千万级人名词典的图谱。该图谱不仅涵盖了现代人名，还包括古代人名、姓氏和称呼等，通过性别、年龄、拼音、情感、人名指数等多维度标记，确保了数据的丰富性和多样性。

特点

该数据集的特点在于其规模庞大且内容丰富，涵盖了120万现代人名、25万古代人名、1千姓氏以及5千称呼词根和18万中文称呼。此外，数据集还包括48万英文翻译人名和18万日文人名，为跨文化人名研究提供了宝贵的资源。尽管数据清洗过程已尽力去除噪声，但仍存在少量badcase，需在使用时加以注意。

使用方法

中文人名语料库可广泛应用于中文分词、人名识别、命名实体识别等领域。用户可以通过下载数据集文件，利用编程工具进行数据加载和处理。对于需要生成新名字的应用场景，数据集还提供了人名生成器，用户可根据需求生成符合特定条件的人名。在使用过程中，建议结合具体任务对数据进行进一步清洗和预处理，以提高模型的准确性和鲁棒性。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是由萌名（NameMoe）团队基于大数据和自然语言处理技术构建的，旨在提供一个全面的中文人名资源。该数据集的创建始于对海量文本的分词和词频统计，经过数据清洗和标记，最终形成了包含5600万+人名的图谱。该语料库不仅涵盖了现代人名，还包括古代人名、姓氏和称呼等，为中文分词、人名识别等自然语言处理任务提供了宝贵的资源。该项目的核心研究问题是如何从海量数据中高效提取和清洗人名信息，并对其进行多维度的标记和分类，以支持各种应用场景。

当前挑战

中文人名语料库在构建过程中面临多项挑战。首先，数据清洗是一个复杂且耗时的过程，尽管已经进行了多次清洗，但仍存在少量badcase，如非人名或低频人名。其次，人名识别的准确性依赖于分词工具的性能，如何提高分词的准确性是一个持续的挑战。此外，随着时间的推移，人名的变化和新增也需要不断更新数据集，以保持其时效性和实用性。最后，如何有效地管理和维护如此大规模的数据集，确保其长期可用性和扩展性，也是该项目面临的重要挑战。

常用场景

经典使用场景

中文人名语料库（Chinese-Names-Corpus）在自然语言处理领域中，常用于中文分词和人名识别任务。通过该数据集，研究者可以训练和优化分词算法，提高中文文本处理中的命名实体识别准确率。此外，该数据集还支持人名生成器的开发，为新取名产品提供数据基础。

衍生相关工作

基于中文人名语料库，研究者们开发了多种相关工具和应用。例如，人名生成器不仅用于新取名产品，还被应用于文学创作和游戏设计中。此外，该数据集还促进了中文姓氏和称呼的研究，推动了中文语言学和计算机科学的交叉研究。相关工作还包括对古代人名和日文人名的深入分析，丰富了跨文化人名研究的视角。

数据集最近研究