中文人名语料库（Chinese-Names-Corpus）

github2018-12-24 更新2024-05-31 收录

下载链接：

https://github.com/yjr930/Chinese-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名、翻译人名等，每个数据集都有详细的描述和来源说明。

This dataset encompasses multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, each accompanied by detailed descriptions and source information.

创建时间：

2017-12-26

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集组成

中文常见人名（Chinese_Names_Corpus）
- 数量：120万
- 来源：从亿级人名语料中提取
- 处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名
中文古代人名（Ancient_Names_Corpus）
- 数量：25万
- 来源：多个人名词典汇总
- 处理：删除了罕见姓氏、带生僻字的人名
日文人名（Japanese_Names_Corpus）
- 数量：18万
- 来源：从维基百科中提取
- 处理：删除了罕见姓氏、带生僻字的人名
翻译人名（English_Cn_Name_Corpus）
- 数量：48万
- 来源：多个人名词典汇总
- 处理：删除了翻译人名常用字之外的人名
中文姓氏（Chinese_Family_Name）
- 数量：1千
- 来源：从亿级人名语料中提取
- 处理：删除了罕见姓氏，复姓只保留了“欧阳”
中文称呼（Chinese_Relationship）
- 称呼词根数量：5千
- 中文称呼数量：18万
- 来源：多个人名词典汇总
- 处理：删除了部分带贬义的称呼
成语词典（ChengYu_Corpus）
- 数量：5万
- 来源：多个成语词典汇总

数据集更新记录

2017.08.08：删除了1000余非人名
2017.11.25：删除了5000余非人名
2017.12.17：新增了18万日文人名

数据集用途

可用于中文分词、人名识别

搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建，是从海量人名语料中提取出具有代表性的中文人名，经过筛选和清洗，去除了罕见姓氏和含有生僻字的人名，同时为了确保数据质量，还随机删除了部分名人姓名，以减少数据集中可能存在的偏差。该语料库涵盖了不同类型的人名，如常见人名、古代人名、日文人名和翻译人名等，从而为中文分词和人名识别等任务提供了丰富的数据支持。

特点

该数据集的特点在于其规模庞大，包含约120万条中文常见人名数据，25万条古代人名数据，18万条日文人名数据，以及48万条翻译人名数据。此外，数据集还包含了1千条中文姓氏和5千条中文称呼，以及5万条成语数据。尽管在清洗过程中仍有少量badcase存在，但整体数据质量较高，适用于相关研究领域。特别值得一提的是，数据集的更新维护体现了持续性和专业性。

使用方法

使用该数据集时，用户可根据研究需求选择相应的子集。例如，若研究目标是中文分词，则可优先使用中文常见人名和古代人名子集。人名识别研究则可综合使用各个子集以增强模型的泛化能力。此外，数据集的更新记录详细，用户可通过更新时间来选择适合自己研究阶段的数据版本。在使用过程中，应关注数据集中的badcase，并在模型训练时予以特殊处理，以提高模型的准确性和鲁棒性。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）作为自然语言处理领域的重要资源，起源于某业余项目，其创建旨在为中文分词和人名识别提供高质量的数据支持。该语料库由@思南斋整理，并在不定期更新的过程中，持续优化数据质量，删除了非人名及带有生僻字或罕见姓氏的人名，保留了120万条常见人名、25万条古代人名等，为相关研究提供了宝贵的文本资源。

当前挑战

在构建中文人名语料库的过程中，研究者面临了诸多挑战。首先，确保人名的真实性和普遍性是一大难题，这涉及对亿级人名语料进行筛选和清洗。其次，处理badcase，即不符合常规人名特征的数据，对语料库的准确性提出了考验。此外，针对日文人名和翻译人名的特殊性问题，如日文地名和英文地名的干扰，也增加了构建语料库的复杂性。这些挑战不仅考验了数据清洗和整理的技术，也影响了语料库在实际应用中的性能和效果。

常用场景

经典使用场景

在自然语言处理领域，中文人名语料库（Chinese-Names-Corpus）被广泛用于中文分词与人名识别的研究。该数据集的规模庞大，经过精心清洗，包含了常见人名、古代人名、日文人名及翻译人名，为相关算法的训练和评估提供了丰富的资源。

实际应用

实际应用中，该数据集被用于搜索引擎、语音识别系统以及聊天机器人等，以提高这些系统在处理包含人名的文本时的准确性和智能化水平，进而改善用户体验。

衍生相关工作

基于该数据集，研究者们进一步开展了一系列相关工作，如人名生成模型、人名标准化算法等，这些研究不仅拓展了数据集的应用范围，也为语言技术领域带来了新的研究视角和方法论。

以上内容由遇见数据集搜集并总结生成