中文人名语料库（Chinese-Names-Corpus）|自然语言处理数据集|人名识别数据集

github2019-05-22 更新2024-05-31 收录

自然语言处理

人名识别

下载链接：

https://github.com/qiwsir/Chinese-Names-Corpus

下载链接

链接失效反馈

资源简介：

包含多个子数据集，如中文常见人名、中文古代人名、日文人名等，总计超过200万条记录，用于中文分词和人名识别。

This dataset encompasses multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and more, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition tasks.

创建时间：

2018-11-02

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）

数据集概述

用途：可用于中文分词、人名识别。
更新策略：不定期更新，只删词，不加词。

数据集组成

中文常见人名（Chinese_Names_Corpus）

规模：120万
来源：从亿级人名语料中提取
处理：删除了罕见姓氏、带生僻字的人名及部分名人姓名
状态：清洗后仍存有少量badcase

中文古代人名（Ancient_Names_Corpus）

规模：25万
来源：多个人名词典汇总
处理：删除了罕见姓氏、带生僻字的人名
状态：清洗后仍存有少量badcase

日文人名（Japanese_Names_Corpus）

规模：18万
来源：从维基百科中提取
处理：删除了罕见姓氏、带生僻字的人名
状态：清洗后仍存有少量badcase

翻译人名（English_Cn_Name_Corpus）

规模：48万
来源：多个人名词典汇总
处理：删除了翻译人名常用字之外的人名，混有少量西化中文人名
状态：清洗后仍存有少量badcase，尤其是英文地名

中文姓氏（Chinese_Family_Name）

规模：1千
来源：从亿级人名语料中提取
处理：删除了罕见姓氏，复姓只保留了“欧阳”

中文称呼（Chinese_Relationship）

规模：5千（称呼词根），18万（中文称呼）
来源：多个人名词典汇总
处理：删除了部分带贬义的称呼
状态：清洗后仍存有大量badcase

成语词典（ChengYu_Corpus）

规模：5万
来源：多个成语词典汇总
状态：清洗后仍存有少量badcase

更新历史

删除了1000余非人名。 -2017.08.08
删除了5000余非人名。 -2017.11.25
新增了18万日文人名。 -2017.12.17
删除了1500余非人名（主要是日文地名）。 -2017.12.30

AI搜集汇总

数据集介绍

构建方式

中文人名语料库（Chinese-Names-Corpus）的构建过程体现了对数据质量的严格把控。该数据集源自业余项目“萌名”，通过从亿级人名语料中提取常见中文人名，并删除了罕见姓氏和带有生僻字的人名，确保数据的实用性和广泛适用性。古代人名、日文人名和翻译人名部分则通过多个人名词典的汇总和清洗，进一步优化了数据的准确性和代表性。数据清洗过程中，特别关注了罕见姓氏和生僻字的剔除，同时保留了部分名人姓名，以增强数据的多样性。

特点

该数据集的特点在于其广泛覆盖了中文常见人名、古代人名、日文人名及翻译人名等多个类别，总计超过200万条数据。每条数据均经过严格的清洗和筛选，剔除了罕见姓氏和生僻字，确保了数据的高质量和实用性。此外，数据集还包含了中文姓氏、称呼及成语词典，进一步丰富了其应用场景。尽管清洗过程中仍存在少量badcase，但整体数据的准确性和代表性依然显著。

使用方法

中文人名语料库（Chinese-Names-Corpus）适用于多种自然语言处理任务，如中文分词、人名识别等。用户可以通过GitHub页面下载数据集，并根据具体需求选择相应的子集进行使用。数据集以文本文件形式提供，便于直接导入到各类NLP工具或框架中进行处理。对于需要进一步清洗或优化的场景，用户可参考项目提供的清洗方法和历史更新记录，以确保数据的最佳使用效果。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一个专注于中文人名及相关语言资源的语料库，最初作为业余项目“萌名”的副产品而创建。该项目由个人开发者维护，自2017年起不定期更新。该语料库涵盖了现代中文人名、古代中文人名、日文人名、翻译人名、中文姓氏、中文称呼及成语词典等多个子集，数据来源广泛，包括亿级人名语料、维基百科及多个人名词典。该数据集的主要研究问题在于为中文分词、人名识别等自然语言处理任务提供高质量的语言资源支持，尤其在中文人名识别领域具有重要的应用价值。

当前挑战

中文人名语料库在构建过程中面临多重挑战。首先，数据清洗是核心难题之一，尽管通过删除罕见姓氏和生僻字人名进行了初步筛选，但仍存在少量badcase，影响了数据的纯净度。其次，数据来源的多样性和复杂性导致数据格式和标准不一致，增加了整合和清洗的难度。此外，日文人名和翻译人名的处理尤为复杂，尤其是日文地名与日文人名的混淆问题，以及翻译人名中混入的西化中文人名，进一步增加了数据清洗的复杂性。最后，数据集的更新和维护依赖于个人开发者，缺乏持续的资源投入，可能导致数据更新不及时或覆盖范围有限。

常用场景

经典使用场景

中文人名语料库（Chinese-Names-Corpus）在自然语言处理领域中被广泛应用于中文分词和人名识别任务。该数据集通过提供大量经过清洗的中文常见人名、古代人名、日文人名及翻译人名，为研究人员和开发者提供了丰富的语料资源，特别是在处理涉及人名识别的文本分析时，能够显著提升算法的准确性和鲁棒性。

解决学术问题

该数据集有效解决了中文文本处理中人名识别和分词的难题。通过提供大量经过筛选和清洗的人名数据，研究人员可以更好地训练和优化自然语言处理模型，尤其是在处理复杂的中文文本时，能够减少因生僻字或罕见姓氏导致的识别错误。此外，该数据集还为跨语言人名识别提供了支持，推动了多语言文本处理技术的发展。

衍生相关工作

基于中文人名语料库，许多经典的自然语言处理工作得以展开。例如，研究人员利用该数据集开发了更高效的中文分词工具和人名识别算法，这些工具和算法被广泛应用于各类文本分析任务中。此外，该数据集还催生了一些跨语言人名识别的研究，推动了多语言文本处理技术的发展，为全球化的信息处理提供了有力支持。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CBIS-DDSM

该数据集用于训练乳腺癌分类器或分割模型，包含3103张乳腺X光片，其中465张有多个异常。数据集分为训练集和测试集，还包括3568张裁剪的乳腺X光片和对应的掩码。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

长江干流实时水位观测数据集（2024年）

该数据集为长江干流主要水文站实时水位观测数据集，包含了汉口、户口、九江、宜昌等16个水文站点的逐小时或逐日水位观测数据。该数据集包含3个excel表格文件，长江干流站点.xls，逐日水位.xlsx，逐小时水位.xlsx。

国家地球系统科学数据中心收录