CCNC|中文姓名研究数据集|实体识别数据集

github2021-06-28 更新2024-05-31 收录

中文姓名研究

实体识别

下载链接：

https://github.com/jaaack-wang/ccnc

下载链接

链接失效反馈

资源简介：

CCNC是一个包含365万姓名样本的大型中文姓名语料库，数据来源于姓名大全和中文人名语料库，经过处理和注音，用于中文姓名研究和实体识别。

CCNC is a large-scale Chinese name corpus containing 3.65 million name samples. The data is sourced from comprehensive name collections and Chinese personal name corpora, processed and annotated with phonetic symbols, and is utilized for research on Chinese names and entity recognition.

创建时间：

2021-06-24

原始信息汇总

数据集概述

基本统计信息

姓名数 (names)	姓的数量 (last names )	名的数量 (first names)	男性数量 (M)	女性数量 (F)	未知性别 (Unknown)
3658109	808	710594	2054134	1509650	94325

拼音版

姓氏拼音使用自制的中文姓氏注音字典，名则使用pypinyin。
提供三个版本的语料库下载链接：纯中文版及两个拼音版。

来源

数据集来源：
- 姓名大全：贡献2513097条语例。
- 中文人名语料库：贡献1145012条语例。
处理细节：
- 区分了原本不分的姓名。
- 删除了约三十万的重叠语例。
- 同名不同性别的视为不同语例。
- 未知性别语例来自中文人名语料库。

中文姓氏注音字典

包含1606条中文姓氏及其拼音。
1534条姓氏及其注音来自名霸百家姓，其余72条由作者手动注音。

训练集/测试集/预测集

提供代码用于将语料库切分为训练集、测试集和预测集，默认比例为6:2:2。
已切分好的全汉字版压缩文件下载链接：全汉字版。

AI搜集汇总

数据集介绍

构建方式

CCNC数据集的构建基于两个主要来源：一是来自姓名大全网站的2513097条语例，二是来自中文人名语料库的1145012条语例。在整合过程中，删除了约三十万条重复语例，并对中文人名语料库中的姓名进行了区分处理。此外，数据集还特别处理了同名但性别不同的情况，将其视为不同的语例。为了增强数据集的实用性，还开发了中文姓氏注音字典，包含1606条姓氏及其拼音，其中部分罕见姓氏的注音由人工完成。

特点

CCNC数据集包含了3658109条中文姓名数据，涵盖了808个姓氏和710594个名字，其中男性姓名2054134条，女性姓名1509650条，未知性别94325条。该数据集的一个显著特点是提供了拼音版本，包括有声调和无声调两种形式，便于在英文文献中进行中文人名的实体识别。此外，数据集还提供了中文姓氏注音字典，增强了数据集的学术价值和实用性。

使用方法

CCNC数据集的使用方法多样，用户可以直接下载纯中文版或拼音版的数据集进行使用。对于需要进行机器学习的用户，数据集提供了代码脚本，可以将数据切分为训练集、测试集和预测集，默认比例为6:2:2。此外，用户还可以利用提供的源码对数据集进行拼音注音处理，或根据需要进行自定义切分。数据集的使用不仅限于学术研究，还可应用于自然语言处理、数据挖掘等多个领域。

背景与挑战

背景概述

CCNC数据集是一个专注于中文姓名的大规模语料库，由研究人员jaaack-wang于2021年创建。该数据集整合了来自两个主要来源的姓名数据，分别是‘姓名大全’和‘中文人名语料库’，共计包含超过365万条姓名记录。数据集的核心研究问题在于为中文姓名的拼音标注、性别分类以及实体识别提供高质量的训练数据。CCNC的构建不仅为自然语言处理领域的中文姓名处理任务提供了重要支持，还为跨语言信息检索、机器翻译等应用场景奠定了数据基础。其影响力主要体现在对中文姓名处理技术的推动，尤其是在拼音标注和性别分类方面。

当前挑战

CCNC数据集在构建和应用过程中面临多重挑战。首先，中文姓名的多样性和复杂性使得拼音标注的准确性难以保证，尤其是罕见姓氏的注音问题。尽管使用了pypinyin工具和自定义的姓氏注音字典，但仍存在部分姓氏的注音不准确或存在多音字问题。其次，数据集的性别标注依赖于原始数据，部分姓名的性别信息缺失或未知，这为性别分类任务带来了困难。此外，数据集的构建过程中需要处理大量重复数据，并确保姓名与性别的唯一性匹配，这对数据清洗和整合提出了较高要求。最后，如何将数据集有效应用于英文文献中的中文人名实体识别，仍需进一步探索和优化。

常用场景

经典使用场景

CCNC数据集在中文自然语言处理领域中被广泛用于人名识别和性别预测的研究。该数据集包含了大量中文姓名及其对应的性别信息，为研究者提供了一个丰富的语料库，用于训练和测试各种机器学习模型。特别是在处理中文文本时，CCNC数据集能够帮助模型更准确地识别和分类中文人名，从而提升文本分析的精度。

衍生相关工作

CCNC数据集衍生了许多相关的研究工作，特别是在中文自然语言处理领域。例如，基于CCNC数据集的研究工作包括中文人名识别算法的改进、性别预测模型的优化以及中文文本的自动标注和信息提取。此外，CCNC数据集还被用于开发中文姓氏拼音标注工具，这些工具在中文文本处理和语音合成中得到了广泛应用。这些研究工作不仅推动了中文自然语言处理技术的发展，也为相关领域的应用提供了重要的技术支持。

数据集最近研究

最新研究方向

近年来，CCNC数据集在自然语言处理（NLP）领域的研究中展现出显著的应用潜力。特别是在中文人名识别与拼音转换方面，该数据集为研究者提供了丰富的语料资源。随着全球化进程的加速，跨语言信息处理需求日益增长，CCNC数据集在中文人名拼音化处理中的精确性，为英文文献中的中文人名实体识别提供了重要支持。此外，该数据集在性别识别、姓氏文化研究等领域也展现出独特的研究价值，推动了中文姓名学与计算语言学的交叉研究。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

钻孔成像测井解译数据（2021-2022年）

利用测井设备实时获取的雄安新区D19，D21，D22，冀中坳陷地区JZ01，JZ04钻孔的测井数据，并由Techlog软件 WBI井眼成像解释模块解译的裂缝原始数据

国家地球系统科学数据中心收录

Amazon电影评论数据集

该数据集包含从1997年8月至2012年10月期间，Amazon用户对253,059种产品的7,911,684条评论。数据集被添加了真实标签，这些标签是通过爬取/抓取Amazon.com获得的，用于分类产品。

github 收录

LogiQA

LogiQA 包含 8,678 个 QA 实例，涵盖多种类型的演绎推理。结果表明，最先进的神经模型的性能远远低于人类天花板。该数据集还可以作为在深度学习 NLP 设置下重新研究逻辑 AI 的基准。

OpenDataLab 收录

NCBI Bookshelf

Bookshelf provides free online access to books and documents in life science and healthcare. Search, read, and discover.

国家生物信息中心收录

CRACK500

For the details of the work, the readers are refer to the paper "Feature Pyramid and Hierarchical Boosting Network for Pavement Crack Detection" (FPHB), T-ITS 2019. You can find the paper in https://www.researchgate.net/publication/330244656_Feature_Pyramid_and_Hierarchical_Boosting_Network_for_Pavement_Crack_Detection or https://arxiv.org/abs/1901.06340.

Papers with Code 收录