five

CCNC|中文姓名研究数据集|实体识别数据集

收藏
github2021-06-28 更新2024-05-31 收录
中文姓名研究
实体识别
下载链接:
https://github.com/jaaack-wang/ccnc
下载链接
链接失效反馈
资源简介:
CCNC是一个包含365万姓名样本的大型中文姓名语料库,数据来源于姓名大全和中文人名语料库,经过处理和注音,用于中文姓名研究和实体识别。

CCNC is a large-scale Chinese name corpus containing 3.65 million name samples. The data is sourced from comprehensive name collections and Chinese personal name corpora, processed and annotated with phonetic symbols, and is utilized for research on Chinese names and entity recognition.
创建时间:
2021-06-24
原始信息汇总

数据集概述

基本统计信息

姓名数 (names) 姓的数量 (last names ) 名的数量 (first names) 男性数量 (M) 女性数量 (F) 未知性别 (Unknown)
3658109 808 710594 2054134 1509650 94325

拼音版

来源

  • 数据集来源:
  • 处理细节:
    • 区分了原本不分的姓名。
    • 删除了约三十万的重叠语例。
    • 同名不同性别的视为不同语例。
    • 未知性别语例来自中文人名语料库。

中文姓氏注音字典

  • 包含1606条中文姓氏及其拼音。
  • 1534条姓氏及其注音来自名霸百家姓,其余72条由作者手动注音。

训练集/测试集/预测集

  • 提供代码用于将语料库切分为训练集、测试集和预测集,默认比例为6:2:2。
  • 已切分好的全汉字版压缩文件下载链接:全汉字版
AI搜集汇总
数据集介绍
main_image_url
构建方式
CCNC数据集的构建基于两个主要来源:一是来自姓名大全网站的2513097条语例,二是来自中文人名语料库的1145012条语例。在整合过程中,删除了约三十万条重复语例,并对中文人名语料库中的姓名进行了区分处理。此外,数据集还特别处理了同名但性别不同的情况,将其视为不同的语例。为了增强数据集的实用性,还开发了中文姓氏注音字典,包含1606条姓氏及其拼音,其中部分罕见姓氏的注音由人工完成。
特点
CCNC数据集包含了3658109条中文姓名数据,涵盖了808个姓氏和710594个名字,其中男性姓名2054134条,女性姓名1509650条,未知性别94325条。该数据集的一个显著特点是提供了拼音版本,包括有声调和无声调两种形式,便于在英文文献中进行中文人名的实体识别。此外,数据集还提供了中文姓氏注音字典,增强了数据集的学术价值和实用性。
使用方法
CCNC数据集的使用方法多样,用户可以直接下载纯中文版或拼音版的数据集进行使用。对于需要进行机器学习的用户,数据集提供了代码脚本,可以将数据切分为训练集、测试集和预测集,默认比例为6:2:2。此外,用户还可以利用提供的源码对数据集进行拼音注音处理,或根据需要进行自定义切分。数据集的使用不仅限于学术研究,还可应用于自然语言处理、数据挖掘等多个领域。
背景与挑战
背景概述
CCNC数据集是一个专注于中文姓名的大规模语料库,由研究人员jaaack-wang于2021年创建。该数据集整合了来自两个主要来源的姓名数据,分别是‘姓名大全’和‘中文人名语料库’,共计包含超过365万条姓名记录。数据集的核心研究问题在于为中文姓名的拼音标注、性别分类以及实体识别提供高质量的训练数据。CCNC的构建不仅为自然语言处理领域的中文姓名处理任务提供了重要支持,还为跨语言信息检索、机器翻译等应用场景奠定了数据基础。其影响力主要体现在对中文姓名处理技术的推动,尤其是在拼音标注和性别分类方面。
当前挑战
CCNC数据集在构建和应用过程中面临多重挑战。首先,中文姓名的多样性和复杂性使得拼音标注的准确性难以保证,尤其是罕见姓氏的注音问题。尽管使用了pypinyin工具和自定义的姓氏注音字典,但仍存在部分姓氏的注音不准确或存在多音字问题。其次,数据集的性别标注依赖于原始数据,部分姓名的性别信息缺失或未知,这为性别分类任务带来了困难。此外,数据集的构建过程中需要处理大量重复数据,并确保姓名与性别的唯一性匹配,这对数据清洗和整合提出了较高要求。最后,如何将数据集有效应用于英文文献中的中文人名实体识别,仍需进一步探索和优化。
常用场景
经典使用场景
CCNC数据集在中文自然语言处理领域中被广泛用于人名识别和性别预测的研究。该数据集包含了大量中文姓名及其对应的性别信息,为研究者提供了一个丰富的语料库,用于训练和测试各种机器学习模型。特别是在处理中文文本时,CCNC数据集能够帮助模型更准确地识别和分类中文人名,从而提升文本分析的精度。
衍生相关工作
CCNC数据集衍生了许多相关的研究工作,特别是在中文自然语言处理领域。例如,基于CCNC数据集的研究工作包括中文人名识别算法的改进、性别预测模型的优化以及中文文本的自动标注和信息提取。此外,CCNC数据集还被用于开发中文姓氏拼音标注工具,这些工具在中文文本处理和语音合成中得到了广泛应用。这些研究工作不仅推动了中文自然语言处理技术的发展,也为相关领域的应用提供了重要的技术支持。
数据集最近研究
最新研究方向
近年来,CCNC数据集在自然语言处理(NLP)领域的研究中展现出显著的应用潜力。特别是在中文人名识别与拼音转换方面,该数据集为研究者提供了丰富的语料资源。随着全球化进程的加速,跨语言信息处理需求日益增长,CCNC数据集在中文人名拼音化处理中的精确性,为英文文献中的中文人名实体识别提供了重要支持。此外,该数据集在性别识别、姓氏文化研究等领域也展现出独特的研究价值,推动了中文姓名学与计算语言学的交叉研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录