five

Chinese-Names-Corpus

收藏
github2017-12-22 更新2024-05-31 收录
下载链接:
https://github.com/coffeehb/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含120万常见中文人名,已删除名人姓名;25万古代中文人名,已删除罕见姓和部分带生僻字的人名;1万日本常见人名;2万英文常见姓或名;1千个中文姓氏,已删除罕见姓,复姓只保留了‘欧阳’;5千称呼词根,18万中文称呼;48万翻译人名,混有部分西化中文人名,如‘李伯恩’。

本数据集汇聚了共计一百二十万例的通用中文人名,其中已剔除知名人士的姓名;此外,还包括二十五万古代中文人名,已筛除罕见姓氏及部分包含生僻字的姓名;一万例日本常用人名;两万例英文常见姓氏或人名;一千个已被精选的中文姓氏,其中罕见姓氏已被移除,复合姓氏仅保留了‘欧阳’;五千个称呼词根,以及十八万例中文称呼用语;另外,还包含四十八万翻译人名,其中混有部分西化的中文人名,例如‘李伯恩’。
创建时间:
2017-05-25
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

数据集概述

  • 中文人名:包含120万常见中文人名,已删除名人姓名。
  • 古代中文人名:包含25万古代中文人名,已删除罕见姓和部分带生僻字的人名。
  • 日本常见人名:包含1万日本常见人名,数据来源于网络。
  • 英文常见姓或名:包含2万英文常见姓或名,数据来源于网络。
  • 中文姓氏:包含1千个中文姓氏,已删除罕见姓,复姓仅保留“欧阳”。
  • 称呼词根:包含5千称呼词根,衍生出18万中文称呼。
  • 翻译人名:包含48万翻译人名,混有部分西化中文人名,如“李伯恩”。

数据集整理者

  • 整理者:思南斋
  • 整理日期:2017年04月23日
搜集汇总
数据集介绍
main_image_url
构建方式
针对中文人名的语言学研究需求,Chinese-Names-Corpus数据集通过广泛收集与精心筛选相结合的方式构建而成。该数据集汇集了各类中文人名,并经过筛选移除名人姓名及生僻字姓名,确保了数据的普遍性与实用性。
特点
该数据集特色在于其规模宏大,包含了120万常见中文人名,25万古代中文人名,以及来自不同文化背景的日本与英文名字。特别地,对于中文姓氏的处理,数据集特意删除了罕见姓和大部分复姓,保留了普遍使用的千个中文姓氏,以及丰富的中文称呼词根和翻译人名,增强了其在语言处理任务中的适用性。
使用方法
用户可直接访问该数据集,根据不同的研究或应用需求进行筛选与利用。数据集以纯文本形式提供,便于整合入各类自然语言处理系统。用户在使用时,应遵循数据集的版权和使用规定,确保研究目的的合法性与正当性。
背景与挑战
背景概述
在自然语言处理领域,特别是在中文命名实体识别任务中,高质量的数据集对于模型训练和评估至关重要。Chinese-Names-Corpus中文人名语料库,创建于2017年,由思南斋整理,旨在为研究者提供一个丰富的中文人名数据资源。该数据集包含了120万常见中文人名,25万古代中文人名,以及从网络收集的1万日本常见人名和2万英文常见姓或名等,为中文命名实体的研究提供了坚实的数据基础,对推动相关领域的技术发展产生了显著影响。
当前挑战
尽管Chinese-Names-Corpus为研究领域提供了宝贵的资源,但在实际应用中仍面临诸多挑战。首先,数据集中名人姓名的删除可能导致某些特定研究场景下的信息缺失。其次,古代人名的收集可能因生僻字的删除而影响数据集的完整性。此外,数据集在构建过程中对于罕见姓和复姓的处理,可能限制了其在某些细分领域的适用性。同时,数据集的多样性和覆盖范围在应对跨文化命名实体识别时,也存在着一定的局限性。
常用场景
经典使用场景
在自然语言处理领域,中文人名识别是文本挖掘与信息提取的重要环节。Chinese-Names-Corpus作为一个庞大的中文人名字符串集合,其经典的使用场景主要在于为名实体识别系统提供训练数据,进而实现对中文文本中人名的自动识别与标注。
解决学术问题
该数据集解决了中文人名识别中样本量不足、人名多样化及含有生僻字等问题,为学术研究提供了丰富的、经过筛选的实验样本,有助于提升名实体识别的准确性和鲁棒性,对语言学研究、姓名学及社会人口学等领域同样具有重要的参考价值。
衍生相关工作
基于Chinese-Names-Corpus,研究者们开展了一系列相关的经典工作,包括但不限于人名识别算法的研究、中文命名规则的分析、以及跨语言人名翻译的标准化研究,为相关领域的发展奠定了坚实的基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作