five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2023-04-09 更新2024-05-31 收录
下载链接:
https://github.com/shengqi158/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含120万常见中文人名,已删除名人姓名;25万古代中文人名,已删除罕见姓和部分带生僻字的人名;1万日本常见人名;2万英文常见姓或名;1千个中文姓氏,已删除罕见姓,复姓只保留了‘欧阳’;5千称呼词根,18万中文称呼。

This dataset comprises 1.2 million common Chinese personal names, excluding those of celebrities; 250,000 ancient Chinese personal names, with rare surnames and names containing uncommon characters removed; 10,000 common Japanese personal names; 20,000 common English surnames or given names; 1,000 Chinese surnames, with rare surnames removed and only the compound surname 'Ouyang' retained; 5,000 appellation roots, and 180,000 Chinese appellations.
创建时间:
2017-04-12
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)概述

数据集内容

  • 常见中文人名:包含120万人名,已删除名人姓名。
  • 古代中文人名:包含25万人名,已删除罕见姓和部分带生僻字的人名。
  • 日本常见人名:包含1万人名,数据来源于网络。
  • 英文常见姓或名:包含2万人名,数据来源于网络。
  • 中文姓氏:包含1千个姓氏,已删除罕见姓,复姓只保留了“欧阳”。
  • 称呼词根:包含5千个词根,衍生出18万中文称呼。

后续更新计划

  • 计划添加翻译人名,预计数量为10万个。
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于多源数据的整合与筛选。该数据集涵盖了120万常见中文人名,其中剔除了名人姓名以确保数据的普遍性。此外,还包含了25万古代中文人名,经过筛选去除了罕见姓氏和带有生僻字的人名。数据集还纳入了1万日本常见人名和2万英文常见姓或名,均来源于网络公开数据。中文姓氏部分则保留了1千个常见姓氏,并特别保留了复姓“欧阳”。称呼词根部分包含了5千个词根和18万中文称呼,进一步丰富了数据集的多样性。
特点
该数据集的特点在于其广泛覆盖了不同语言和文化背景下的人名,包括现代中文人名、古代中文人名、日本常见人名以及英文常见姓或名。数据集经过精心筛选,剔除了不常见或带有生僻字的姓名,确保了数据的实用性和代表性。此外,数据集还包含了丰富的称呼词根和中文称呼,为自然语言处理任务提供了丰富的语义资源。
使用方法
中文人名语料库(Chinese-Names-Corpus)适用于多种自然语言处理任务,如人名识别、文本生成、机器翻译等。研究人员可以通过该数据集进行人名相关的模型训练和测试,提升模型在处理多语言人名时的准确性和鲁棒性。数据集的结构清晰,易于加载和处理,用户可以根据需求选择特定部分的数据进行使用。此外,数据集还支持后续的扩展和更新,用户可以根据实际需求进行定制化处理。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)由思南斋于2017年4月整理发布,旨在为自然语言处理领域提供丰富的中文人名资源。该数据集涵盖了120万常见中文人名、25万古代中文人名、1万日本常见人名、2万英文常见姓或名、1千个中文姓氏以及5千称呼词根和18万中文称呼。通过删除名人姓名、罕见姓氏及生僻字人名,确保了数据的实用性和代表性。该数据集为中文命名实体识别、机器翻译、语音识别等任务提供了重要支持,推动了相关领域的研究进展。
当前挑战
中文人名语料库在构建过程中面临多重挑战。首先,中文人名的多样性和复杂性使得数据清洗和标准化成为关键难题,尤其是古代人名和生僻字的处理。其次,数据来源的多样性和质量不一,增加了数据整合的难度。此外,跨语言人名的收录与翻译工作也面临文化差异和语言障碍的挑战。未来,如何高效扩展数据集规模,尤其是翻译人名的收录,仍需解决数据获取、标注和验证的技术难题。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于自然语言处理领域,特别是在中文文本处理、机器翻译和语音识别系统中。该数据集为研究人员提供了丰富的姓名资源,用于训练和测试算法,以提高系统对中文姓名的识别准确率和处理效率。
解决学术问题
该数据集解决了中文自然语言处理中的一个关键问题,即如何有效地识别和处理中文姓名。通过提供大量常见和古代中文人名,以及一定数量的日本和英文人名,该数据集帮助研究者在多语言环境中更好地理解和处理姓名信息,从而推动了跨语言文本处理技术的发展。
衍生相关工作
基于中文人名语料库,研究者们开发了多种先进的自然语言处理工具和算法。例如,一些研究利用该数据集训练深度学习模型,以提高中文文本的自动标注和分类准确性。此外,该数据集还促进了跨文化姓名识别技术的研究,为全球化的信息处理提供了重要支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务