five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2021-07-05 更新2024-05-31 收录
下载链接:
https://github.com/fuchaoqun/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含中文常见人名、中文古代人名、中文姓氏、中文称呼等多个子数据集,数据大小从数千到数百万不等,语料来源广泛,包括亿级人名语料和多个人名词典,数据已清洗,但部分数据集仍存有少量badcase。

This dataset encompasses multiple sub-datasets including common Chinese personal names, ancient Chinese personal names, Chinese surnames, and Chinese titles. The data size ranges from several thousand to several million entries. The corpus is sourced from a wide array of references, including a billion-scale personal name corpus and several personal name dictionaries. The data has been cleaned, although a small number of bad cases still exist in some datasets.
创建时间:
2016-12-16
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

中文常见人名(Chinese_Names_Corpus)

  • 数据大小:120万。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。
  • 新增功能:人名生成器。

中文古代人名(Ancient_Names_Corpus)

  • 数据大小:25万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗。

中文姓氏(Chinese_Family_Name)

  • 数据大小:1千。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗。

中文称呼(Chinese_Relationship)

  • 数据大小:5千(称呼词根);18万(中文称呼)。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有大量badcase。

英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

  • 数据大小:48万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有少量badcase,以地名居多。

日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

  • 数据大小:18万。
  • 数据来源:从维基百科中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

  • 数据大小:5万。
  • 语料来源:多个成语词典汇总。
  • 数据清洗:已清洗。

更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
  • 删除了约3万余非人名、或低频人名。 -2018.11.04
  • 删除了2600余非人名、或低频人名。 -2019.04.15
  • 删除了约1万余非人名、或低频人名。 -2019.07.27
  • 将文件移动到文件夹。 -2019.10.21
  • 新增人名生成器。 -2020.01.29
  • 删除了约6万余非人名、或低频人名。 -2020.12.13
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于亿级人名语料的提取与多个人名词典的汇总。数据经过严格的清洗流程,尽管仍存在少量badcase,但整体质量较高。语料库的更新遵循只删词、不加词的原则,确保数据的纯净度。此外,语料库还新增了人名生成器功能,进一步丰富了其应用场景。
特点
该数据集涵盖了中文常见人名、古代人名、姓氏及称呼等多个类别,数据量庞大且多样化。中文常见人名部分包含120万条数据,古代人名部分包含25万条数据,姓氏部分包含1千条数据,称呼部分包含5千条词根和18万条中文称呼。此外,数据集还扩展至英文和日文人名,分别包含48万和18万条数据,展现了其跨语言的应用潜力。
使用方法
中文人名语料库适用于中文分词、人名识别等自然语言处理任务。用户可通过GitHub页面获取数据集,并根据需求进行下载和使用。数据集提供了详细的清洗记录和更新日志,便于用户了解数据的演变过程。此外,新增的人名生成器功能可用于创意取名等场景,进一步拓展了数据集的应用范围。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由业余项目“萌名NameMoe”衍生而来的一个语料库,主要用于中文分词和人名识别。该语料库自2017年起逐步构建,涵盖了中文常见人名、古代人名、姓氏、称呼等多个类别,数据总量超过120万条。语料来源广泛,包括亿级人名语料和多个人名词典的汇总。该语料库的创建旨在为中文自然语言处理任务提供高质量的人名数据支持,尤其在中文分词和人名识别领域具有重要的应用价值。
当前挑战
中文人名语料库在构建过程中面临的主要挑战包括数据清洗的复杂性和数据质量的保证。尽管语料库已经过多次清洗,但仍存在少量badcase,尤其是在中文称呼和翻译人名部分。此外,由于语料来源多样,数据的一致性和准确性难以完全保证,尤其是在处理低频人名和非人名时。另一个挑战是语料库的持续更新与维护,需要不断删除不符合要求的条目,以确保数据的纯净性和实用性。这些挑战使得语料库的构建和维护成为一个长期且复杂的过程。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于中文自然语言处理领域,尤其是在中文分词和人名识别任务中。该数据集通过提供大量经过清洗的中文人名数据,帮助研究人员和开发者构建更精确的分词模型和命名实体识别系统。特别是在处理中文文本时,人名识别往往是一个复杂且具有挑战性的任务,该数据集的存在显著提升了相关算法的性能。
实际应用
在实际应用中,中文人名语料库被广泛用于智能取名工具、社交媒体分析、文本挖掘和信息抽取等领域。例如,基于该数据集的取名工具“萌名NameMoe”能够为用户提供个性化的取名建议,满足不同文化背景和偏好的需求。此外,该数据集还被用于社交媒体平台上的用户画像构建和情感分析,帮助企业和研究机构更好地理解用户行为和偏好。
衍生相关工作
中文人名语料库的发布催生了一系列相关研究和技术应用。例如,基于该数据集的命名实体识别模型在多个自然语言处理竞赛中取得了优异成绩。此外,该数据集还被用于构建多语言人名识别系统,支持跨语言文本处理任务。研究人员还利用该数据集开发了人名生成器,进一步扩展了其在创意写作和虚拟角色生成中的应用场景。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务