five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2020-06-30 更新2024-05-31 收录
下载链接:
https://github.com/songpeng-inspur/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含中文常见人名、中文古代人名、中文姓氏、中文称呼、英文人名、日文人名等多个数据集,用于中文分词和人名识别。

This dataset encompasses a variety of data including common Chinese personal names, ancient Chinese personal names, Chinese surnames, Chinese titles, English personal names, and Japanese personal names, designed for Chinese word segmentation and personal name recognition.
创建时间:
2020-01-04
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

中文常见人名(Chinese_Names_Corpus)

  • 数据大小:120万。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。
  • 新增性别标注。

中文古代人名(Ancient_Names_Corpus)

  • 数据大小:25万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗。

中文姓氏(Chinese_Family_Name)

  • 数据大小:1千。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗。

中文称呼(Chinese_Relationship)

  • 数据大小:5千,称呼词根;18万,中文称呼。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有大量badcase。

英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

  • 数据大小:48万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有少量badcase,以地名居多。

日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

  • 数据大小:18万。
  • 数据来源:从维基百科中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

  • 数据大小:5万。
  • 语料来源:多个成语词典汇总。
  • 数据清洗:已清洗。
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于从亿级人名语料中提取的常见中文人名、古代人名、姓氏及称呼,并结合多个人名词典进行汇总。数据经过严格清洗,尽管仍存在少量badcase,但整体质量较高。此外,数据集还包含了英文翻译人名和日文人名,分别从多个人名词典和维基百科中提取,并经过相应的清洗处理。
特点
该数据集涵盖了120万中文常见人名、25万中文古代人名、1千中文姓氏、5千称呼词根及18万中文称呼,以及48万英文翻译人名和18万日文人名。数据经过多次清洗,删除了大量非人名或低频人名,确保了数据的纯净度。此外,部分数据还新增了性别标注,进一步丰富了数据集的维度。
使用方法
中文人名语料库适用于中文分词、人名识别等自然语言处理任务。用户可以通过GitHub获取数据集,并根据需求进行相应的处理和分析。由于数据集不定期更新,建议用户在使用前检查最新版本,以确保数据的时效性和准确性。同时,用户应遵守数据使用规范,避免将数据集用于商业用途或未经授权的传播。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一个由业余项目“萌名NameMoe”衍生而来的数据集,主要用于中文分词和人名识别。该数据集自2017年起逐步构建,涵盖了中文常见人名、古代人名、姓氏、称呼等多个类别,数据量达到数百万条。语料来源广泛,包括亿级人名语料和多个人名词典,经过多次清洗和更新,确保了数据的质量。该数据集在自然语言处理领域,尤其是中文文本处理和人名识别任务中,具有重要的应用价值。
当前挑战
中文人名语料库在构建和应用过程中面临多重挑战。首先,数据清洗的复杂性是一个显著问题,尽管经过多次清洗,数据中仍存在少量badcase,尤其是在称呼和翻译人名部分。其次,语料的多样性和覆盖范围有限,古代人名和日文人名的数据量相对较少,可能影响模型的泛化能力。此外,数据更新频率较低,且主要依赖手动删除非人名数据,导致数据集的时效性和完整性受到限制。最后,数据集的构建过程中还面临版权和伦理问题,需确保语料来源的合法性和合规性。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于自然语言处理领域,特别是在中文分词和人名识别任务中。该数据集通过提供大量经过清洗的中文人名数据,帮助研究人员和开发者构建更精确的分词模型和命名实体识别系统。其丰富的语料来源和细致的清洗过程,确保了数据的高质量和实用性。
实际应用
在实际应用中,中文人名语料库被广泛用于智能客服、社交媒体分析、文本挖掘等领域。例如,在智能客服系统中,准确识别用户姓名可以提升个性化服务的质量;在社交媒体分析中,人名识别有助于追踪用户行为和兴趣。此外,该数据集还为取名工具提供了丰富的参考数据,帮助用户生成符合文化背景的名字。
衍生相关工作
基于中文人名语料库,许多经典的自然语言处理工作得以展开。例如,研究者利用该数据集开发了高效的中文分词算法和命名实体识别模型。此外,该数据集还催生了一系列关于人名文化和社会语言学的研究,探讨了人名在不同历史时期和社会背景下的演变规律。这些工作不仅推动了学术研究的进展,也为实际应用提供了有力支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务