five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2017-12-25 更新2024-05-31 收录
下载链接:
https://github.com/ACGCoder/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏和中文称呼等,用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese personal names, ancient Chinese personal names, Japanese personal names, translated personal names, Chinese surnames, and Chinese titles, designed for Chinese word segmentation and personal name recognition.
创建时间:
2017-12-25
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

数据集概述

  • 用途:中文分词、人名识别。
  • 更新频率:不定期更新,只删词,不加词。

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万。
  • 来源:从亿级人名语料中提取。
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名。
  • 质量:清洗后仍存有少量badcase。

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万。
  • 来源:多个人名词典汇总。
  • 处理:删除了罕见姓氏、带生僻字的人名。
  • 质量:清洗后仍存有少量badcase。

日文人名(Japanese_Names_Corpus)

  • 规模:18万。
  • 来源:从维基百科中提取。
  • 处理:删除了罕见姓氏、带生僻字的人名。
  • 质量:清洗后仍存有少量badcase,尤其是日文地名。

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万。
  • 来源:多个人名词典汇总。
  • 处理:删除了翻译人名常用字之外的人名。
  • 质量:清洗后仍存有少量badcase,尤其是英文地名。

中文姓氏(Chinese_Family_Name)

  • 规模:1千。
  • 来源:从亿级人名语料中提取。
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”。

中文称呼(Chinese_Relationship)

  • 规模:5千(称呼词根),18万(中文称呼)。
  • 来源:多个人名词典汇总。
  • 处理:删除了部分带贬义的称呼。
  • 质量:清洗后仍存有大量badcase。

成语词典(ChengYu_Corpus)

  • 规模:5万。
  • 来源:多个成语词典汇总。
  • 质量:清洗后仍存有少量badcase。

数据集更新历史

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建,基于大规模人名数据,经过筛选与清洗,去除了罕见姓氏和生僻字,同时,为了确保数据质量,还随机删除了部分名人姓名。该语料库包含了常见人名、古代人名、日文人名、翻译人名等多个子集,形成了全面且具有层次性的语言资源。
特点
该数据集的特点在于其规模宏大,覆盖面广,包含了不同时代、不同文化背景的人名数据。经过严格的数据清洗,减少了badcase的干扰,提高了语料库的纯净度和可用性。同时,特别针对中文姓氏和称呼进行了单独的整理,为相关研究提供了便利。
使用方法
使用该数据集时,用户可以根据实际需求选择相应的子集。数据集适用于中文分词、人名识别等自然语言处理任务,用户可通过编程语言直接调用数据进行模型训练或测试。此外,数据集的更新记录详细,方便用户追踪数据变化,确保研究的连续性和准确性。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)作为自然语言处理领域的一个重要资源,其创建旨在为中文分词和人名识别提供高质量的语料支持。该语料库的构建起始于某业余项目,由@思南斋整理并于2017年12月17日进行了最新更新。它涵盖了从亿级人名语料中提取的常见人名、古代人名,以及日文人名和翻译人名等多个子语料库,其中还包含了中文姓氏和称呼的语料。该数据集的构建为研究中文人名的语言特征、文化内涵等提供了基础数据,对中文信息处理领域产生了重要影响。
当前挑战
在构建中文人名语料库的过程中,研究人员面临了诸多挑战。首先,确保人名的真实性和普遍性是一项艰巨的任务,需要从海量数据中提取并清洗出有效的人名数据。其次,罕见姓氏和生僻字的处理,以及badcase的筛选和剔除,对语料库的质量控制提出了更高的要求。此外,针对不同语料库的特定需求,如日文人名和翻译人名的特殊处理,也增加了构建过程的复杂性。在研究领域问题上,如何提高人名识别的准确性和覆盖范围,以及如何在保持数据质量的同时,兼顾数据的多样性和全面性,是该数据集面临的主要挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)的典型应用场景是作为中文分词和人名识别的训练数据。该语料库包含了大量经过清洗和筛选的中文人名,能够帮助机器学习模型有效地区分人名与其他词汇,提高分词和命名实体识别的准确性。
实际应用
在实际应用中,中文人名语料库被广泛用于搜索引擎优化、身份验证系统、社交媒体数据挖掘等领域,为这些系统提供了准确的人名识别功能,进而增强用户体验和系统智能。
衍生相关工作
基于该数据集,学术界和工业界衍生出了多项相关工作,如构建更高效的中文命名实体识别模型、研究人名用字的频率分布、分析姓名文化特征等,推动了中文自然语言处理领域的研究进展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务