five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2021-12-30 更新2024-05-31 收录
下载链接:
https://github.com/project-store/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,用于中文分词、人名识别等应用。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, among others. It is designed for applications such as Chinese word segmentation and name recognition.
创建时间:
2018-10-18
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

数据集概述

  • 用途:中文分词、人名识别。
  • 更新策略:不定期更新,只删词,不加词。

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万。
  • 来源:从亿级人名语料中提取。
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名。
  • 现状:清洗后仍存有少量badcase。

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万。
  • 来源:多个人名词典汇总。
  • 处理:删除了罕见姓氏、带生僻字的人名。
  • 现状:清洗后仍存有少量badcase。

日文人名(Japanese_Names_Corpus)

  • 规模:18万。
  • 来源:从维基百科中提取。
  • 处理:删除了罕见姓氏、带生僻字的人名。
  • 现状:清洗后仍存有少量badcase。

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万。
  • 来源:多个人名词典汇总。
  • 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名。
  • 现状:清洗后仍存有少量badcase,尤其是英文地名。

中文姓氏(Chinese_Family_Name)

  • 规模:1千。
  • 来源:从亿级人名语料中提取。
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”。

中文称呼(Chinese_Relationship)

  • 规模:5千(称呼词根),18万(中文称呼)。
  • 来源:多个人名词典汇总。
  • 处理:删除了部分带贬义的称呼。
  • 现状:清洗后仍存有大量badcase。

成语词典(ChengYu_Corpus)

  • 规模:5万。
  • 来源:多个成语词典汇总。
  • 现状:清洗后仍存有少量badcase。

更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建源于业余项目“萌名”,该项目专注于基于语料库技术的取名工具。数据集通过从亿级人名语料中提取,并经过严格的清洗和筛选过程,删除了罕见姓氏和带有生僻字的人名,以确保数据的质量和实用性。此外,数据集还包含了从维基百科和多个人名词典中提取的日文人名和翻译人名,进一步丰富了语料库的多样性。
特点
该数据集涵盖了中文常见人名、古代人名、日文人名、翻译人名、中文姓氏、中文称呼以及成语词典等多个子集,总计超过200万条数据。每个子集都经过精心筛选和清洗,删除了罕见和不规范的条目,确保了数据的准确性和代表性。尽管清洗后仍存在少量badcase,但整体数据质量较高,适用于中文分词、人名识别等自然语言处理任务。
使用方法
中文人名语料库可用于多种自然语言处理任务,如中文分词、人名识别和文本分析等。用户可以通过GitHub页面下载数据集,并根据具体需求选择相应的子集进行使用。数据集以文本文件形式提供,便于直接读取和处理。对于需要进一步清洗或扩展数据的用户,可以参考GitHub页面上的数据清洗过程分享,以便更好地理解和利用该数据集。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由业余项目“萌名”衍生出的一个综合性语料库,主要用于中文分词和人名识别。该数据集由多个子集构成,包括中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏、中文称呼以及成语词典等,涵盖了广泛的语言和文化背景。数据集自2017年起逐步更新,通过从亿级人名语料中提取并清洗,删除了罕见姓氏和生僻字人名,确保了数据的实用性和代表性。该语料库的创建为中文自然语言处理领域提供了重要的基础资源,尤其在命名实体识别和跨文化人名研究中具有显著影响力。
当前挑战
中文人名语料库在构建过程中面临多重挑战。首先,数据清洗的复杂性较高,尤其是在处理罕见姓氏、生僻字以及跨文化人名时,难以完全避免badcase的存在。其次,数据集的多样性和广泛性要求对不同语言和文化背景的人名进行统一处理,这对数据标准化提出了较高要求。此外,由于数据来源的多样性,如何确保数据的准确性和一致性也是一个重要问题。最后,数据集的更新和维护需要持续投入,以确保其时效性和实用性,这对资源有限的业余项目而言是一个长期挑战。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)在自然语言处理领域中被广泛应用于中文分词和人名识别任务。该数据集通过提供大量经过清洗的中文常见人名、古代人名、日文人名以及翻译人名,为研究者提供了丰富的语料资源,特别是在处理中文文本时,能够有效提升人名识别的准确性和分词系统的性能。
解决学术问题
该数据集解决了中文自然语言处理中人名识别和分词的核心问题。通过提供高质量的人名语料,研究者能够训练出更加精确的模型,减少人名识别中的误判和漏判现象。此外,该数据集还为跨语言人名翻译和古代人名研究提供了宝贵的资源,推动了相关领域的研究进展。
衍生相关工作
基于中文人名语料库,许多经典的自然语言处理工作得以衍生。例如,研究者利用该数据集开发了更高效的中文分词工具和命名实体识别系统。此外,该数据集还为跨语言人名翻译模型提供了训练数据,推动了多语言处理技术的发展。一些研究还利用该数据集进行古代人名的历史和文化分析,拓展了人文学科的研究视野。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务