five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2019-05-22 更新2024-05-31 收录
下载链接:
https://github.com/qiwsir/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,总计超过200万条记录,用于中文分词和人名识别。

This dataset encompasses multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and more, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition tasks.
创建时间:
2018-11-02
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

数据集概述

  • 用途:可用于中文分词、人名识别。
  • 更新策略:不定期更新,只删词,不加词。

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
  • 状态:清洗后仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万
  • 来源:多个人名词典汇总
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 状态:清洗后仍存有少量badcase

日文人名(Japanese_Names_Corpus)

  • 规模:18万
  • 来源:从维基百科中提取
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 状态:清洗后仍存有少量badcase

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万
  • 来源:多个人名词典汇总
  • 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
  • 状态:清洗后仍存有少量badcase,尤其是英文地名

中文姓氏(Chinese_Family_Name)

  • 规模:1千
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”

中文称呼(Chinese_Relationship)

  • 规模:5千(称呼词根),18万(中文称呼)
  • 来源:多个人名词典汇总
  • 处理:删除了部分带贬义的称呼
  • 状态:清洗后仍存有大量badcase

成语词典(ChengYu_Corpus)

  • 规模:5万
  • 来源:多个成语词典汇总
  • 状态:清洗后仍存有少量badcase

更新历史

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建过程体现了对数据质量的严格把控。该数据集源自业余项目“萌名”,通过从亿级人名语料中提取常见中文人名,并删除了罕见姓氏和带有生僻字的人名,确保数据的实用性和广泛适用性。古代人名、日文人名和翻译人名部分则通过多个人名词典的汇总和清洗,进一步优化了数据的准确性和代表性。数据清洗过程中,特别关注了罕见姓氏和生僻字的剔除,同时保留了部分名人姓名,以增强数据的多样性。
特点
该数据集的特点在于其广泛覆盖了中文常见人名、古代人名、日文人名及翻译人名等多个类别,总计超过200万条数据。每条数据均经过严格的清洗和筛选,剔除了罕见姓氏和生僻字,确保了数据的高质量和实用性。此外,数据集还包含了中文姓氏、称呼及成语词典,进一步丰富了其应用场景。尽管清洗过程中仍存在少量badcase,但整体数据的准确性和代表性依然显著。
使用方法
中文人名语料库(Chinese-Names-Corpus)适用于多种自然语言处理任务,如中文分词、人名识别等。用户可以通过GitHub页面下载数据集,并根据具体需求选择相应的子集进行使用。数据集以文本文件形式提供,便于直接导入到各类NLP工具或框架中进行处理。对于需要进一步清洗或优化的场景,用户可参考项目提供的清洗方法和历史更新记录,以确保数据的最佳使用效果。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一个专注于中文人名及相关语言资源的语料库,最初作为业余项目“萌名”的副产品而创建。该项目由个人开发者维护,自2017年起不定期更新。该语料库涵盖了现代中文人名、古代中文人名、日文人名、翻译人名、中文姓氏、中文称呼及成语词典等多个子集,数据来源广泛,包括亿级人名语料、维基百科及多个人名词典。该数据集的主要研究问题在于为中文分词、人名识别等自然语言处理任务提供高质量的语言资源支持,尤其在中文人名识别领域具有重要的应用价值。
当前挑战
中文人名语料库在构建过程中面临多重挑战。首先,数据清洗是核心难题之一,尽管通过删除罕见姓氏和生僻字人名进行了初步筛选,但仍存在少量badcase,影响了数据的纯净度。其次,数据来源的多样性和复杂性导致数据格式和标准不一致,增加了整合和清洗的难度。此外,日文人名和翻译人名的处理尤为复杂,尤其是日文地名与日文人名的混淆问题,以及翻译人名中混入的西化中文人名,进一步增加了数据清洗的复杂性。最后,数据集的更新和维护依赖于个人开发者,缺乏持续的资源投入,可能导致数据更新不及时或覆盖范围有限。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)在自然语言处理领域中被广泛应用于中文分词和人名识别任务。该数据集通过提供大量经过清洗的中文常见人名、古代人名、日文人名及翻译人名,为研究人员和开发者提供了丰富的语料资源,特别是在处理涉及人名识别的文本分析时,能够显著提升算法的准确性和鲁棒性。
解决学术问题
该数据集有效解决了中文文本处理中人名识别和分词的难题。通过提供大量经过筛选和清洗的人名数据,研究人员可以更好地训练和优化自然语言处理模型,尤其是在处理复杂的中文文本时,能够减少因生僻字或罕见姓氏导致的识别错误。此外,该数据集还为跨语言人名识别提供了支持,推动了多语言文本处理技术的发展。
衍生相关工作
基于中文人名语料库,许多经典的自然语言处理工作得以展开。例如,研究人员利用该数据集开发了更高效的中文分词工具和人名识别算法,这些工具和算法被广泛应用于各类文本分析任务中。此外,该数据集还催生了一些跨语言人名识别的研究,推动了多语言文本处理技术的发展,为全球化的信息处理提供了有力支持。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务