five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2020-06-01 更新2024-05-31 收录
下载链接:
https://github.com/Vulpure/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,每个数据集都从大规模语料中提取并经过清洗,用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, among others. Each sub-dataset is extracted from large-scale corpora and has undergone thorough cleaning, making it suitable for Chinese word segmentation and name recognition tasks.
创建时间:
2019-01-28
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

数据集概述

  • 用途:中文分词、人名识别。
  • 更新策略:不定期更新,只删词,不加词。

数据集组成

  • 中文常见人名(Chinese_Names_Corpus)

    • 规模:120万。
    • 来源:从亿级人名语料中提取。
    • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名。
    • 问题:清洗后仍存有少量badcase。
  • 中文古代人名(Ancient_Names_Corpus)

    • 规模:25万。
    • 来源:多个人名词典汇总。
    • 处理:删除了罕见姓氏、带生僻字的人名。
    • 问题:清洗后仍存有少量badcase。
  • 日文人名(Japanese_Names_Corpus)

    • 规模:18万。
    • 来源:从维基百科中提取。
    • 处理:删除了罕见姓氏、带生僻字的人名。
    • 问题:清洗后仍存有少量badcase。
  • 翻译人名(English_Cn_Name_Corpus)

    • 规模:48万。
    • 来源:多个人名词典汇总。
    • 处理:删除了翻译人名常用字之外的人名。
    • 问题:清洗后仍存有少量badcase,尤其是英文地名。
  • 中文姓氏(Chinese_Family_Name)

    • 规模:1千。
    • 来源:从亿级人名语料中提取。
    • 处理:删除了罕见姓氏,复姓只保留了“欧阳”。
  • 中文称呼(Chinese_Relationship)

    • 规模:5千(称呼词根),18万(中文称呼)。
    • 来源:多个人名词典汇总。
    • 处理:删除了部分带贬义的称呼。
    • 问题:清洗后仍存有大量badcase。
  • 成语词典(ChengYu_Corpus)

    • 规模:5万。
    • 来源:多个成语词典汇总。
    • 问题:清洗后仍存有少量badcase。

更新历史

  • 2017.08.08:删除了1000余非人名。
  • 2017.11.25:删除了5000余非人名。
  • 2017.12.17:新增了18万日文人名。
  • 2017.12.30:删除了1500余非人名(主要是日文地名)。
  • 2018.11.04:删除了约3万余非人名、或低频人名。
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建过程基于大规模数据筛选与清洗。该数据集从亿级人名语料中提取,涵盖了中文常见人名、古代人名、日文人名及翻译人名等多个类别。通过删除罕见姓氏、生僻字人名以及部分低频或非人名数据,确保了数据的广泛适用性与准确性。数据清洗过程中,还特别剔除了部分名人姓名,以保持数据的中立性。
特点
该数据集的特点在于其多样性与广泛性,涵盖了120万中文常见人名、25万古代人名、18万日文人名及48万翻译人名。数据集经过严格清洗,删除了大量罕见姓氏和生僻字人名,但仍保留了少量badcase,以反映真实语料中的复杂性。此外,数据集还包含了中文姓氏、称呼及成语词典,进一步扩展了其应用场景。
使用方法
中文人名语料库适用于中文分词、人名识别等自然语言处理任务。用户可通过加载数据集,利用其丰富的人名信息进行模型训练或测试。对于需要处理多语言人名或历史人名的场景,该数据集提供了古代人名和日文人名等类别,便于跨语言或跨时代的分析。此外,数据集中的中文称呼和成语词典也可用于相关领域的文本分析与生成任务。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由业余项目‘萌名’衍生出的一个数据集,主要用于中文分词和人名识别。该数据集自2017年起逐步更新,涵盖了中文常见人名、古代人名、日文人名、翻译人名、中文姓氏、中文称呼以及成语词典等多个子集。其核心研究问题在于如何通过大规模语料库技术,提升中文人名识别的准确性和效率。该数据集在自然语言处理领域具有重要影响力,尤其是在中文信息处理和跨语言人名识别方面,为相关研究提供了宝贵的数据支持。
当前挑战
中文人名语料库在构建和应用过程中面临多重挑战。首先,数据清洗的复杂性不容忽视,尽管已经删除了罕见姓氏和生僻字人名,但仍存在少量badcase,影响了数据集的纯净度。其次,跨语言人名的识别与翻译问题尤为突出,尤其是在翻译人名子集中,混有少量西化中文人名和英文地名,增加了数据处理的难度。此外,数据集的更新和维护也面临挑战,由于数据来源多样且更新频率不固定,如何保持数据的时效性和完整性成为一大难题。这些挑战不仅影响了数据集的直接应用,也对相关领域的研究提出了更高的要求。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于自然语言处理领域,特别是在中文分词和人名识别任务中。该数据集通过提供大量经过清洗的中文常见人名、古代人名、日文人名以及翻译人名,为研究人员和开发者提供了一个高质量的基准数据集。其丰富的语料内容不仅支持基础的语言学研究,还为机器学习和深度学习模型提供了训练和测试的基础。
实际应用
在实际应用中,中文人名语料库被广泛用于智能输入法、搜索引擎优化、社交媒体分析等领域。例如,智能输入法可以利用该数据集提高人名输入的准确性和效率;搜索引擎则可以通过该数据集优化人名相关的搜索结果,提升用户体验。此外,社交媒体平台也可以利用该数据集进行人名识别,从而更好地进行用户画像分析和内容推荐。
衍生相关工作
基于中文人名语料库,许多经典的自然语言处理工作得以展开。例如,研究人员利用该数据集开发了高效的中文分词工具和人名识别算法,这些工具和算法在学术界和工业界得到了广泛应用。此外,该数据集还催生了一系列跨语言人名识别的研究,特别是在处理日文人名和翻译人名时,推动了多语言自然语言处理技术的发展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务