five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2019-01-07 更新2024-05-31 收录
下载链接:
https://github.com/howl-anderson/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名等,总计超过200万条记录,用于中文分词和人名识别。

This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, Japanese names, and translated names, totaling over 2 million records. It is utilized for Chinese word segmentation and name recognition.
创建时间:
2018-12-03
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)概述

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模: 120万
  • 来源: 从亿级人名语料中提取
  • 处理: 删除了罕见姓氏、带生僻字的人名及部分名人姓名
  • 问题: 清洗后仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 规模: 25万
  • 来源: 多个人名词典汇总
  • 处理: 删除了罕见姓氏、带生僻字的人名
  • 问题: 清洗后仍存有少量badcase

日文人名(Japanese_Names_Corpus)

  • 规模: 18万
  • 来源: 从维基百科中提取
  • 处理: 删除了罕见姓氏、带生僻字的人名
  • 问题: 清洗后仍存有少量badcase

翻译人名(English_Cn_Name_Corpus)

  • 规模: 48万
  • 来源: 多个人名词典汇总
  • 处理: 删除了翻译人名常用字之外的人名
  • 问题: 清洗后仍存有少量badcase,尤其是英文地名

中文姓氏(Chinese_Family_Name)

  • 规模: 1千
  • 来源: 从亿级人名语料中提取
  • 处理: 删除了罕见姓氏,复姓只保留了“欧阳”

中文称呼(Chinese_Relationship)

  • 规模: 5千(称呼词根),18万(中文称呼)
  • 来源: 多个人名词典汇总
  • 处理: 删除了部分带贬义的称呼
  • 问题: 清洗后仍存有大量badcase

成语词典(ChengYu_Corpus)

  • 规模: 5万
  • 来源: 多个成语词典汇总
  • 问题: 清洗后仍存有少量badcase

数据集更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
  • 删除了约3万余非人名、或低频人名。 -2018.11.4
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建主要采取从大规模人名语料中提取并清洗的方式。具体而言,该语料库从亿级人名数据中提炼出常见人名、古代人名、日文人名、翻译人名等多个子集,并对罕见姓氏、生僻字及带有贬义或特殊含义的称呼进行了剔除,旨在提升语料库的纯净度和实用性。
特点
该数据集的特点在于其规模宏大,覆盖了中文常见人名、古代人名、日文人名等多个维度,同时经过精细化的清洗工作,减少了badcase的干扰。此外,数据集还包含了中文姓氏和称呼的语料,丰富了其在中文分词和人名识别等自然语言处理领域的应用范围。
使用方法
用户可通过直接访问该数据集GitHub仓库来获取数据,数据以文本格式存储,便于导入和使用。适用于中文分词、人名识别等研究或应用场景。在使用过程中,用户应遵守数据使用规范,合理利用数据集资源,避免滥用。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一项旨在为中文分词和人名识别提供高质量语料的数据集项目,由业余项目“萌名”衍生而来。该数据集的创建始于对亿级人名语料进行筛选、清洗和整理,旨在构建一个适用于自然语言处理领域的基础资源库。自项目启动以来,该数据集在中文信息处理领域产生了广泛影响,成为研究者和开发者的重要资源。
当前挑战
在构建中文人名语料库的过程中,研究者面临了多方面的挑战。首先,如何在庞大的数据中筛选出常见且具有代表性的中文人名,同时排除罕见和生僻的姓名,是一大难题。其次,数据清洗过程中,如何准确识别并删除非人名数据,尤其是区分人名与地名的挑战。此外,由于人名具有丰富的文化内涵和多样性,如何确保语料库的广泛适用性和准确性,也是持续面临的挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛用于中文分词与人名识别的研究。其丰富的数据资源为模型训练提供了坚实基础,使得研究者能够构建出更加精准的语言模型,以识别和解析文本中的人名信息。
实际应用
在实际应用中,中文人名语料库被应用于搜索引擎、语音识别、推荐系统等,提高了这些系统处理中文文本的准确性和智能化水平,从而优化了用户体验。
衍生相关工作
基于该语料库,研究人员衍生出了一系列相关工作,如人名生成模型、人名相似度计算等,进一步拓展了人名语料库的应用范围,并促进了相关领域的学术研究进展。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务