five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2018-10-11 更新2024-05-31 收录
下载链接:
https://github.com/yandong2023/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,每个数据集都经过清洗,用于中文分词、人名识别等应用。

This dataset encompasses multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, among others. Each sub-dataset has been meticulously cleaned and is intended for applications such as Chinese word segmentation and name recognition.
创建时间:
2018-10-11
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)概述

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
  • 问题:清洗后仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万
  • 来源:多个人名词典汇总
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 问题:清洗后仍存有少量badcase

日文人名(Japanese_Names_Corpus)

  • 规模:18万
  • 来源:从维基百科中提取
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 问题:清洗后仍存有少量badcase

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万
  • 来源:多个人名词典汇总
  • 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
  • 问题:清洗后仍存有少量badcase,尤其是英文地名

中文姓氏(Chinese_Family_Name)

  • 规模:1千
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”

中文称呼(Chinese_Relationship)

  • 规模:5千(称呼词根),18万(中文称呼)
  • 来源:多个人名词典汇总
  • 处理:删除了部分带贬义的称呼
  • 问题:清洗后仍存有大量badcase

成语词典(ChengYu_Corpus)

  • 规模:5万
  • 来源:多个成语词典汇总
  • 问题:清洗后仍存有少量badcase

更新历史

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建,源于对亿级人名语料进行深度挖掘与筛选,旨在为中文分词与人名识别提供高质量的训练数据。该语料库通过剔除罕见姓氏、生僻字以及部分名人姓名,并对数据进行随机清洗,以消除噪声,提升数据质量。
使用方法
用户可依据具体需求,选取相应的子集进行使用。数据集以文本形式存储,易于导入至各类自然语言处理工具中进行模型训练或算法研究。同时,项目维护者亦提供了数据清洗过程的分享,以便用户更好地理解数据集的构建过程及使用方法。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)作为自然语言处理领域的重要资源,其创建旨在服务于分词和人名识别任务。该语料库源自萌名项目,由@萌名整理并持续更新,其核心包含120万中文常见人名、25万中文古代人名、18万日文人名以及48万翻译人名等子集。自2017年起,该数据集经历了多次清洗与更新,删除非人名及罕见姓氏,提高了数据质量。该语料库的构建对于推动中文命名实体识别、文本挖掘等研究领域的发展具有重要意义。
当前挑战
在构建中文人名语料库的过程中,研究者面临了诸多挑战。首先,如何从庞大的原始人名数据中提取并筛选出具有代表性的样本是一大难题。其次,数据清洗过程中,罕见姓氏和生僻字的去除、badcase的筛选,以及保持数据多样性和准确性的平衡,均考验着研究者的数据处理能力。此外,针对所解决的领域问题,例如在中文分词和人名识别中,如何有效利用该语料库提高模型的准确性和鲁棒性,也是当前研究者和工程师需要克服的技术挑战。
常用场景
经典使用场景
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)被广泛用于中文分词与人名识别任务。该数据集提供了大量经过清洗的中文人名实例,有助于模型学习并精确地区分文本中的普通词汇与人名,从而提高分词与人名识别的准确性。
解决学术问题
该数据集有效解决了自然语言处理中的人名识别难题,尤其是在处理中文文本时,由于人名的复杂性和多样性,识别工作尤为挑战。通过提供丰富的人名样本,该数据集助力学术研究者训练出更加精确的识别模型,对于改善中文信息处理技术具有重要的研究价值。
实际应用
在实际应用中,中文人名语料库被用于搜索引擎、语音识别、文本挖掘等多种场景,以增强系统对中文人名的理解和处理能力,进而提升用户体验和信息处理的准确度。
数据集最近研究
最新研究方向
在自然语言处理领域,中文人名语料库(Chinese-Names-Corpus)的应用正日益广泛。该数据集涵盖了丰富的中文人名资源,为研究姓名学、社会学以及语言文化提供了宝贵的资料。目前,该数据集在前沿研究方向上主要涉及提升中文分词准确性、人名识别算法优化等领域。通过深度学习技术的运用,研究人员能够更精确地识别文本中的中文人名,这对于构建智能问答系统、搜索引擎优化等具有重要意义。此外,该数据集在关联的热点事件中,如社交媒体数据分析、网络舆情监测等方面也展现出其独特的价值,为相关研究提供了有力支撑。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务