five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2020-09-14 更新2024-05-31 收录
下载链接:
https://github.com/replive/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名、翻译人名、中文姓氏、中文称呼和成语词典等,用于中文分词、人名识别等领域。

This dataset comprises multiple sub-datasets, including common Chinese personal names, ancient Chinese personal names, Japanese personal names, translated personal names, Chinese surnames, Chinese appellations, and idiom dictionaries. It is utilized in fields such as Chinese word segmentation and personal name recognition.
创建时间:
2018-10-18
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)概述

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
  • 现状:清洗后仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万
  • 来源:多个人名词典汇总
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 现状:清洗后仍存有少量badcase

日文人名(Japanese_Names_Corpus)

  • 规模:18万
  • 来源:从维基百科中提取
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 现状:清洗后仍存有少量badcase

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万
  • 来源:多个人名词典汇总
  • 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
  • 现状:清洗后仍存有少量badcase,尤其是英文地名

中文姓氏(Chinese_Family_Name)

  • 规模:1千
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”

中文称呼(Chinese_Relationship)

  • 称呼词根规模:5千
  • 中文称呼规模:18万
  • 来源:多个人名词典汇总
  • 处理:删除了部分带贬义的称呼
  • 现状:清洗后仍存有大量badcase

成语词典(ChengYu_Corpus)

  • 规模:5万
  • 来源:多个成语词典汇总
  • 现状:清洗后仍存有少量badcase

更新记录

  • 2017.08.08:删除了1000余非人名
  • 2017.11.25:删除了5000余非人名
  • 2017.12.17:新增了18万日文人名
  • 2017.12.30:删除了1500余非人名(主要是日文地名)
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建源于业余项目“萌名”,该项目旨在开发一个基于语料库技术的取名工具。该数据集通过从亿级人名语料中提取常见人名,并删除了罕见姓氏和带有生僻字的人名,以确保数据的实用性和准确性。此外,数据集还包含了从维基百科和多个人名词典中提取的古代人名、日文人名和翻译人名,经过严格的清洗和筛选,确保了数据的多样性和代表性。
使用方法
中文人名语料库(Chinese-Names-Corpus)可用于中文分词、人名识别等自然语言处理任务。用户可以通过GitHub获取数据集,并根据需要选择特定类别的人名数据进行处理。数据集以文本文件形式提供,便于直接读取和使用。在使用过程中,用户应注意数据集中可能存在的少量badcase,并结合具体应用场景进行适当的数据清洗和预处理。此外,数据集还可用于研究人名文化、历史变迁以及跨文化人名对比等领域。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是一个专注于中文人名及相关语言资源的语料库,最初作为业余项目“萌名”的副产品而创建。该项目由个人开发者维护,旨在为中文分词、人名识别等自然语言处理任务提供高质量的数据支持。语料库涵盖了现代中文人名、古代中文人名、日文人名、翻译人名、中文姓氏、中文称呼及成语词典等多个子集,数据来源包括亿级人名语料、维基百科及多个人名词典。自2017年起,该语料库经过多次更新与清洗,逐步优化了数据的准确性与实用性。尽管其规模庞大且覆盖广泛,但仍保留了少量badcase,体现了数据清洗的复杂性与挑战性。
当前挑战
中文人名语料库在构建与应用过程中面临多重挑战。首先,数据清洗的复杂性尤为突出,尽管已删除了罕见姓氏和生僻字人名,但仍存在少量badcase,影响了数据的纯净度。其次,语料库的覆盖范围广泛,涉及现代与古代中文人名、日文人名及翻译人名等,不同语言与文化背景的差异增加了数据整合的难度。此外,语料库的更新与维护依赖于个人开发者,其资源与精力有限,可能导致数据更新的滞后性。最后,语料库在实际应用中需应对中文分词与人名识别的技术难题,尤其是在处理多音字、同音字及文化差异时,模型的准确性与鲁棒性仍需进一步提升。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)在自然语言处理领域中被广泛应用于中文分词和人名识别任务。该数据集通过提供大量清洗过的中文常见人名、古代人名、日文人名及翻译人名,为研究者提供了丰富的语料资源,助力于提升中文文本处理系统的准确性和效率。
解决学术问题
该数据集有效解决了中文文本处理中人名识别和分词的难题。通过提供高质量的人名语料,研究者能够训练出更精准的模型,减少因人名识别错误导致的文本理解偏差。此外,该数据集还为跨语言人名翻译和古代人名研究提供了宝贵的数据支持,推动了相关学术领域的发展。
实际应用
在实际应用中,中文人名语料库被广泛应用于智能客服、搜索引擎优化、社交媒体分析等领域。例如,在智能客服系统中,准确识别用户姓名有助于提升个性化服务体验;在搜索引擎中,精确的人名识别能够提高搜索结果的相关性;在社交媒体分析中,人名识别技术有助于挖掘用户关系和社交网络结构。
数据集最近研究
最新研究方向
中文人名语料库(Chinese-Names-Corpus)作为中文自然语言处理领域的重要资源,近年来在中文分词、人名识别等任务中发挥了关键作用。随着深度学习技术的快速发展,该数据集被广泛应用于命名实体识别(NER)模型的训练与优化,尤其是在处理中文人名时,能够有效提升模型的准确性和泛化能力。此外,随着跨语言研究的兴起,该数据集中的日文人名和翻译人名部分也为中日、中英双语命名实体识别提供了宝贵的数据支持。近期研究热点包括基于该数据集的低资源语言人名识别、多语言人名对齐以及历史人名挖掘等方向,这些研究不仅推动了中文信息处理技术的进步,也为文化传承和跨文化交流提供了新的视角。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务