five

中文人名语料库(Chinese-Names-Corpus)

收藏
github2021-11-22 更新2024-05-31 收录
下载链接:
https://github.com/Explorer1092/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
包含多种类型的人名数据集,如中文常见人名、古代人名、姓氏、称呼等,数据大小从数千到数百万不等,来源广泛,经过数据清洗处理。

This dataset encompasses a variety of personal names, including common Chinese names, ancient names, surnames, and titles. The data volume ranges from several thousand to several million entries, sourced from a wide array of origins and has undergone thorough data cleaning processes.
创建时间:
2018-11-22
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

中文常见人名(Chinese_Names_Corpus)

  • 数据大小:120万。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文古代人名(Ancient_Names_Corpus)

  • 数据大小:25万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗。

中文姓氏(Chinese_Family_Name)

  • 数据大小:1千。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗。

中文称呼(Chinese_Relationship)

  • 数据大小:5千,称呼词根;18万,中文称呼。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有大量badcase。

英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

  • 数据大小:48万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有少量badcase,以地名居多。

日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

  • 数据大小:18万。
  • 数据来源:从维基百科中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

  • 数据大小:5万。
  • 语料来源:多个成语词典汇总。
  • 数据清洗:已清洗。

更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
  • 删除了约3万余非人名、或低频人名。 -2018.11.04
  • 删除了2600余非人名、或低频人名。 -2019.04.15
  • 删除了约1万余非人名、或低频人名。 -2019.07.27
  • 将文件移动到文件夹。 -2019.10.21
  • 新增人名生成器。 -2020.01.29
  • 删除了约6万余非人名、或低频人名。 -2020.12.13
  • 更新人名生成器。 -2021.11.22
  • 删除了约700余非人名、或低频人名。 -2022.11.30
搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于大数据和自然语言处理技术。通过分词工具对海量文本进行分词和词频统计,经过数据清洗后,形成了千万级的人名词典。在此基础上,进一步对数据进行性别、年龄、拼音、情感、人名指数等多维度标记,最终构建了包含5600万+中文人名的人名图谱。数据来源包括亿级人名语料、多个人名词典以及维基百科等,确保了数据的广泛性和多样性。
特点
该数据集涵盖了中文常见人名、古代人名、姓氏、称呼等多个子集,数据规模庞大且分类细致。中文常见人名子集包含120万条数据,古代人名子集包含25万条数据,姓氏子集包含1千条数据,称呼子集包含5千条词根和18万条中文称呼。此外,数据集还提供了英文和日文人名语料库,进一步扩展了其应用范围。数据经过多次清洗,但仍保留了少量badcase,反映了真实语料的复杂性。
使用方法
中文人名语料库适用于中文分词、人名识别、自然语言处理等场景。用户可以通过加载数据集,利用其丰富的标注信息进行人名识别模型的训练与优化。此外,数据集还提供了人名生成器功能,可用于生成符合特定条件的中文人名。对于研究古代文化或跨语言人名识别的用户,古代人名和日文人名子集提供了宝贵的资源。使用过程中,建议结合数据清洗工具进一步优化数据质量,以提高模型性能。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由萌名(NameMoe)团队基于大数据和自然语言处理技术构建的综合性人名数据集。该数据集创建于2017年,主要研究人员通过分词工具对海量文本进行分词和词频统计,经过数据清洗后,形成了包含5600万+中文人名图谱的庞大语料库。该数据集不仅涵盖了现代中文人名,还包括古代人名、姓氏、称呼等多个子集,广泛应用于中文分词、人名识别等自然语言处理任务。其构建过程体现了对中文命名文化的深入理解,并为相关领域的研究提供了重要的数据支持。
当前挑战
中文人名语料库在构建过程中面临多重挑战。首先,数据清洗的复杂性不容忽视,尽管经过多次清洗,仍存在少量badcase,尤其是在称呼和翻译人名部分。其次,人名识别任务本身具有较高的难度,尤其是在处理低频人名或非标准命名时,容易产生误判。此外,跨语言人名(如日文人名)的识别与清洗也带来了额外的复杂性,特别是在区分人名与地名时。这些挑战不仅影响了数据集的精度,也对后续的自然语言处理任务提出了更高的要求。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于自然语言处理领域,尤其是在中文分词和人名识别任务中。该数据集通过海量文本的分词和词频统计,构建了包含5600万+的中文人名图谱,为研究者提供了丰富的语料资源。在中文信息处理系统中,该数据集常被用于提升人名识别的准确性和分词系统的性能,尤其在处理复杂的中文文本时,能够有效识别和区分人名与其他词汇。
解决学术问题
中文人名语料库解决了中文自然语言处理中的关键问题,如人名识别的模糊性和分词系统的精度提升。通过对海量文本的分词和词频统计,该数据集为研究者提供了高质量的人名语料,支持性别、年龄、拼音等多维度标记,显著提升了人名识别的准确性和分词系统的鲁棒性。此外,该数据集还为中文命名实体识别、情感分析等任务提供了重要支持,推动了中文自然语言处理技术的发展。
衍生相关工作
中文人名语料库的发布催生了一系列相关研究工作,尤其是在中文自然语言处理领域。基于该数据集,研究者开发了多种人名识别算法和分词工具,显著提升了中文文本处理的效率。此外,该数据集还支持了中文命名实体识别、情感分析等任务的研究,推动了相关领域的技术进步。例如,基于该数据集的人名生成器工具,为中文取名和文化研究提供了新的思路和方法。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务