five

中文常见人名(Chinese_Names_Corpus)

收藏
github2019-04-18 更新2024-05-31 收录
下载链接:
https://github.com/fusijie/Chinese-Names-Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
120万。从亿级人名语料中提取。删除了罕见姓氏、和带生僻字的人名。随机删除了部分名人姓名(一点点小私心)。清洗后仍存有少量badcase。

1.2 million. Extracted from a corpus of hundreds of millions of personal names. Rare surnames and names containing uncommon characters have been removed. A small number of celebrity names were randomly deleted (a slight personal preference). After cleaning, a few bad cases still remain.
创建时间:
2019-01-23
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)概述

数据集组成

中文常见人名(Chinese_Names_Corpus)

  • 规模:120万
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
  • 状态:清洗后仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 规模:25万
  • 来源:多个人名词典汇总
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 状态:清洗后仍存有少量badcase

日文人名(Japanese_Names_Corpus)

  • 规模:18万
  • 来源:从维基百科中提取
  • 处理:删除了罕见姓氏、带生僻字的人名
  • 状态:清洗后仍存有少量badcase

翻译人名(English_Cn_Name_Corpus)

  • 规模:48万
  • 来源:多个人名词典汇总
  • 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
  • 状态:清洗后仍存有少量badcase,尤其是英文地名

中文姓氏(Chinese_Family_Name)

  • 规模:1千
  • 来源:从亿级人名语料中提取
  • 处理:删除了罕见姓氏,复姓只保留了“欧阳”

中文称呼(Chinese_Relationship)

  • 规模:5千(称呼词根),18万(中文称呼)
  • 来源:多个人名词典汇总
  • 处理:删除了部分带贬义的称呼
  • 状态:清洗后仍存有大量badcase

成语词典(ChengYu_Corpus)

  • 规模:5万
  • 来源:多个成语词典汇总
  • 状态:清洗后仍存有少量badcase

数据集更新历史

  • 2017.08.08:删除了1000余非人名
  • 2017.11.25:删除了5000余非人名
  • 2017.12.17:新增了18万日文人名
  • 2017.12.30:删除了1500余非人名(主要是日文地名)
  • 2018.11.04:删除了约3万余非人名、或低频人名
搜集汇总
数据集介绍
main_image_url
构建方式
中文常见人名(Chinese_Names_Corpus)的构建,源于亿级人名语料,经过筛选与清洗,去除了罕见姓氏、生僻字人名及部分名人姓名,确保了数据集的实用性与泛化能力。
使用方法
用户可直接利用该数据集进行中文分词与人名识别的训练与测试。数据集以文本格式存储,用户需根据具体的任务需求,进行适当的预处理,如格式转换、编码统一等,以满足模型的输入要求。
背景与挑战
背景概述
中文常见人名(Chinese_Names_Corpus)数据集,作为业余项目“萌名”的副产品,其创建旨在为中文分词和人名识别提供高质量的语料支持。该数据集自亿级人名语料中提取,经专业人员筛选,去除了罕见姓氏及带有生僻字的人名,并适当随机删除了部分名人姓名,以减少数据集中的偏差。该数据集自推出以来,对于自然语言处理领域,尤其是中文命名实体识别任务,贡献显著,为相关研究提供了宝贵的资源。
当前挑战
尽管中文常见人名数据集在构建过程中采取了多种清洗策略,但仍然面临一些挑战。首先,数据集中存在少量badcase,这些错误案例可能对模型的训练和评估造成干扰。其次,构建过程中如何平衡数据集的多样性和准确性,避免引入过多的噪声数据,是一个持续的挑战。此外,随着语言使用的变迁,数据集的时效性也需要不断更新和维护。在领域问题上,该数据集解决的中文分词和人名识别任务,面临着识别准确率和召回率之间的权衡,以及如何处理多音字和同名人名的挑战。
常用场景
经典使用场景
在自然语言处理领域,中文常见人名(Chinese_Names_Corpus)数据集的典型应用场景是作为训练集,用于提升中文分词和人名识别的准确性。该数据集通过大规模真实人名的集合,为模型训练提供了丰富的样本资源,使得模型能够更好地理解和区分人名与普通词汇。
解决学术问题
该数据集有效地解决了中文自然语言处理中的人名识别问题,提高了分词的精确度,对于避免在文本处理中错误分割人名具有重要意义。它为学术研究提供了可靠的基础数据,对于研究社会语言学、人名文化以及姓名学等领域具有显著影响。
实际应用
在实际应用中,中文常见人名数据集被广泛应用于搜索引擎、社交媒体、智能客服等场景,以增强系统对中文人名的识别能力,优化用户体验,并在信息检索和数据分析中发挥重要作用。
数据集最近研究
最新研究方向
中文常见人名(Chinese_Names_Corpus)数据集在自然语言处理领域中被广泛用于中文分词和人名识别任务。近期研究聚焦于提高人名识别的准确性,特别是在处理含有生僻字或罕见姓氏的情况。学者们通过深度学习模型训练,结合该数据集,致力于降低badcase比例,以提升模型的泛化能力和实际应用中的鲁棒性。此外,该数据集亦被用于探索中文命名习惯与地域文化之间的关系,为中文命名学研究和文化传承提供了重要资源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务