中文人名语料库(Chinese-Names-Corpus)
收藏github2019-06-05 更新2024-05-31 收录
下载链接:
https://github.com/Tools2/Chinese-Names-Corpus
下载链接
链接失效反馈官方服务:
资源简介:
包含多个子数据集,如中文常见人名、中文古代人名、日文人名等,每个子数据集都从大量语料中提取并经过清洗,用于中文分词和人名识别。
This dataset comprises multiple sub-datasets, including common Chinese names, ancient Chinese names, and Japanese names, among others. Each sub-dataset is extracted from a vast corpus and has undergone thorough cleaning, designed for Chinese word segmentation and name recognition tasks.
创建时间:
2018-08-25
原始信息汇总
中文人名语料库(Chinese-Names-Corpus)概述
数据集组成
中文常见人名(Chinese_Names_Corpus)
- 规模:120万
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏、带生僻字的人名及部分名人姓名
- 问题:清洗后仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 规模:25万
- 来源:多个人名词典汇总
- 处理:删除了罕见姓氏、带生僻字的人名
- 问题:清洗后仍存有少量badcase
日文人名(Japanese_Names_Corpus)
- 规模:18万
- 来源:从维基百科中提取
- 处理:删除了罕见姓氏、带生僻字的人名
- 问题:清洗后仍存有少量badcase
翻译人名(English_Cn_Name_Corpus)
- 规模:48万
- 来源:多个人名词典汇总
- 处理:删除了翻译人名常用字之外的人名,混有少量西化中文人名
- 问题:清洗后仍存有少量badcase,尤其是英文地名
中文姓氏(Chinese_Family_Name)
- 规模:1千
- 来源:从亿级人名语料中提取
- 处理:删除了罕见姓氏,复姓只保留了“欧阳”
中文称呼(Chinese_Relationship)
- 规模:5千(称呼词根),18万(中文称呼)
- 来源:多个人名词典汇总
- 处理:删除了部分带贬义的称呼
- 问题:清洗后仍存有大量badcase
成语词典(ChengYu_Corpus)
- 规模:5万
- 来源:多个成语词典汇总
- 问题:清洗后仍存有少量badcase
数据集更新历史
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30
搜集汇总
数据集介绍

构建方式
中文人名语料库(Chinese-Names-Corpus)的构建,源于对亿级人名语料的深度挖掘与精细处理。通过对原始语料的筛选,去除了罕见姓氏及带有生僻字的人名,并对名人姓名进行了随机删除,以减少数据集中的偏差。此外,古代人名、日文人名、翻译人名等子数据集的构建,亦采取了类似的数据清洗与筛选策略,旨在确保语料的准确性与可用性。
使用方法
用户可依据实际需求,选择相应的子数据集进行应用。数据集以文本形式存储,易于读取和处理。用户在使用过程中,应遵循数据集的更新日志,以掌握数据集的最新状态。针对数据集中的badcase,建议用户在预处理阶段进行进一步的清洗和校验,以提高后续应用的准确率。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由萌名项目衍生出的副产品,旨在为中文分词和人名识别等领域提供丰富的数据资源。该语料库始建于2017年,由萌名团队负责维护与更新。语料库包含了从亿级人名数据中提炼出的120万中文常见人名、25万中文古代人名,以及其他语言及文化背景下的人名数据。它不仅为中文自然语言处理领域提供了宝贵的数据支撑,而且对于人名文化的研究亦具有重要价值。
当前挑战
在构建中文人名语料库的过程中,研究者们面临着诸多挑战。首先,数据清洗是其中的一个重要环节,如何有效识别并删除罕见姓氏和带有生僻字的人名,保持数据质量,是一大挑战。其次,语料库中的人名数据需要不断地更新和维护,以适应不断变化的命名习惯和文化背景。此外,人名数据的多样性和复杂性给数据标注和分类带来了困难,特别是在处理badcase时,如何确保标注的准确性和一致性,是当前亟需解决的问题。
常用场景
经典使用场景
在自然语言处理领域中,中文人名语料库(Chinese-Names-Corpus)的典型应用场景是中文分词和人名识别。该数据集提供了大量的中文人名实例,有助于模型学习中文人名的特征,从而在文本中准确地识别出人名。
解决学术问题
该数据集解决了中文分词中的歧义问题,尤其是在处理人名时,能够有效提高分词的准确性。此外,它还为人名消歧义、人名标准化等学术研究问题提供了丰富的语料支持,对于推动相关领域的研究具有重要意义。
实际应用
在实际应用中,中文人名语料库被广泛应用于搜索引擎、在线社交网络、信息抽取、推荐系统等多个场景,以提升系统对中文人名的识别和处理能力,进而提高用户体验。
数据集最近研究
最新研究方向
中文人名语料库(Chinese-Names-Corpus)作为自然语言处理领域的重要资源,近期研究方向主要集中于人名识别与分词技术的深化研究。学者们利用该语料库探索深度学习模型在中文人名识别中的应用,以提升模型的准确性和泛化能力。此外,该数据集亦被用于研究中文命名习惯的演变,以及姓氏文化在历史长河中的传承与变迁。在当前数字化时代背景下,该研究对于文化传承及语言技术发展均具有重要的实际意义和理论价值。
以上内容由遇见数据集搜集并总结生成



