Chinese-Names-Corpus|语言学研究数据集|人名数据集数据集

github2018-01-19 更新2024-05-31 收录

语言学研究

人名数据集

下载链接：

https://github.com/wkq278276130/Chinese-Names-Corpus

下载链接

链接失效反馈

资源简介：

包含120万常见中文人名（已删除名人姓名）、25万古代中文人名（已删除罕见姓和带生僻字的人名）、1万日本常见人名、2万英文常见姓或名、1千个中文姓氏（已删除罕见姓，复姓只保留了‘欧阳’）、5千称呼词根和18万中文称呼。

This dataset comprises 1.2 million common Chinese names (excluding celebrity names), 250,000 ancient Chinese names (excluding rare surnames and names with uncommon characters), 10,000 common Japanese names, 20,000 common English surnames or given names, 1,000 Chinese surnames (excluding rare surnames, with only 'Ouyang' retained among compound surnames), 5,000 appellation roots, and 180,000 Chinese appellations.

创建时间：

2017-04-13

原始信息汇总

中文人名语料库（Chinese-Names-Corpus）概述

数据集内容

常见中文人名：包含120万人名，已删除名人姓名。
古代中文人名：包含25万人名，已删除罕见姓和部分带生僻字的人名。
日本常见人名：包含1万人名，数据来源于网络。
英文常见姓或名：包含2万人名，数据来源于网络。
中文姓氏：包含1千个姓氏，已删除罕见姓，复姓只保留了“欧阳”。
称呼词根：包含5千个词根。
中文称呼：包含18万个称呼。

后续更新计划

计划添加翻译人名，预计数量为10万个。

AI搜集汇总

数据集介绍

构建方式

Chinese-Names-Corpus人名语料库的构建汇集了各类中文人名数据，包括常见人名、古代人名以及部分日本和英文人名。该数据集去除了名人姓名、罕见姓氏和生僻字，以确保数据的普遍性和实用性。构建过程中，编者对姓氏和称呼进行了筛选和整理，保留了常用的部分，旨在为语言处理等相关研究提供基础资源。

特点

该数据集显著的特点在于其规模宏大，覆盖了120万常见中文人名，25万古代中文人名，以及1万日本常见人名和2万英文常见姓或名。此外，数据集还包含了1千个中文姓氏和5千个称呼词根，以及18万中文称呼，为研究中文命名习惯和文化特色提供了丰富的素材。其数据清洗和筛选的过程也保证了人名数据的准确性和可用性。

使用方法

用户在使用Chinese-Names-Corpus时，可以直接引用其提供的各类人名数据。数据集以纯文本形式组织，便于用户根据需要进行导入和处理。对于后续的翻译人名更新，用户可关注数据集维护者的动态，以获取最新数据。此外，数据集的使用不受限制，研究者可以根据自身的应用场景，如自然语言处理、机器学习模型训练等，进行相应的数据调用和分析。

背景与挑战

背景概述

中文人名语料库（Chinese-Names-Corpus）是一项旨在为自然语言处理领域提供重要资源的研究成果，创建于2017年4月2日，由研究者@思南斋整理。该数据集涵盖了120万常见中文人名，25万古代中文人名，以及从网络收集的1万日本常见人名和2万英文常见姓或名。特别地，它还包含了1千个中文姓氏和5千称呼词根，以及18万中文称呼。该数据集的建立，对于研究中文姓名的分布规律、文化特征以及姓名识别等任务具有显著意义，对自然语言处理、机器学习等相关领域的发展产生了积极影响。

当前挑战

尽管中文人名语料库为研究提供了丰富的数据资源，但在构建和使用过程中也面临一些挑战。首先，数据集中名人姓名的删除和罕见姓的处理可能导致数据在特定研究中的适用性受限。其次，网络收集的数据可能存在准确性和代表性的问题。此外，数据集在后续更新中计划添加翻译人名，这涉及跨语言处理的复杂性，对数据集的质量控制和一致性提出了更高的要求。这些挑战需要研究者们在利用该数据集时，进行细致的数据清洗和预处理，以确保研究结果的可靠性和有效性。

常用场景

经典使用场景

在自然语言处理领域，中文人名词典Chinese-Names-Corpus被广泛用于增强模型对人名的识别与理解能力。该数据集最经典的使用场景之一便是作为训练语料，辅助构建人名识别系统，有效提升系统的准确度和鲁棒性。

实际应用

在实际应用中，Chinese-Names-Corpus数据集可用于搜索引擎优化，提高搜索结果的精确性，同时也可在社交网络分析、智能客服等场景中，帮助系统更好地理解和处理与人名相关的信息。

衍生相关工作

基于该数据集，研究人员已开展了一系列相关工作，如构建更为精确的中文命名实体识别模型、研究人名文化特征等，这些成果进一步丰富了语言资源库，为后续的学术研究提供了新的视角和工具。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国高考录取分数线数据

高考录取分数线，是指普通高等学校招生全国统一考试录取分数线。该分数线，每年高考结束后，由省级教育招生主管部门统计后公布。高考录取分数线分为本科线和专科线。全国各个地方的录取线分科类、分批次确定，科类一般分为文科类、理科类、音乐类（文、理）、美术类（文、理）、体育类等，每一科类又各分为提前批、第一批、第二批等等。 CnOpenData推出中国高考录取分数线数据，从批次、学校、专业等三方面汇总高考录取情况，涵盖生源地、学校所在地、年份、分类、批次、分科、分数线、学校、专业、录取人数、最高/低分等字段，为相关研究提供优质的数据资源。

CnOpenData 收录

GHCN

GHCN（Global Historical Climatology Network）是一个全球历史气候网络数据集，包含了全球各地气象站记录的每日气象数据，如温度、降水、风速等。该数据集用于研究气候变化和天气模式。

www.ncei.noaa.gov 收录

MultiTalk

MultiTalk数据集是由韩国科学技术院创建，包含超过420小时的2D视频，涵盖20种不同语言，旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集，每段视频都配有语言标签和伪转录，部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证，确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力，通过引入语言特定风格嵌入，使模型能够捕捉每种语言独特的嘴部运动。

arXiv 收录

AIS数据集

该研究使用了多个公开的AIS数据集，这些数据集经过过滤、清理和统计分析。数据集涵盖了多种类型的船舶，并提供了关于船舶位置、速度和航向的关键信息。数据集包括来自19,185艘船舶的AIS消息，总计约6.4亿条记录。

github 收录