five

中文人名语料库(Chinese-Names-Corpus)|中文人名数据集|数据集数据集

收藏
github2021-11-22 更新2024-05-31 收录
中文人名
数据集
下载链接:
https://github.com/Explorer1092/Chinese-Names-Corpus
下载链接
链接失效反馈
资源简介:
包含多种类型的人名数据集,如中文常见人名、古代人名、姓氏、称呼等,数据大小从数千到数百万不等,来源广泛,经过数据清洗处理。

This dataset encompasses a variety of personal names, including common Chinese names, ancient names, surnames, and titles. The data volume ranges from several thousand to several million entries, sourced from a wide array of origins and has undergone thorough data cleaning processes.
创建时间:
2018-11-22
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

中文常见人名(Chinese_Names_Corpus)

  • 数据大小:120万。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文古代人名(Ancient_Names_Corpus)

  • 数据大小:25万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗。

中文姓氏(Chinese_Family_Name)

  • 数据大小:1千。
  • 语料来源:从亿级人名语料中提取。
  • 数据清洗:已清洗。

中文称呼(Chinese_Relationship)

  • 数据大小:5千,称呼词根;18万,中文称呼。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有大量badcase。

英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

  • 数据大小:48万。
  • 语料来源:多个人名词典汇总。
  • 数据清洗:已清洗,但仍存有少量badcase,以地名居多。

日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

  • 数据大小:18万。
  • 数据来源:从维基百科中提取。
  • 数据清洗:已清洗,但仍存有少量badcase。

中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

  • 数据大小:5万。
  • 语料来源:多个成语词典汇总。
  • 数据清洗:已清洗。

更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
  • 删除了约3万余非人名、或低频人名。 -2018.11.04
  • 删除了2600余非人名、或低频人名。 -2019.04.15
  • 删除了约1万余非人名、或低频人名。 -2019.07.27
  • 将文件移动到文件夹。 -2019.10.21
  • 新增人名生成器。 -2020.01.29
  • 删除了约6万余非人名、或低频人名。 -2020.12.13
  • 更新人名生成器。 -2021.11.22
  • 删除了约700余非人名、或低频人名。 -2022.11.30
AI搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于大数据和自然语言处理技术。通过分词工具对海量文本进行分词和词频统计,经过数据清洗后,形成了千万级的人名词典。在此基础上,进一步对数据进行性别、年龄、拼音、情感、人名指数等多维度标记,最终构建了包含5600万+中文人名的人名图谱。数据来源包括亿级人名语料、多个人名词典以及维基百科等,确保了数据的广泛性和多样性。
特点
该数据集涵盖了中文常见人名、古代人名、姓氏、称呼等多个子集,数据规模庞大且分类细致。中文常见人名子集包含120万条数据,古代人名子集包含25万条数据,姓氏子集包含1千条数据,称呼子集包含5千条词根和18万条中文称呼。此外,数据集还提供了英文和日文人名语料库,进一步扩展了其应用范围。数据经过多次清洗,但仍保留了少量badcase,反映了真实语料的复杂性。
使用方法
中文人名语料库适用于中文分词、人名识别、自然语言处理等场景。用户可以通过加载数据集,利用其丰富的标注信息进行人名识别模型的训练与优化。此外,数据集还提供了人名生成器功能,可用于生成符合特定条件的中文人名。对于研究古代文化或跨语言人名识别的用户,古代人名和日文人名子集提供了宝贵的资源。使用过程中,建议结合数据清洗工具进一步优化数据质量,以提高模型性能。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由萌名(NameMoe)团队基于大数据和自然语言处理技术构建的综合性人名数据集。该数据集创建于2017年,主要研究人员通过分词工具对海量文本进行分词和词频统计,经过数据清洗后,形成了包含5600万+中文人名图谱的庞大语料库。该数据集不仅涵盖了现代中文人名,还包括古代人名、姓氏、称呼等多个子集,广泛应用于中文分词、人名识别等自然语言处理任务。其构建过程体现了对中文命名文化的深入理解,并为相关领域的研究提供了重要的数据支持。
当前挑战
中文人名语料库在构建过程中面临多重挑战。首先,数据清洗的复杂性不容忽视,尽管经过多次清洗,仍存在少量badcase,尤其是在称呼和翻译人名部分。其次,人名识别任务本身具有较高的难度,尤其是在处理低频人名或非标准命名时,容易产生误判。此外,跨语言人名(如日文人名)的识别与清洗也带来了额外的复杂性,特别是在区分人名与地名时。这些挑战不仅影响了数据集的精度,也对后续的自然语言处理任务提出了更高的要求。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)广泛应用于自然语言处理领域,尤其是在中文分词和人名识别任务中。该数据集通过海量文本的分词和词频统计,构建了包含5600万+的中文人名图谱,为研究者提供了丰富的语料资源。在中文信息处理系统中,该数据集常被用于提升人名识别的准确性和分词系统的性能,尤其在处理复杂的中文文本时,能够有效识别和区分人名与其他词汇。
解决学术问题
中文人名语料库解决了中文自然语言处理中的关键问题,如人名识别的模糊性和分词系统的精度提升。通过对海量文本的分词和词频统计,该数据集为研究者提供了高质量的人名语料,支持性别、年龄、拼音等多维度标记,显著提升了人名识别的准确性和分词系统的鲁棒性。此外,该数据集还为中文命名实体识别、情感分析等任务提供了重要支持,推动了中文自然语言处理技术的发展。
衍生相关工作
中文人名语料库的发布催生了一系列相关研究工作,尤其是在中文自然语言处理领域。基于该数据集,研究者开发了多种人名识别算法和分词工具,显著提升了中文文本处理的效率。此外,该数据集还支持了中文命名实体识别、情感分析等任务的研究,推动了相关领域的技术进步。例如,基于该数据集的人名生成器工具,为中文取名和文化研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

yolo-datasets

深度学习目标检测数据集/分割数据集最全最完整的数据集集合,包含电力电气领域、航空影像输电线路与输电塔分割、电力遥感风力发电机、安全带和安全绳检测、变压器漏油故障诊断、高压输电线故障检测、光伏热红外缺陷、风电光伏功率数据、变电站火灾、输电线路语义分割、配网缺陷检测、变电站设备目标检测、太阳能光伏电池板缺陷、pcb电路板检测、绝缘体检测、输电线路防震锤缺陷、电线冰雪覆盖、电力工程电网施工现场安全作业、螺丝识别检测、变电站电力设备的可见光和红外图像、无人机航拍输电线路悬垂线夹、电线线路表面损害、氧化锌避雷器破损识别、热斑光伏发电系统红外热图像等多个领域的数据集。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

AgiBot World

为了进一步推动通用具身智能领域研究进展,让高质量机器人数据触手可及,作为上海模塑申城语料普惠计划中的一份子,智元机器人携手上海人工智能实验室、国家地方共建人形机器人创新中心以及上海库帕思,重磅发布全球首个基于全域真实场景、全能硬件平台、全程质量把控的百万真机数据集开源项目 AgiBot World。这一里程碑式的开源项目,旨在构建国际领先的开源技术底座,标志着具身智能领域 「ImageNet 时刻」已到来。AgiBot World 是全球首个基于全域真实场景、全能硬件平台、全程质量把控的大规模机器人数据集。相比于 Google 开源的 Open X-Embodiment 数据集,AgiBot World 的长程数据规模高出 10 倍,场景范围覆盖面扩大 100 倍,数据质量从实验室级上升到工业级标准。AgiBot World 数据集收录了八十余种日常生活中的多样化技能,从抓取、放置、推、拉等基础操作,到搅拌、折叠、熨烫等精细长程、双臂协同复杂交互,几乎涵盖了日常生活所需的绝大多数动作需求。

github 收录