five

中文人名语料库(Chinese-Names-Corpus)|自然语言处理数据集|人名识别数据集

收藏
github2024-05-22 更新2024-05-31 收录
自然语言处理
人名识别
下载链接:
https://github.com/wainshine/Chinese-Names-Corpus
下载链接
链接失效反馈
资源简介:
本项目包含多个数据集,如中文常见人名、中文古代人名、中文姓氏等,数据大小从数千到数百万不等,语料来源广泛,经过数据清洗处理,适用于中文分词、人名识别等场景。

This project encompasses a variety of datasets, including common Chinese personal names, ancient Chinese personal names, and Chinese surnames, among others. The data sizes range from several thousand to several million entries. The corpora are sourced from a wide array of origins and have undergone rigorous data cleaning processes, making them suitable for applications such as Chinese word segmentation and personal name recognition.
创建时间:
2016-12-08
原始信息汇总

中文人名语料库(Chinese-Names-Corpus)

中文常见人名(Chinese_Names_Corpus)

  • 数据大小:120万
  • 语料来源:从亿级人名语料中提取
  • 数据清洗:已清洗,但仍存有少量badcase

中文古代人名(Ancient_Names_Corpus)

  • 数据大小:25万
  • 语料来源:多个人名词典汇总
  • 数据清洗:已清洗

中文姓氏(Chinese_Family_Name)

  • 数据大小:1千
  • 语料来源:从亿级人名语料中提取
  • 数据清洗:已清洗

中文称呼(Chinese_Relationship)

  • 数据大小:5千称呼词根;18万中文称呼
  • 语料来源:多个人名词典汇总
  • 数据清洗:已清洗,但仍存有大量badcase

英文人名语料库(English-Names-Corpus)

翻译人名(English_Cn_Name_Corpus)

  • 数据大小:48万
  • 语料来源:多个人名词典汇总
  • 数据清洗:已清洗,但仍存有少量badcase,以地名居多

日文人名语料库(Japanese_Names_Corpus)

日文人名(Japanese_Names_Corpus)

  • 数据大小:18万
  • 数据来源:从维基百科中提取
  • 数据清洗:已清洗,但仍存有少量badcase

中文词典语料库(Chinese_Dict_Corpus)

成语词典(ChengYu_Corpus)

  • 数据大小:5万
  • 语料来源:多个成语词典汇总
  • 数据清洗:已清洗

数据更新记录

  • 删除了1000余非人名。 -2017.08.08
  • 删除了5000余非人名。 -2017.11.25
  • 新增了18万日文人名。 -2017.12.17
  • 删除了1500余非人名(主要是日文地名)。 -2017.12.30
  • 删除了约3万余非人名、或低频人名。 -2018.11.04
  • 删除了2600余非人名、或低频人名。 -2019.04.15
  • 删除了约1万余非人名、或低频人名。 -2019.07.27
  • 将文件移动到文件夹。 -2019.10.21
  • 新增人名生成器。 -2020.01.29
  • 删除了约6万余非人名、或低频人名。 -2020.12.13
  • 更新人名生成器。 -2021.11.22
  • 删除了约700余非人名、或低频人名。 -2022.11.30
AI搜集汇总
数据集介绍
main_image_url
构建方式
中文人名语料库(Chinese-Names-Corpus)的构建基于大数据和自然语言处理技术,通过对海量文本进行分词和词频统计,经过数据清洗后,形成了一个包含千万级人名词典的图谱。该图谱不仅涵盖了现代人名,还包括古代人名、姓氏和称呼等,通过性别、年龄、拼音、情感、人名指数等多维度标记,确保了数据的丰富性和多样性。
特点
该数据集的特点在于其规模庞大且内容丰富,涵盖了120万现代人名、25万古代人名、1千姓氏以及5千称呼词根和18万中文称呼。此外,数据集还包括48万英文翻译人名和18万日文人名,为跨文化人名研究提供了宝贵的资源。尽管数据清洗过程已尽力去除噪声,但仍存在少量badcase,需在使用时加以注意。
使用方法
中文人名语料库可广泛应用于中文分词、人名识别、命名实体识别等领域。用户可以通过下载数据集文件,利用编程工具进行数据加载和处理。对于需要生成新名字的应用场景,数据集还提供了人名生成器,用户可根据需求生成符合特定条件的人名。在使用过程中,建议结合具体任务对数据进行进一步清洗和预处理,以提高模型的准确性和鲁棒性。
背景与挑战
背景概述
中文人名语料库(Chinese-Names-Corpus)是由萌名(NameMoe)团队基于大数据和自然语言处理技术构建的,旨在提供一个全面的中文人名资源。该数据集的创建始于对海量文本的分词和词频统计,经过数据清洗和标记,最终形成了包含5600万+人名的图谱。该语料库不仅涵盖了现代人名,还包括古代人名、姓氏和称呼等,为中文分词、人名识别等自然语言处理任务提供了宝贵的资源。该项目的核心研究问题是如何从海量数据中高效提取和清洗人名信息,并对其进行多维度的标记和分类,以支持各种应用场景。
当前挑战
中文人名语料库在构建过程中面临多项挑战。首先,数据清洗是一个复杂且耗时的过程,尽管已经进行了多次清洗,但仍存在少量badcase,如非人名或低频人名。其次,人名识别的准确性依赖于分词工具的性能,如何提高分词的准确性是一个持续的挑战。此外,随着时间的推移,人名的变化和新增也需要不断更新数据集,以保持其时效性和实用性。最后,如何有效地管理和维护如此大规模的数据集,确保其长期可用性和扩展性,也是该项目面临的重要挑战。
常用场景
经典使用场景
中文人名语料库(Chinese-Names-Corpus)在自然语言处理领域中,常用于中文分词和人名识别任务。通过该数据集,研究者可以训练和优化分词算法,提高中文文本处理中的命名实体识别准确率。此外,该数据集还支持人名生成器的开发,为新取名产品提供数据基础。
衍生相关工作
基于中文人名语料库,研究者们开发了多种相关工具和应用。例如,人名生成器不仅用于新取名产品,还被应用于文学创作和游戏设计中。此外,该数据集还促进了中文姓氏和称呼的研究,推动了中文语言学和计算机科学的交叉研究。相关工作还包括对古代人名和日文人名的深入分析,丰富了跨文化人名研究的视角。
数据集最近研究
最新研究方向
近年来,中文人名语料库(Chinese-Names-Corpus)在自然语言处理和人名识别领域展现出显著的研究潜力。该数据集不仅包含了现代和古代的中文人名,还涵盖了姓氏、称呼以及日文和英文人名的翻译,为跨文化人名研究提供了丰富的资源。前沿研究方向包括利用深度学习模型进行人名识别和分词,以及通过人名数据分析社会文化变迁。此外,数据集中的性别、年龄和情感标记为个性化命名和情感分析提供了新的视角。这些研究不仅推动了NLP技术的发展,也为跨文化交流和历史研究提供了宝贵的数据支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

ChinaTravel

ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。

arXiv 收录

UniMed

UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。

arXiv 收录

ImageNet-1K(ILSVRC2012)

ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。

github 收录