中文人名语料库(Chinese-Names-Corpus)|自然语言处理数据集|人名识别数据集
收藏中文人名语料库(Chinese-Names-Corpus)
中文常见人名(Chinese_Names_Corpus)
- 数据大小:120万
- 语料来源:从亿级人名语料中提取
- 数据清洗:已清洗,但仍存有少量badcase
中文古代人名(Ancient_Names_Corpus)
- 数据大小:25万
- 语料来源:多个人名词典汇总
- 数据清洗:已清洗
中文姓氏(Chinese_Family_Name)
- 数据大小:1千
- 语料来源:从亿级人名语料中提取
- 数据清洗:已清洗
中文称呼(Chinese_Relationship)
- 数据大小:5千称呼词根;18万中文称呼
- 语料来源:多个人名词典汇总
- 数据清洗:已清洗,但仍存有大量badcase
英文人名语料库(English-Names-Corpus)
翻译人名(English_Cn_Name_Corpus)
- 数据大小:48万
- 语料来源:多个人名词典汇总
- 数据清洗:已清洗,但仍存有少量badcase,以地名居多
日文人名语料库(Japanese_Names_Corpus)
日文人名(Japanese_Names_Corpus)
- 数据大小:18万
- 数据来源:从维基百科中提取
- 数据清洗:已清洗,但仍存有少量badcase
中文词典语料库(Chinese_Dict_Corpus)
成语词典(ChengYu_Corpus)
- 数据大小:5万
- 语料来源:多个成语词典汇总
- 数据清洗:已清洗
数据更新记录
- 删除了1000余非人名。 -2017.08.08
- 删除了5000余非人名。 -2017.11.25
- 新增了18万日文人名。 -2017.12.17
- 删除了1500余非人名(主要是日文地名)。 -2017.12.30
- 删除了约3万余非人名、或低频人名。 -2018.11.04
- 删除了2600余非人名、或低频人名。 -2019.04.15
- 删除了约1万余非人名、或低频人名。 -2019.07.27
- 将文件移动到文件夹。 -2019.10.21
- 新增人名生成器。 -2020.01.29
- 删除了约6万余非人名、或低频人名。 -2020.12.13
- 更新人名生成器。 -2021.11.22
- 删除了约700余非人名、或低频人名。 -2022.11.30

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
ChinaTravel
ChinaTravel是由南京大学国家重点实验室开发的一个真实世界基准数据集,专门用于评估语言代理在中国旅行规划中的应用。该数据集涵盖了中国10个最受欢迎城市的旅行信息,包括720个航班和5770趟列车,以及3413个景点、4655家餐厅和4124家酒店的详细信息。数据集通过问卷调查收集用户需求,并设计了一个可扩展的领域特定语言来支持自动评估。ChinaTravel旨在解决复杂的真实世界旅行规划问题,特别是在多兴趣点行程安排和用户偏好满足方面,为语言代理在旅行规划中的应用提供了重要的测试平台。
arXiv 收录
UniMed
UniMed是一个大规模、开源的多模态医学数据集,由穆罕默德·本·扎耶德人工智能大学等机构创建,包含超过530万张图像-文本对,涵盖六种不同的医学成像模态:X射线、CT、MRI、超声、病理和眼底。数据集通过利用大型语言模型(LLMs)将特定模态的分类数据集转换为图像-文本格式,并结合现有的医学图像-文本数据,实现了可扩展的视觉-语言模型(VLM)预训练。UniMed旨在解决医学领域中公开可用的大规模图像-文本数据稀缺的问题,适用于多种医学成像任务,如零样本分类和跨模态泛化。
arXiv 收录
ImageNet-1K(ILSVRC2012)
ImageNet-1K(ILSVRC2012)是一个大规模的图像分类数据集,包含1000个类别的图像,用于训练和验证图像分类模型。
github 收录