Iran Vital Registration Live Births Data 1956|人口统计数据集|出生数据数据集
收藏LIDC-IDRI
LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。
OpenDataLab 收录
MedDialog
MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。
github 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
emotions-dataset
情绪数据集是一个精心策划的文本数据集,包含131,306个文本条目,标注了13种不同的情绪,如快乐、悲伤、中性、愤怒等。该数据集旨在提升情感分类、情感分析和自然语言处理的能力,适用于构建富有同情心的聊天机器人、心理健康工具、社交媒体分析器等。数据集文件大小为7.41MB,便于在边缘设备和大型项目中使用。
huggingface 收录
TeleSpeechPT
TeleSpeechPT数据集包含约30万小时的方言和口音语音数据,用于训练无监督模型,以及包含4万小时的监督数据集。该数据集旨在解决中国方言和口音的语音识别问题,通过结合自监督学习和大型语言模型(LLM)来提升语音识别性能。数据集内容涵盖多个方言和口音,包括安徽、甘肃、河北、山东、山西、天津、广东、河南、四川、重庆、东北、陕西、湖北、福建、贵州、杭州、湖南、江西、上海、苏州、云南和客家等。数据集创建过程涉及对大量语音数据的收集和预处理,以及使用自监督学习方法进行模型训练。该数据集可应用于语音识别、语音合成和语音增强等领域,旨在解决方言和口音语音识别的挑战。
arXiv 收录
