Speech-based Corpora|语音识别数据集|医疗健康数据集
收藏语音与自然语言处理数据集概述
基于语音的语料库
-
典型儿童与SLI儿童语音数据库
包含103名母语为捷克语的特定语言障碍儿童。 -
mPower研究,帕金森病数据
包含800多名帕金森病患者(及对照组)的音频记录,进行基于手机的结构化测试,包括语音、行走、敲击和记忆。 -
压力分析访谈语料库
包含189个20分钟长的与虚拟代理的访谈,具有二元和多类标签,用于抑郁症的严重程度。包含音频记录、特征、文本转录和面部特征。 -
牛津LSVT语音康复数据集
包含14名帕金森病患者,用于评估语音康复是否改善发音。 -
西班牙帕金森语料库
包含50名不同严重程度的帕金森病患者,讲西班牙语。 -
帕金森语音数据集与多种声音记录数据集
包含40名受试者(包括20名对照组)的音频记录,按照土耳其语的转录生成声音(持续元音、数字、短句、单词)。 -
伦敦国王学院移动设备语音记录(MDVR-KCL)
包含早期和晚期帕金森病患者及健康对照组的语音记录。 -
Dem@Care
包含希腊痴呆症患者在实验室或家中的音频、视频和生理信号。 -
TORGO数据库
包含7名患有脑瘫或肌萎缩侧索硬化症的受试者的语音和发音数据。 -
儿童病理性语音数据库(CPSD)
包含99名自闭症谱系或语言障碍(特定或非特定)儿童的语音记录。 -
牛津帕金森远程监测数据集
监测42名早期帕金森病患者,为期六个月的远程症状进展监测。 -
牛津帕金森数据集
包含31名受试者的记录。 -
萨尔布吕肯语音数据库
包含超过2,000人的语音记录,按照转录发音元音和句子,每个录音都有相关的EEG信号。部分说话者有病理(如喉炎、帕金森病)。 -
ALS语音数据集
包含54名说话者的语音记录,其中39名健康说话者(23名男性,16名女性)和15名ALS患者有球麻痹症状(6名男性,9名女性)。
TalkBank项目
-
CHILDES数据库
包含不同条件(如自闭症、唐氏综合症、听力障碍)和不同语言(如英语、荷兰语、希腊语、普通话)的儿童语音。 -
DementiaBank
包含不同语言的痴呆症患者的录音,包括约400名受试者,最著名的是英语Pitt,包含319名受试者(痴呆症+对照组)进行饼干盗窃、词汇流畅性、故事回忆和句子构造任务。 -
临床TalkBank
除了DementiaBank,还包括RHDBank(右半球障碍个体)、TBIBank(创伤性脑损伤个体)、AphasiaBank(影响说话、写作和理解语言的沟通障碍)和FluencyBank(由于是第二语言学习者或口吃导致的语言不流畅)。
基于文本的语料库
-
Twitter上的抑郁用户
包含约200万条推文,来自120名自我报告抑郁的用户。 -
DEPTWEET
包含约4万条推文,通过众包和临床专家标记为4级抑郁。 -
Reddit自我报告抑郁诊断(RSDD)数据集
包含约9,000名声称抑郁的用户和约107,000名对照用户的Reddit帖子。 -
MIMIC III
包含40,000多名患者的医疗细节和结果(如人口统计、生命体征、实验室测试、药物)以及200多万条自由文本医疗笔记。

中国农村金融统计数据
该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。
www.pbc.gov.cn 收录
LFW
人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download
AI_Studio 收录
THUCNews
THUCNews是根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,包含74万篇新闻文档(2.19 GB),均为UTF-8纯文本格式。本次比赛数据集在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。提供训练数据共832471条。
github 收录
典型分布式光伏出力预测数据集
光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。
国家基础学科公共科学数据中心 收录
中国气象数据
本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。
github 收录