Speech-based Corpora
收藏语音与自然语言处理数据集概述
基于语音的语料库
-
典型儿童与SLI儿童语音数据库
包含103名母语为捷克语的特定语言障碍儿童。 -
mPower研究,帕金森病数据
包含800多名帕金森病患者(及对照组)的音频记录,进行基于手机的结构化测试,包括语音、行走、敲击和记忆。 -
压力分析访谈语料库
包含189个20分钟长的与虚拟代理的访谈,具有二元和多类标签,用于抑郁症的严重程度。包含音频记录、特征、文本转录和面部特征。 -
牛津LSVT语音康复数据集
包含14名帕金森病患者,用于评估语音康复是否改善发音。 -
西班牙帕金森语料库
包含50名不同严重程度的帕金森病患者,讲西班牙语。 -
帕金森语音数据集与多种声音记录数据集
包含40名受试者(包括20名对照组)的音频记录,按照土耳其语的转录生成声音(持续元音、数字、短句、单词)。 -
伦敦国王学院移动设备语音记录(MDVR-KCL)
包含早期和晚期帕金森病患者及健康对照组的语音记录。 -
Dem@Care
包含希腊痴呆症患者在实验室或家中的音频、视频和生理信号。 -
TORGO数据库
包含7名患有脑瘫或肌萎缩侧索硬化症的受试者的语音和发音数据。 -
儿童病理性语音数据库(CPSD)
包含99名自闭症谱系或语言障碍(特定或非特定)儿童的语音记录。 -
牛津帕金森远程监测数据集
监测42名早期帕金森病患者,为期六个月的远程症状进展监测。 -
牛津帕金森数据集
包含31名受试者的记录。 -
萨尔布吕肯语音数据库
包含超过2,000人的语音记录,按照转录发音元音和句子,每个录音都有相关的EEG信号。部分说话者有病理(如喉炎、帕金森病)。 -
ALS语音数据集
包含54名说话者的语音记录,其中39名健康说话者(23名男性,16名女性)和15名ALS患者有球麻痹症状(6名男性,9名女性)。
TalkBank项目
-
CHILDES数据库
包含不同条件(如自闭症、唐氏综合症、听力障碍)和不同语言(如英语、荷兰语、希腊语、普通话)的儿童语音。 -
DementiaBank
包含不同语言的痴呆症患者的录音,包括约400名受试者,最著名的是英语Pitt,包含319名受试者(痴呆症+对照组)进行饼干盗窃、词汇流畅性、故事回忆和句子构造任务。 -
临床TalkBank
除了DementiaBank,还包括RHDBank(右半球障碍个体)、TBIBank(创伤性脑损伤个体)、AphasiaBank(影响说话、写作和理解语言的沟通障碍)和FluencyBank(由于是第二语言学习者或口吃导致的语言不流畅)。
基于文本的语料库
-
Twitter上的抑郁用户
包含约200万条推文,来自120名自我报告抑郁的用户。 -
DEPTWEET
包含约4万条推文,通过众包和临床专家标记为4级抑郁。 -
Reddit自我报告抑郁诊断(RSDD)数据集
包含约9,000名声称抑郁的用户和约107,000名对照用户的Reddit帖子。 -
MIMIC III
包含40,000多名患者的医疗细节和结果(如人口统计、生命体征、实验室测试、药物)以及200多万条自由文本医疗笔记。




