Speech-based Corpora

github2024-05-19 更新2024-05-31 收录

下载链接：

https://github.com/talhanai/speech-nlp-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

包含多个基于语音的数据集，用于建模各种健康结果，如儿童语言障碍、帕金森病等。

This collection includes multiple speech-based datasets intended for modeling diverse health outcomes, such as childhood language disorders, Parkinson's disease, and more.

创建时间：

2018-11-25

原始信息汇总

语音与自然语言处理数据集概述

基于语音的语料库

典型儿童与SLI儿童语音数据库
包含103名母语为捷克语的特定语言障碍儿童。
mPower研究，帕金森病数据
包含800多名帕金森病患者（及对照组）的音频记录，进行基于手机的结构化测试，包括语音、行走、敲击和记忆。
压力分析访谈语料库
包含189个20分钟长的与虚拟代理的访谈，具有二元和多类标签，用于抑郁症的严重程度。包含音频记录、特征、文本转录和面部特征。
牛津LSVT语音康复数据集
包含14名帕金森病患者，用于评估语音康复是否改善发音。
西班牙帕金森语料库
包含50名不同严重程度的帕金森病患者，讲西班牙语。
帕金森语音数据集与多种声音记录数据集
包含40名受试者（包括20名对照组）的音频记录，按照土耳其语的转录生成声音（持续元音、数字、短句、单词）。
伦敦国王学院移动设备语音记录（MDVR-KCL）
包含早期和晚期帕金森病患者及健康对照组的语音记录。
Dem@Care
包含希腊痴呆症患者在实验室或家中的音频、视频和生理信号。
TORGO数据库
包含7名患有脑瘫或肌萎缩侧索硬化症的受试者的语音和发音数据。
儿童病理性语音数据库（CPSD）
包含99名自闭症谱系或语言障碍（特定或非特定）儿童的语音记录。
牛津帕金森远程监测数据集
监测42名早期帕金森病患者，为期六个月的远程症状进展监测。
牛津帕金森数据集
包含31名受试者的记录。
萨尔布吕肯语音数据库
包含超过2,000人的语音记录，按照转录发音元音和句子，每个录音都有相关的EEG信号。部分说话者有病理（如喉炎、帕金森病）。
ALS语音数据集
包含54名说话者的语音记录，其中39名健康说话者（23名男性，16名女性）和15名ALS患者有球麻痹症状（6名男性，9名女性）。

TalkBank项目

CHILDES数据库
包含不同条件（如自闭症、唐氏综合症、听力障碍）和不同语言（如英语、荷兰语、希腊语、普通话）的儿童语音。
DementiaBank
包含不同语言的痴呆症患者的录音，包括约400名受试者，最著名的是英语Pitt，包含319名受试者（痴呆症+对照组）进行饼干盗窃、词汇流畅性、故事回忆和句子构造任务。
临床TalkBank
除了DementiaBank，还包括RHDBank（右半球障碍个体）、TBIBank（创伤性脑损伤个体）、AphasiaBank（影响说话、写作和理解语言的沟通障碍）和FluencyBank（由于是第二语言学习者或口吃导致的语言不流畅）。

基于文本的语料库

Twitter上的抑郁用户
包含约200万条推文，来自120名自我报告抑郁的用户。
DEPTWEET
包含约4万条推文，通过众包和临床专家标记为4级抑郁。
Reddit自我报告抑郁诊断（RSDD）数据集
包含约9,000名声称抑郁的用户和约107,000名对照用户的Reddit帖子。
MIMIC III
包含40,000多名患者的医疗细节和结果（如人口统计、生命体征、实验室测试、药物）以及200多万条自由文本医疗笔记。

搜集汇总

数据集介绍

构建方式

Speech-based Corpora数据集的构建方式主要通过收集和整理多个公开的语音数据集，涵盖了不同语言、不同健康状况的个体。这些数据集包括了从典型儿童到患有特定语言障碍的儿童、帕金森病患者、阿尔茨海默病患者等多种群体的语音记录。每个数据集都经过严格的采集和标注，确保数据的多样性和代表性。例如，mPower研究收集了帕金森病患者的语音记录，而Distress Analysis Interview Corpus则包含了与虚拟代理对话的音频记录，并附有情感和抑郁程度的标签。

特点

Speech-based Corpora数据集的特点在于其广泛的覆盖范围和多样性。该数据集不仅包含了多种语言的语音数据，还涵盖了从健康到患有各种疾病的不同群体。每个数据集都附有详细的标注信息，如情感标签、疾病严重程度等，便于进行多维度的分析。此外，部分数据集还包含了文本转录和面部特征等多模态数据，为研究者提供了丰富的分析资源。

使用方法

Speech-based Corpora数据集的使用方法多样，适用于语音识别、情感分析、疾病诊断等多个领域。研究者可以通过访问各个数据集的链接，下载所需的语音文件和相关标注信息。在使用过程中，可以根据研究目的选择特定的数据子集，并结合机器学习算法进行模型训练和验证。例如，研究者可以利用mPower数据集进行帕金森病的语音特征分析，或使用Distress Analysis Interview Corpus进行情感识别模型的开发。

背景与挑战

背景概述

Speech-based Corpora数据集汇集了多个公开的语音数据集，专注于利用语音和语言模型来建模各种健康状况。该数据集由多个研究机构和学者共同创建，涵盖了从儿童语言障碍到帕金森病、阿尔茨海默病等多种疾病的语音数据。核心研究问题包括语音特征与疾病进展的关系、语音识别与分类等。这些数据集的创建时间跨度较大，最早可追溯至2007年，最新的数据集则发布于2019年。主要研究人员包括Grill、Bot、Gratch、Tsanas等，他们的研究对语音识别、情感分析和健康监测等领域产生了深远影响。

当前挑战

Speech-based Corpora数据集面临的挑战主要集中在数据多样性和标注复杂性上。首先，不同数据集的语音样本来自不同语言背景和文化环境，增加了模型跨文化适应的难度。其次，许多数据集涉及病理语音，如帕金森病患者的语音，这些语音的变异性较大，导致特征提取和分类任务更具挑战性。此外，部分数据集的标注信息较为复杂，涉及多层次的情感或病理标签，增加了模型训练的复杂度。最后，数据隐私和伦理问题也是构建和使用这些数据集时需要重点考虑的挑战。

常用场景

经典使用场景

Speech-based Corpora数据集在语音和语言处理领域中具有广泛的应用，尤其是在健康相关研究中。该数据集包含了多种语音数据库，如针对特定语言障碍儿童的语音数据库、帕金森病患者的语音记录、以及抑郁症患者的访谈录音等。这些数据集的经典使用场景包括语音病理学分析、疾病进展监测、以及情感和心理状态的评估。通过分析这些语音数据，研究人员可以开发出用于早期疾病检测、个性化治疗方案制定以及患者情感状态评估的模型。

实际应用

Speech-based Corpora数据集在实际应用中展现了巨大的潜力。在医疗领域，这些数据集被用于开发自动化的语音病理检测系统，帮助医生早期识别和诊断如帕金森病、阿尔茨海默病等神经退行性疾病。在心理健康领域，语音分析技术被应用于抑郁症和焦虑症的早期筛查和干预，通过分析患者的语音特征来评估其心理状态。此外，这些数据集还被用于开发智能语音助手和虚拟治疗师，为患者提供个性化的健康管理和心理支持。

衍生相关工作

Speech-based Corpora数据集的发布催生了一系列相关的经典工作。在语音病理学领域，研究人员利用这些数据集开发了多种语音特征提取和分类算法，用于自动识别和诊断语音障碍。在情感计算领域，基于这些数据集的研究推动了情感识别和分类技术的发展，为情感智能系统的实现提供了理论和实践基础。此外，这些数据集还促进了跨学科研究，如语音与脑电图信号的联合分析，为理解语音产生的神经机制提供了新的视角。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集