five

DEPAC

收藏
arXiv2023-06-20 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.12443v1
下载链接
链接失效反馈
官方服务:
资源简介:
DEPAC是一个专为抑郁症和焦虑症检测设计的音频数据集,由Winterlight Labs创建。该数据集包含多个语音任务和相关的人口统计信息,旨在通过丰富的语音和语言特征来识别心理状态。数据集通过众包方式收集,参与者在Amazon Mechanical Turk平台上完成任务,数据经过手动转录和整理。DEPAC数据集适用于开发基于机器学习的语音生物标志物,用于心理疾病的自动诊断。

DEPAC is an audio dataset specifically designed for depression and anxiety disorder detection, created by Winterlight Labs. This dataset encompasses multiple speech tasks and associated demographic information, aiming to identify mental states through rich speech and linguistic features. The dataset was collected via crowdsourcing, where participants completed tasks on the Amazon Mechanical Turk platform, and the data underwent manual transcription and curation. The DEPAC dataset is suitable for developing machine learning-based speech biomarkers for the automatic diagnosis of mental illnesses.
提供机构:
Winterlight Labs 多伦多,加拿大
创建时间:
2023-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
DEPAC数据集的构建是通过亚马逊土耳其机器人平台(Amazon Mechanical Turk)进行众包收集的。参与者被要求完成一系列语音任务,包括音素任务、音素流畅性、图片描述、语义流畅性和提示性叙述。这些任务旨在激发与精神状态相关的语音模式。收集到的语音样本经过手动转录,并与参与者的基本信息一起编译成最终的数据集。参与者还完成了两项心理健康评估问卷:患者健康问卷(PHQ-9)和广泛性焦虑症-7(GAD-7)。这些问卷的得分用于标注数据集中的抑郁和焦虑程度。
特点
DEPAC数据集的特点在于其丰富的多样性和大规模。它包含了从571名参与者中收集的2674个音频样本,每个参与者完成了多个语音任务。此外,数据集还包含了参与者的人口统计数据,如年龄、性别和教育程度。数据集还提供了一组手工艺特征,包括声学和语言特征,这些特征被认为在检测语音中的精神疾病迹象方面是有效的。这些特征是根据临床和机器学习专家的领域知识精心挑选的。
使用方法
DEPAC数据集适用于探索性分析,涉及统计和机器学习方法,以生成潜在的语言生物标志物并测试其有效性。研究人员可以使用该数据集来训练和评估机器学习模型,以预测抑郁和焦虑的程度。数据集中的声学和语言特征可以用于训练分类器,这些分类器可以识别语音中的抑郁和焦虑迹象。此外,数据集还可以用于开发语音生物标志物,这些生物标志物可以用于早期诊断和治疗精神疾病。
背景与挑战
背景概述
DEPAC数据集是一项针对抑郁症和焦虑症语音检测的新型音频数据集。该数据集由Winterlight Labs于2023年6月创建,旨在为开发自动化诊断系统提供信息丰富且平衡的语料库。DEPAC数据集包括每个个体的多个语音任务以及相关的背景信息。该数据集的创建基于对抑郁症和焦虑症标准筛选工具的既定阈值进行标记。同时,该研究还提出了一组手工挑选的声学和语言特征,这些特征在识别人类语音中的精神疾病迹象方面被证明是有效的。最后,通过将基于该数据集的基线机器学习模型的性能与在其他已知抑郁症数据集上训练的基线模型进行比较,证明了所提出的音频语料库和特征集在预测抑郁症严重程度方面的质量和有效性。
当前挑战
DEPAC数据集面临着两个关键的挑战。首先,现有抑郁症数据集中样本量小,增加了机器学习模型过拟合的风险。例如,AVEC挑战中可用于模型训练的录音数量从50到189不等,这远不足以进行有效的模型训练。其次,以前工作中的数据集在语言多样性方面存在不足,因为它们只包含每个受试者的一小部分样本(仅一个或两个)。为了缓解这些挑战,本研究引入了DEPAC数据集,它具有丰富的语音任务和受试者多样性,并旨在捕捉焦虑和抑郁的迹象,以准确预测受试者的心理状态。此外,本研究还提出了一组从语料库中提取的声学和语言特征,这些特征结合了临床和机器学习专家的领域知识。最后,我们使用一系列基线机器学习模型对数据集进行了基准测试,以展示该新型数据集非常适合基于机器学习的方法,旨在生成用于抑郁症和焦虑症的语音生物标志物。
常用场景
经典使用场景
DEPAC数据集主要用于抑郁症和焦虑症的语音识别。该数据集包含了基于抑郁症和焦虑症标准筛查工具的阈值进行标注的大量音频样本,以及与个体相关的语音任务和人口统计信息。研究人员可以利用DEPAC数据集,结合提取的语音和语言特征,进行抑郁症和焦虑症的自动化诊断系统开发。同时,DEPAC数据集还可以用于探索性分析,以生成潜在的语音生物标志物并测试其有效性。
衍生相关工作
基于DEPAC数据集的研究,可以进一步探索抑郁症和焦虑症的语音识别方法,并开发出更精确、更高效的自动化诊断系统。此外,DEPAC数据集还可以用于其他心理健康问题的语音识别研究,例如精神分裂症、阿尔茨海默病等。通过对比不同心理健康问题的语音特征,可以更好地理解这些疾病的病理机制,并为开发新的治疗方法提供依据。
数据集最近研究
最新研究方向
随着人工智能技术的不断发展,语音分析在心理健康领域的应用逐渐受到重视。DEPAC数据集作为一种新型的心理健康分析语音数据集,为抑郁症和焦虑症的检测提供了丰富的资源和工具。该数据集通过收集大量参与者完成多种语音任务时的录音,并结合临床评估量表进行标注,为研究者提供了大量高质量的数据。此外,DEPAC数据集还包含了一系列手工提取的声学和语言特征,这些特征在识别精神疾病的迹象方面已被证实是有效的。通过比较基于DEPAC数据集的基线机器学习模型的性能与其他已知抑郁症数据集上的基线模型,证明了该数据集在预测抑郁症严重程度方面的质量和有效性。DEPAC数据集的引入为开发基于语音的数字生物标志物提供了新的方向,有望为精神疾病的诊断和治疗带来革命性的变化。
相关研究论文
  • 1
    DEPAC: a Corpus for Depression and Anxiety Detection from SpeechWinterlight Labs 多伦多,加拿大 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作