five

Emotional Audio-Textual Depression Corpus (EATD-Corpus)

收藏
arXiv2022-02-15 更新2024-06-21 收录
下载链接:
https://github.com/speechandlanguageprocessing/ICASSP2022-Depression
下载链接
链接失效反馈
官方服务:
资源简介:
EATD-Corpus是由同济大学创建的第一个包含中文音频和文本数据的开源抑郁症数据集,包含162名志愿者的音频和文本转录。数据集通过一个应用程序收集,志愿者需回答三个随机问题并完成SDS问卷。数据集的创建过程包括数据收集和预处理,确保音频和文本的质量。EATD-Corpus主要用于自动抑郁症检测研究,旨在通过分析语音特征和语言内容来提高抑郁症诊断的准确性。

EATD-Corpus is the first open-source depression dataset encompassing both Chinese audio and text data, developed by Tongji University. It comprises audio recordings and text transcriptions from 162 volunteers. The dataset was collected through an application, wherein volunteers were asked to answer three random questions and complete the SDS questionnaire. The creation of EATD-Corpus involves data collection and preprocessing steps to guarantee the quality of the audio and text materials. Primarily utilized for automatic depression detection research, EATD-Corpus aims to enhance the accuracy of depression diagnosis by analyzing speech features and linguistic content.
提供机构:
同济大学软件工程学院
创建时间:
2022-02-15
搜集汇总
数据集介绍
main_image_url
构建方式
EATD-Corpus的构建分为两个步骤:数据收集和预处理。数据收集通过一个虚拟访谈应用程序进行,该程序会向受访者提出三个问题,并收集其音频回答。每个志愿者还需完成一份SDS问卷,以评估其抑郁严重程度。目前,已有162名志愿者完成了在线访谈。在预处理阶段,对收集到的音频进行了静音处理、去噪和转录,并手动校对了所有转录文本。
特点
EATD-Corpus的特点在于:1)它是第一个也是唯一一个公开的包含中文音频和文本数据的抑郁数据集;2)数据集包含了162名志愿者的音频回答和对应的文本转录;3)数据集的构建考虑了数据平衡问题,对抑郁类别的样本进行了扩充;4)提供了经过手动校对的文本转录,保证了数据质量。
使用方法
使用EATD-Corpus的方法包括:1)数据加载与预处理,将音频转换为梅尔频谱图,文本转换为句子嵌入;2)模型训练,采用GRU模型处理音频特征,BiLSTM模型处理文本特征,并通过多模态融合网络进行融合;3)性能评估,使用F1分数、召回率和精确率等指标对模型进行评估。
背景与挑战
背景概述
情绪识别是心理学和计算机科学领域中的一个重要研究方向,抑郁症的自动检测对于促进自我评估和改善诊断准确性具有重大意义。基于此,Ying Shen等研究人员构建了首个公开的包含音频和文本数据的中文抑郁症数据集EATD-Corpus,并提出了一种基于音频信号和语言内容分析的新型抑郁症检测方法。该方法不依赖于访谈中提出的问题内容,通过编码音频/文本特征为嵌入表示,实现了对抑郁症状态的检测。EATD-Corpus的创建,为抑郁症研究提供了宝贵的数据资源,有助于推动相关领域的研究进展。
当前挑战
在构建EATD-Corpus数据集的过程中,研究人员面临了多个挑战。首先,公开的抑郁症数据集非常稀缺,这限制了相关研究的深入进行。其次,构建过程中需要解决数据采集和预处理的问题,如确保音频质量、处理数据不平衡等。在模型构建方面,如何有效地融合音频和文本信息,提高抑郁症检测的准确性和泛化能力,也是一大挑战。
常用场景
经典使用场景
Emotional Audio-Textual Depression Corpus (EATD-Corpus) 是一个包含音频和文本数据的中国抑郁症公开数据集。该数据集的经典使用场景在于,研究人员可以利用它来训练和测试自动抑郁症检测模型,通过分析参与者的语音特征和语言内容来预测其抑郁状态。例如,可以基于该数据集开发一个智能助手,用户通过语音或文本与助手交流,助手根据交流内容判断用户是否可能患有抑郁症,并提供相应的建议或引导用户寻求专业帮助。
实际应用
在实际情况中,EATD-Corpus 可以应用于心理健康应用的开发,例如开发一个抑郁症自我评估的应用。用户可以录入自己的语音或文本,应用会根据这些输入判断用户的抑郁程度,并提供相应的反馈或建议。此外,该数据集也可以用于训练心理咨询师的辅助工具,帮助他们在诊断过程中更准确地识别抑郁症状。
衍生相关工作
基于 EATD-Corpus,衍生了多项相关工作。例如,研究人员开发了基于深度学习模型的抑郁症检测方法,这些方法可以更准确地识别抑郁状态。此外,也有工作专注于利用 EATD-Corpus 中的数据来研究抑郁症与语音特征之间的关系,以及如何结合音频和文本信息来提高抑郁症检测的准确性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作