Chinese Multimodal Depression Corpus (CMDC)|抑郁症研究数据集|多模态数据分析数据集

github2022-08-17 更新2024-05-31 收录

抑郁症研究

多模态数据分析

下载链接：

https://github.com/CMDC-corpus/CMDC-Baseline

下载链接

链接失效反馈

资源简介：

CMDC包含半结构化访谈，旨在支持中国主要抑郁症障碍的筛查和评估。这些访谈作为创建自动AI工具的一部分收集，用于采访人员并识别MDD的视觉、声学和文本指示器。

The CMDC (Chinese Major Depressive Disorder Corpus) comprises semi-structured interviews designed to facilitate the screening and assessment of major depressive disorder in China. These interviews were collected as part of an initiative to develop automated AI tools capable of interviewing individuals and identifying visual, acoustic, and textual indicators of MDD (Major Depressive Disorder).

创建时间：

2022-03-30

原始信息汇总

数据集概述

名称：Chinese Multimodal Depression Corpus (CMDC)

目的：支持中国主要抑郁症的筛查和评估，收集用于开发自动AI工具，以识别视觉、声学和文本的MDD指标。

数据集内容

数据类型：半结构化访谈数据，包含语音、文本和视频三种模态的特征。
标签：每个参与者的PHQ评分。

数据集访问

下载链接：Chinese Multimodal Depression Corpus
访问要求：数据受密码保护，需下载并发送签署的EULA至zoubochao@ustb.edu.cn以请求访问。

数据集使用

预处理：需对语音、文本和视频三种模态的特征进行标记，并保存为mosei_senti_data.pkl文件。
运行环境：
- Pytorch
- Numpy
- Scipy
- Sklearn
- Pickle
运行方式：通过运行main.py文件，支持两种模型（Bi-LSTM和MulT）。

AI搜集汇总

数据集介绍

构建方式

Chinese Multimodal Depression Corpus (CMDC) 数据集的构建基于半结构化的访谈设计，旨在支持中国地区抑郁症的筛查与评估。这些访谈作为更大规模项目的一部分，旨在开发能够自动采访并识别抑郁症视觉、声学和文本指标的人工智能工具。数据集通过收集多模态数据，包括文本、音频和视频，结合参与者的抑郁评分，形成了一个综合的多模态抑郁症评估语料库。

使用方法

使用 CMDC 数据集时，首先需对三种模态（文本、音频、视频）的特征进行标注，并按照指定格式组织数据。数据集分为训练、验证和测试三部分，每部分均包含相应的模态特征和标签。用户可通过运行 main.py 文件启动模型训练，该文件支持 Bi-LSTM 和 MulT 两种模型。预处理步骤包括安装必要的库和准备数据格式，确保数据集的正确加载和模型的高效训练。

背景与挑战

背景概述

近年来，随着心理健康问题的日益突出，自动化工具在抑郁症筛查和评估中的应用逐渐成为研究热点。中国多模态抑郁症语料库（Chinese Multimodal Depression Corpus, CMDC）正是在这一背景下应运而生，由北京科技大学的研究人员主导开发。该语料库包含了半结构化的访谈数据，旨在支持对中国抑郁症患者的主要抑郁障碍（MDD）进行筛查和评估。通过整合视觉、声学和文本三种模态的数据，CMDC为开发自动化的AI工具提供了宝贵的资源，这些工具能够通过访谈识别抑郁症的潜在指标。CMDC的创建不仅推动了抑郁症诊断技术的进步，还为多模态数据分析领域提供了新的研究方向。

当前挑战

CMDC的构建过程中面临了多重挑战。首先，多模态数据的整合与标注是一项复杂且耗时的任务，涉及文本、语音和视频三种模态的特征提取与标签化。其次，如何确保数据的质量和一致性，尤其是在跨模态分析中，是一个亟待解决的问题。此外，由于抑郁症的诊断涉及敏感信息，数据的安全性和隐私保护也成为构建过程中的重要挑战。最后，尽管CMDC为抑郁症的自动化筛查提供了新的工具，但其模型的泛化能力和在不同文化背景下的适用性仍需进一步验证。

常用场景

经典使用场景

Chinese Multimodal Depression Corpus (CMDC) 数据集的经典使用场景主要集中在多模态情感分析领域，特别是在抑郁症的筛查与评估中。该数据集通过整合半结构化访谈中的文本、语音和视频三种模态数据，为研究者提供了一个全面的抑郁症检测平台。研究者可以利用这些多模态数据，训练和验证基于深度学习的多模态情感分析模型，如Bi-LSTM和MulT，以识别和预测抑郁症的早期迹象。

解决学术问题

CMDC数据集解决了在抑郁症筛查与评估中，单一模态数据分析的局限性问题。通过整合文本、语音和视频三种模态的信息，该数据集为研究者提供了一个多维度的分析框架，显著提升了抑郁症检测的准确性和可靠性。此外，CMDC还为多模态学习领域的研究提供了宝贵的实验数据，推动了多模态情感分析技术的发展，具有重要的学术研究价值。

实际应用

在实际应用中，CMDC数据集为开发自动化的抑郁症筛查工具提供了基础。这些工具可以应用于心理健康服务、临床诊断以及社区健康管理等多个领域，帮助专业人员更早、更准确地识别抑郁症患者。通过结合AI技术，CMDC数据集支持的工具能够进行大规模的抑郁症筛查，提高筛查效率，降低医疗成本，从而在公共卫生领域发挥重要作用。

数据集最近研究

最新研究方向

在心理健康领域，尤其是抑郁症的自动筛查与评估方面，Chinese Multimodal Depression Corpus (CMDC) 数据集的研究正引领着前沿方向。该数据集通过整合语音、文本和视频等多模态数据，为构建精准的抑郁症识别模型提供了丰富的资源。当前的研究重点在于如何有效融合多模态信息，以提升模型的诊断准确性和鲁棒性。特别是，基于Bi-LSTM和MulT的模型评估方法，展示了多模态数据在抑郁症检测中的巨大潜力，推动了AI技术在心理健康领域的应用与发展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集，包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素，标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

HIT-UAV

HIT-UAV数据集包含2898张红外热成像图像，这些图像从43,470帧无人机拍摄的画面中提取。数据集涵盖了多种场景，如学校、停车场、道路和游乐场，在不同的光照条件下，包括白天和夜晚。

github 收录

中国交通事故深度调查（CIDAS）数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息，以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例，单个案例信息包含人、车、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征，探索事故预防和损伤防护措施的关键数据源，为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集，包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述，包括数据来源、图像数量、标注信息等。

github 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集，主要由非网络来源的内部数据构成，包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容，质量优异，信息密度可观。数据集适用于预训练或继续预训练用途，未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用，但建议先使用配套的预训练数据集对模型进行继续预训练后，再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据，以避免灾难性遗忘并加强模型表现。

huggingface 收录