Depresjon

github2024-07-07 更新2024-07-09 收录

下载链接：

https://github.com/willhampshire/Depresjon_ML

下载链接

链接失效反馈

官方服务：

资源简介：

Depresjon数据集包含23个条件文件的活动数据，以及相关的社会人口数据和MADRS评分。该数据集是预先匿名的开源数据，用于帮助研究人员开发模型，以基于传感器数据自动检测抑郁状态。

The Depresjon Dataset contains activity data from 23 conditional files, alongside associated sociodemographic data and MADRS scores. This pre-anonymized open-source dataset is intended to assist researchers in developing models for automatic depression detection based on sensor data.

创建时间：

2024-07-06

原始信息汇总

使用LSTM（RNN）机器学习预测MADRS量表的抑郁症评分及基于运动活动时间序列数据

简介

利用Depresjon开源数据集，使用LSTM机器学习模型预测MADRS量表测量的抑郁症水平。数据集包含23个条件数据文件，受试者在伴随活动时间序列测量前后进行MADRS量表测量。数据分为两部分输入模型：时间序列数据和额外的 demographic 数据。

目标

目标是训练一个模型，能够在没有临床诊断的情况下，通过活动数据预测一个人的MADRS评分。这种数据的显著性在于可以通过对计步器和智能设备的简单适应，轻松获取，这些设备在社会中已经普及。用户在设置时输入的少量数据将作为补充数据，有助于模型的预测。

数据来源和预处理

数据来源

Depresjon数据集包含23个条件文件的活动数据、 demographic 数据和MADRS评分。数据集以预匿名化的开源形式发布，以便研究人员可以使用这些数据开发模型，推动研究发展。

数据预处理

活动数据使用MinMax归一化。
时间序列数据被分割成适合LSTM输入的固定长度序列。
通过适当的预处理技术处理缺失数据和异常值。

模型和训练

架构

模型架构： LSTM模型架构包括：
- LSTM层以捕捉活动数据中的时间依赖性。
- Dense层用于 demographic 数据。
- Dropout层和L2正则化以防止过拟合。
训练过程配置：
- 优化器：Adam优化器，默认设置。
- 实时显示的损失函数：均方误差（MSE）。

训练输入配置

Epochs： 10
测试分割： 30%
批次大小： 32
随机状态： 42
原始数据样本： 23

性能指标

均方误差： 5.147e-02
均方根误差： 2.269e-01
平均绝对误差： 1.450e-01
R平方： 0.998

未来考虑

初始数据依赖： 训练模型时不使用初始MADRS评分，消除对初始MADRS测试的需求。
模型泛化： 部署模型的挑战和考虑包括适应不同的活动数据源和跨不同 demographic 的泛化。例如，目前的年龄范围是20到69岁，以5年为一组。
神经层改进： 未来的改进可能涉及探索其他神经网络架构/添加更多层，并采用更复杂的预处理技术。

致谢

数据集归属： Depresjon数据集来自Simula。
工具致谢： 项目使用TensorFlow-Keras进行深度学习和scikit-learn进行预处理和评估指标。

搜集汇总

数据集介绍

构建方式

Depresjon数据集的构建基于23个条件文件，这些文件包含了活动数据及其相关的社会人口统计数据和MADRS评分。数据源自于对精神分裂症和重度抑郁症患者运动活动的研究，通过佩戴在右手腕上的Actiwatch设备进行监测。该设备以32Hz的采样频率记录活动水平，并将运动强度转换为活动计数，以一分钟为间隔连续记录。数据预处理阶段包括使用MinMax缩放对活动数据进行归一化，将时间序列数据分割为适合LSTM输入的固定长度序列，并通过适当的技术处理缺失数据和异常值。

特点

Depresjon数据集的显著特点在于其结合了时间序列活动数据与补充的社会人口统计信息，这使得模型能够捕捉到不同年龄和性别群体的活动模式差异。此外，数据集的开放性和匿名性为研究人员提供了便利，有助于推动基于传感器数据自动检测抑郁状态的研究。LSTM模型的应用进一步强化了数据集在时间序列分析中的适用性，通过其对长期依赖性的有效捕捉，提升了预测的准确性。

使用方法

使用Depresjon数据集时，首先需克隆相关仓库并运行`main.py`脚本，随后执行`eval.py`以绘制损失函数图。数据集的加载和模型在新时间序列及人口统计数据上的测试脚本即将发布。模型训练过程中，活动数据和补充数据分别输入，LSTM层用于捕捉活动数据中的时间依赖性，而全连接层则处理补充数据。训练配置包括10个epochs、30%的测试分割、32的批量大小和42的随机状态。性能评估指标如均方误差、均方根误差、平均绝对误差和R平方值将用于模型质量的审查。

背景与挑战

背景概述

Depresjon数据集由Simula研究机构发布，旨在通过运动活动时间序列数据预测抑郁症的MADRS评分变化。该数据集源自对精神分裂症和重度抑郁症患者运动活动的研究，包含23个条件文件，每个文件记录了患者在佩戴Actiwatch手表期间的活动数据及其对应的MADRS评分。数据集的发布旨在推动基于传感器数据自动检测抑郁症状态的研究，具有重要的临床应用潜力。

当前挑战

Depresjon数据集面临的挑战包括：首先，数据集规模较小，仅包含23个样本，可能导致模型过拟合。其次，数据预处理过程中需要处理缺失值和异常值，确保数据质量。此外，模型需适应不同来源的活动数据和不同人群，以提高泛化能力。未来研究需考虑消除对初始MADRS评分的依赖，并探索更复杂的神经网络架构以提升预测精度。

常用场景

经典使用场景

在精神健康领域，Depresjon数据集的经典使用场景主要集中在利用LSTM（长短期记忆网络）模型预测抑郁症患者的MADRS评分变化。该数据集结合了活动时间序列数据和人口统计信息，通过训练模型，能够预测患者在时间序列开始和结束时的MADRS评分变化，从而为抑郁症的早期检测和干预提供科学依据。

解决学术问题

Depresjon数据集解决了精神健康领域中抑郁症自动检测的学术难题。通过结合活动数据和人口统计信息，该数据集使得研究人员能够开发出无需临床诊断即可预测抑郁症严重程度的模型。这不仅推动了抑郁症早期检测技术的发展，还为基于智能设备的活动数据分析提供了新的研究方向，具有重要的学术意义和实际应用价值。

衍生相关工作

Depresjon数据集的发布催生了一系列相关研究工作，特别是在抑郁症自动检测和心理健康监测领域。例如，有研究者利用该数据集开发了基于深度学习的抑郁症预测模型，进一步优化了模型的准确性和泛化能力。此外，该数据集还被用于探索不同神经网络架构在抑郁症预测中的应用，以及如何通过数据预处理技术提高模型的鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集