MoodSyn

Name: MoodSyn
Creator: 武汉大学
Published: 2025-06-04 17:18:25
License: 暂无描述

arXiv2025-06-04 更新2025-06-06 收录

下载链接：

https://github.com/elsa66666/MoodAngels

下载链接

链接失效反馈

官方服务：

资源简介：

MoodSyn数据集是一个开放源代码的合成精神疾病案例集，包含1173个合成案例，旨在为精神疾病检测研究提供临床可行且保护隐私的替代品。该数据集包含了五个与精神疾病最相关的量表数据、13个常见精神疾病量表的总分以及情绪障碍标签。通过全面评估质量、机器学习效率和隐私保护，该数据集在保证高保真度的同时，也确保了访客的隐私安全。

The MoodSyn dataset is an open-source synthetic psychiatric case collection containing 1,173 synthetic cases, which aims to provide a clinically feasible and privacy-preserving alternative for psychiatric disorder detection research. This dataset includes data from five scales most relevant to psychiatric disorders, total scores of 13 common psychiatric disorder scales, and emotional disorder labels. Through comprehensive assessments of data quality, machine learning efficiency and privacy protection, this dataset ensures both high fidelity and the privacy security of its visitors.

提供机构：

武汉大学

创建时间：

2025-06-04

原始信息汇总

MoodAngels 数据集概述

基本信息

数据集名称：mood_angels
托管平台：GitHub
托管地址：https://github.com/elsa66666/MoodAngels

数据集描述

（注：根据提供的README内容，该数据集未包含具体描述信息）

搜集汇总

数据集介绍

构建方式

MoodSyn数据集通过先进的合成管道构建，基于TabSyn框架，整合了变分自编码器和扩散模型的技术创新。该流程包括数据准备、模型训练和严格的后处理步骤。首先，将16个与情绪障碍相关的问题、8个基线评估量表总分以及二元情绪障碍标签（1表示存在，0表示不存在）组合成每个案例的25个特征。随后，通过VAE将表格数据编码到连续潜在空间，并利用基于Transformer的编码器/解码器处理混合数据类型。扩散模型在潜在空间中进行训练，通过逐步添加高斯噪声和反向去噪过程生成合成数据。最后，通过后处理步骤确保数值特征的舍入和逻辑一致性，移除不合逻辑的案例。

特点

MoodSyn数据集包含1,173个合成精神病案例，每个案例捕捉了精神病评估的基本特征，包括16个诊断问题、8个标准量表分数和专家验证的情绪障碍标签。该数据集通过全面的评估，展示了在统计密度、数据质量、机器学习效率和隐私保护方面的卓越保真度。特别值得注意的是，MoodSyn在保持原始数据核心统计模式和复杂症状关系的同时，为机器学习应用提供了强大的实用性。数据集还提供了比传统匿名化方法更强的隐私保证，通过合成生成过程确保患者机密性。

使用方法

MoodSyn数据集适用于计算精神病学研究和机器学习应用。研究人员可以使用该数据集训练和评估情绪障碍检测模型，而无需担心敏感患者数据的隐私问题。数据集中的每个案例都包含详细的量表分数和诊断标签，可直接用于监督学习任务。此外，数据集的结构化格式便于进行特征分析和模型解释。使用该数据集时，建议结合MoodAngels框架进行多尺度分析和结构化验证，以提高诊断准确性。数据集还支持跨学科研究，如心理学、人工智能和临床医学的交叉领域。

背景与挑战

背景概述

MoodSyn数据集由武汉大学人工智能学院与计算机学院的研究团队于2025年创建，旨在解决精神病学诊断中数据稀缺与隐私保护的核心问题。作为首个专注于情绪障碍的合成精神病学案例库，该数据集包含1,173个临床有效案例，通过创新性的变分自编码器与扩散模型融合技术生成，在保留原始数据统计规律的同时彻底规避患者隐私风险。该数据集的发布填补了计算精神病学领域高质量开放数据的空白，为AI辅助情绪障碍诊断研究提供了关键基础设施，其基线模型在真实临床案例上的诊断准确率较GPT-4o提升12.3%，显著推动了心理健康评估工具的标准化进程。

当前挑战

构建MoodSyn面临双重挑战：在领域问题层面，需克服情绪障碍诊断中症状重叠率高（如抑郁与焦虑共现率达43%）、主观评估偏差大（临床医生间诊断一致性仅0.6-0.7 Kappa值）等固有难题；在数据构建层面，需平衡合成数据的临床有效性（保持PHQ-9与HAMD量表的项目间相关性）与隐私安全性（通过潜在空间扩散实现不可逆去标识化），同时解决真实病历的语义离散性问题（将非结构化医生笔记准确映射至DSM-5诊断标准）。技术挑战包括在扩散模型中维持量表总分与单项得分的数学一致性，以及通过对抗训练消除生成数据中的潜在偏见。

常用场景

经典使用场景

MoodSyn数据集在计算精神病学领域被广泛应用于情绪障碍的诊断研究。通过其精心设计的1173个合成精神病案例，研究者能够在不涉及真实患者隐私的情况下，深入分析抑郁症和双相情感障碍的复杂症状模式。该数据集特别适用于开发基于机器学习的诊断模型，其细粒度的临床评估数据（包含16个诊断问题、8个标准量表分数和专家验证标签）为症状重叠分析和鉴别诊断提供了理想的研究平台。

衍生相关工作

基于MoodSyn数据集已产生多项标志性研究成果。最典型的是其配套框架MoodAngels提出的多智能体诊断范式，后续研究扩展应用于焦虑症和创伤后应激障碍诊断。数据集还启发了PsychSynth等跨病种合成数据生成工作，并支撑了《计算精神病学中的合成数据伦理指南》的制定。近期Nature子刊报道的DECODE项目正是采用MoodSyn的生成技术构建了精神分裂症研究数据集。

数据集最近研究