five

ReDSM5

收藏
arXiv2025-08-05 更新2025-08-07 收录
下载链接:
https://huggingface.co/datasets/irlab-udc/redsm5
下载链接
链接失效反馈
官方服务:
资源简介:
ReDSM5数据集是针对DSM-5抑郁症诊断标准的一个Reddit语料库,包含1484篇长篇帖子,每篇帖子都经过详细的句子级别标注,由执业心理学家针对DSM-5的九个抑郁症症状进行标注。该数据集旨在帮助研究人员开发能够检测抑郁症并生成人类可解释推理的模型。数据集支持多标签症状分类和解释生成任务,为未来抑郁症检测和可解释性的研究提供参考结果。
提供机构:
IRLab,CITIC,Universidade da Coruña A Coruña,Spain
创建时间:
2025-08-05
搜集汇总
数据集介绍
main_image_url
构建方式
ReDSM5数据集的构建始于对DepreSym资源的深度重构,该资源包含21580条标注了贝克抑郁量表(BDI-II)21项症状的Reddit句子。研究团队通过去重和完整帖子重建,最终筛选出1484篇独特帖子作为基础语料。由持证心理学家采用定制化标注工具,逐句审核并映射至DSM-5的九项抑郁症状标准,同时为每个标注提供符合临床诊断逻辑的书面解释,形成兼具症状定位与专业解释的双层标注体系。
特点
该数据集的核心价值体现在其临床级精细标注:1484篇长文本包含294.7词/篇的丰富语境,每篇平均标注1.39个症状,覆盖DSM-5全部诊断维度。抑郁情绪(328例)和无价值感(311例)为高频症状,而精神运动性改变(35例)等低频症状亦获完整收录。392篇阴性样本的纳入增强了分类器区分能力,时序实体识别与心理语言学特征分析揭示了症状表达的深层语言模式,为可解释性研究提供多维特征支撑。
使用方法
研究者可利用该数据集开展两项核心任务:基于80%-20%标准划分的多标签症状分类(微平均F1达0.54),采用BERT或LLaMA等模型学习症状特异性语言表征;解释生成任务则通过Gemma-327B的少样本提示,产生临床合理的诊断依据(嵌入相似度0.78)。配套发布的标注指南与评估脚本支持端到端研究流程,特别适用于需要符合DSM-5标准的可解释抑郁检测系统开发。
背景与挑战
背景概述
ReDSM5数据集由西班牙拉科鲁尼亚大学IRLab研究团队于2025年创建,旨在通过社交媒体文本分析提升抑郁症诊断的临床相关性。该数据集包含1484篇Reddit长文本,由持证心理学家根据DSM-5诊断标准对九大抑郁症状进行句子级标注,并附临床解释依据。作为首个将社交媒体语言特征与标准临床诊断框架深度对齐的资源,其创新性体现在症状特异性标注与专家解释的双重监督机制,为可解释性心理健康分析建立了新范式。该数据集通过融合计算语言学和临床心理学方法,显著推进了基于社交媒体的抑郁检测研究从二分类预测向标准化症状识别的范式转变。
当前挑战
该数据集面临的核心领域挑战在于抑郁症症状的语言表达具有高度异构性,如情感淡漠与自杀念头在词汇、句法和情感特征上呈现显著差异,要求模型具备细粒度的语义理解能力。构建过程中的主要困难包括:1)临床标准与社交媒体语言的映射复杂性,需专家反复验证BDI-II与DSM-5症状的对应关系;2)长文本中症状共现现象普遍,要求标注者保持跨句子的一致性判断;3)非结构化用户生成内容包含大量隐喻和模糊表达,增加了临床解释的标注难度。此外,数据隐私保护与临床实用性之间的平衡也是持续面临的伦理挑战。
常用场景
经典使用场景
ReDSM5数据集在心理健康研究领域具有重要价值,尤其在抑郁症检测和分析方面。该数据集通过Reddit平台上的用户生成内容,提供了丰富的语言数据,这些数据经过专业心理学家的标注,涵盖了DSM-5定义的九种抑郁症症状。研究人员可以利用这些数据进行自然语言处理(NLP)模型的训练和评估,以识别和分类抑郁症症状。数据集的多标签标注和专家解释使其成为开发可解释性抑郁症检测模型的理想资源。
实际应用
ReDSM5数据集在实际应用中具有广泛潜力。临床医生和心理健康专家可以利用基于该数据集开发的工具,通过分析社交媒体内容早期识别抑郁症患者。此外,公共卫生机构可以通过大规模分析社交媒体数据,监测人群心理健康趋势,制定针对性的干预措施。教育机构和研究团队也可以利用该数据集开发心理健康教育工具,提高公众对抑郁症的认知。数据集的开放性和可重复性进一步促进了跨学科合作和创新。
衍生相关工作
ReDSM5数据集已衍生出多项经典研究。例如,基于该数据集的基线模型(如BERT和LLM)在抑郁症症状分类和解释生成任务中表现出色,为后续研究提供了参考。此外,数据集的探索性分析揭示了抑郁症症状与语言特征(如情感词汇、语法模式)之间的关联,启发了更多关于心理健康与语言关系的研究。部分研究还尝试将ReDSM5与其他心理健康数据集(如BDI-II标注数据)结合,以扩展研究范围和深度。这些工作共同推动了心理健康NLP领域的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作