ReDepress

Name: ReDepress
Creator: 印度理工学院孟买分校, 孟买, 印度
Published: 2025-09-23 00:33:59
License: 暂无描述

arXiv2025-09-23 更新2025-11-21 收录

下载链接：

https://huggingface.co/datasets/aakash-agarwal/ReDepress

下载链接

链接失效反馈

官方服务：

资源简介：

ReDepress是一个专注于抑郁症复发的社交媒体数据集，由204名Reddit用户组成，由心理健康专业人员标注。该数据集通过多阶段过程精心策划，包括正则表达式、大型语言模型（LLMs）、非专家人类和最终的临床心理学家。数据集内容涵盖了用户的发帖历史、认知标记（如注意力偏差、解释偏差、记忆偏差和沉思）以及复发状态。数据集的创建过程确保了其临床有效性，并通过统计分析和机器学习实验验证了认知标记在区分复发和非复发组方面的显著作用。

ReDepress is a social media dataset focused on depression relapse, comprising 204 Reddit users and annotated by mental health professionals. The dataset was meticulously curated via a multi-stage pipeline, including regular expressions, large language models (LLMs), non-expert human annotators, and final validation by clinical psychologists. It contains users' posting histories, cognitive markers such as attentional bias, interpretive bias, memory bias, and rumination, as well as relapse status. The dataset's development process ensures its clinical validity, and statistical analyses and machine learning experiments have verified the significant role of cognitive markers in distinguishing between relapse and non-relapse groups.

提供机构：

印度理工学院孟买分校, 孟买, 印度

创建时间：

2025-09-23

搜集汇总

数据集介绍

构建方式

在精神健康计算研究领域，构建高质量数据集对探索抑郁症复发机制至关重要。ReDepress数据集通过多阶段筛选流程从Reddit平台获取用户数据，首先基于正则表达式识别自述确诊抑郁症的用户群体，随后采用Llama系列大语言模型进行双重过滤以降低误报率。通过专业临床心理学家对用户时间线中缓解期与复发期帖文进行标注，最终形成包含204名用户的临床验证数据集，其中83例复发用户与121例非复发用户的时间序列数据为研究提供了可靠基础。

特点

该数据集的核心价值在于深度融合认知心理学理论与计算分析方法。基于注意力偏差、解释偏差、记忆偏差和反刍思维四大认知维度构建标注体系，每个维度均通过多专家标注确保信度。数据呈现显著的时间动态特性，用户发帖按时间顺序排列并标注认知特征变化轨迹，为研究认知模式演变提供结构化观测窗口。特别值得注意的是，该数据集通过统计检验验证了认知标记在复发与非复发群体间的显著差异，为构建计算模型奠定了理论基础。

使用方法

研究者可基于该数据集开展多维度计算实验。在特征工程层面，可通过聚合用户帖文的认知标注生成统计特征，用于训练传统机器学习模型以识别复发风险模式。针对时序建模需求，可将文本嵌入向量与认知标记拼接后输入Transformer架构，捕捉认知特征的动态演变规律。此外，数据集支持认知维度自动分类器的开发，利用预训练语言模型对未标注文本进行认知特征预测，为零样本推理和迁移学习提供实验平台。

背景与挑战

背景概述

ReDepress数据集由印度理工学院孟买分校的研究团队于2025年创建，旨在填补抑郁症复发检测领域的数据空白。该数据集聚焦于从社交媒体文本中识别抑郁症复发迹象，基于认知科学理论，整合了注意偏差、解释偏差、记忆偏差和反刍思维四个认知维度。作为首个经过临床验证的抑郁症复发社交媒体数据集，ReDepress包含204名Reddit用户的标注数据，由心理健康专家进行多阶段精细标注，显著推动了计算精神病学与早期干预研究的发展。

当前挑战

ReDepress数据集面临的领域挑战在于抑郁症复发检测的复杂性，需区分复发与非复发用户高度相似的文本表达，并验证认知理论在真实数据中的适用性。构建过程中的挑战包括：临床标注的主观性导致标注一致性难以保障；社交媒体数据的时序稀疏性可能遗漏关键复发节点；以及多阶段过滤流程中需平衡计算成本与数据质量，同时确保用户隐私与伦理合规性。

常用场景

经典使用场景

在精神健康计算研究领域，ReDepress数据集被广泛应用于探索抑郁症复发的早期识别机制。该数据集通过整合认知心理学理论与社交媒体文本分析，为研究者提供了独特的视角来观察用户从缓解期到复发期的动态变化过程。其经典使用场景包括构建基于认知标记物的机器学习模型，这些模型能够从Reddit用户的时间线中捕捉注意力偏差、解释偏差、记忆偏差和沉思等认知特征的变化模式，从而实现对复发风险的精准预测。

衍生相关工作

该数据集催生了多个创新性研究方向，包括基于Transformer的时序认知建模框架，这些工作通过融合文本嵌入与认知标记物实现了86%的F1分数。后续研究进一步拓展了多模态融合路径，将社交媒体文本与可穿戴设备数据结合构建综合预测模型。此外，基于ReDepress的认知维度自动标注技术推动了心理健康领域的小样本学习发展，衍生出专门针对沉思、解释偏差等认知结构的领域自适应预训练模型。

数据集最近研究