Annotated Dataset for Explainable Interpersonal Risk Factors of Mental Disturbance in Social Media Posts

Name: Annotated Dataset for Explainable Interpersonal Risk Factors of Mental Disturbance in Social Media Posts
Creator: 梅奥诊所
Published: 2023-05-30 12:08:40
License: 暂无描述

arXiv2023-05-30 更新2024-06-21 收录

下载链接：

https://github.com/drmuskangarg/Irf

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集名为‘Annotated Dataset for Explainable Interpersonal Risk Factors of Mental Disturbance in Social Media Posts’，由梅奥诊所、Lakehead大学和Thapar工程技术研究所合作创建。数据集包含3522条来自Reddit的帖子，旨在通过自然语言处理技术识别影响心理困扰的人际风险因素。数据集创建过程中，专家团队通过严格的标注指南对帖子进行分类和解释，主要关注‘Thwarted Belongingness’和‘Perceived Burdensomeness’两个风险因素。该数据集的应用领域包括临床心理学实践和个性化心理健康护理，旨在通过实时分析用户的历史社交媒体资料，预测和评估潜在的自伤或自杀风险。

This dataset is named *Annotated Dataset for Explainable Interpersonal Risk Factors of Mental Disturbance in Social Media Posts*. It was collaboratively developed by Mayo Clinic, Lakehead University, and Thapar Institute of Engineering and Technology. The dataset contains 3,522 Reddit posts, aiming to identify interpersonal risk factors associated with mental disturbance using natural language processing technologies. During the dataset construction phase, a panel of experts classified and annotated the posts in accordance with strict annotation guidelines, with primary focus placed on two core risk factors: *Thwarted Belongingness* and *Perceived Burdensomeness*. The dataset has applications in clinical psychology practice and personalized mental health care, and it is designed to predict and evaluate potential self-harm or suicide risks by conducting real-time analysis of users' historical social media profiles.

提供机构：

梅奥诊所

创建时间：

2023-05-30

搜集汇总

数据集介绍

构建方式

该数据集基于Reddit平台中与心理健康相关的子版块（如r/depression和r/SuicideWatch）构建，通过PRAW API从2021年12月至2022年1月期间每日采集约100条帖子，共收集3362条新增样本。结合已有的SDCNL数据集中的1896条帖子，经过去除无自我主张内容、空帖或无关帖子的手动筛选，以及剔除694条未体现心理困扰的样本，并限定每条帖子最长300词，最终形成包含3522条帖子的语料库。三位领域专家（临床心理学家、康复咨询师、社会NLP专家）共同制定标注指南，对帖子中的两种人际风险因素——归属感受挫（TBE）和感知累赘感（PBU）进行二元分类标注，并提取文本片段作为解释性依据。标注过程经过8小时专业培训和三轮试标注，最终采用多数投票机制确保一致性，Fleiss' Kappa系数分别达到78.83%和82.39%。

特点

该数据集的核心特点在于其解释性标注框架，不仅提供TBE和PBU的二元标签，还附带了人类标注的文本片段解释，使模型能够识别风险因素的具体语言线索。数据分布显示，TBE阳性样本占比54.71%，PBU阳性样本占比32.56%，两者之间的Pearson相关系数仅为0.0577，表明二者在社交文本中呈现微弱关联。典型触发词如TBE的“alone”“lonely”“isolated”和PBU的“die”“suicide”“burden”，但标注过程超越简单关键词匹配，通过上下文语义判断潜在风险。数据集规模适中，平均每条帖子约133词，7.7个句子，为细粒度心理语言分析提供了平衡的样本量。

使用方法

该数据集适用于监督学习任务，可用于训练和评估分类模型以自动检测社交媒体文本中的TBE和PBU。研究者可采用多种基线方法，包括基于GloVe嵌入的循环神经网络（如LSTM、GRU）、预训练Transformer模型（如BERT、RoBERTa、MentalBERT）以及OpenAI嵌入结合传统分类器（如逻辑回归、支持向量机）。实验设置建议按70%训练、30%测试划分数据，使用Adam优化器、学习率1e-3、批次大小16训练20个周期。此外，可结合LIME或SHAP等可解释性工具分析模型决策依据，对比人类标注的文本片段以评估解释质量。数据集及其基线代码已公开在GitHub上，便于复现和扩展研究。

背景与挑战

背景概述

在社交媒体文本中识别心理健康风险因素的研究日益受到关注，尤其是基于人际心理学理论的自杀风险预测。2023年，由梅奥诊所、湖首大学和塔帕尔工程技术学院的研究人员共同构建了一个面向社交媒体帖子的人际风险因素可解释标注数据集。该数据集聚焦于两大核心构念：挫败的归属感（Thwarted Belongingness）和感知的累赘感（Perceived Burdensomeness），旨在推动从低层次分类任务向高层次个性化分析的转变。研究团队从Reddit平台收集并标注了3522条英文帖子，提供了二元标签和可解释文本片段，为临床心理学实践和个性化心理健康护理提供了重要的语言资源，填补了该领域公开可用数据集的空白。

当前挑战

该数据集面临的挑战主要体现在领域问题和构建过程两个层面。在领域问题层面，人际风险因素的识别高度主观，现有模型在捕捉上下文语义方面表现有限，如MentalBERT在挫败归属感和感知累赘感上的F1分数分别仅为76.73%和62.77%，且可解释性方法（如LIME和SHAP）生成的文本片段存在冗余，亟需注入领域知识与常识推理。在构建过程层面，标注任务复杂且易引入偏差，团队需协调临床心理学家、康复咨询师和自然语言处理专家的多重视角，通过八小时专业培训和三轮试标注确保一致性，最终获得78.83%和82.39%的Fleiss' Kappa系数；此外，数据采集局限于Reddit平台，存在语言风格和用户动机的偏差，且需严格处理隐私与伦理问题以避免滥用。

常用场景

经典使用场景

在社交媒体文本分析领域，该数据集为识别人际风险因素提供了不可或缺的语言资源。其核心应用场景在于从Reddit等平台的海量用户发帖中，自动检测两种关键心理状态——受挫归属感与感知累赘感。研究者可借助该数据集训练分类模型，精准捕捉文本中隐含的社交孤立、自我贬低等心理表征，从而超越传统情感分析的低层次任务，实现对人类心理困扰的深层理解与可解释性建模。

衍生相关工作

该数据集的发布催生了一系列后续研究，包括基于OpenAI嵌入与经典机器学习分类器的高性能基线模型，以及利用LIME和SHAP进行解释性分析的方法。此外，研究者受其启发，探索了融合常识知识图谱与领域特异性预训练模型（如MentalBERT）的改进方案，以提升对复杂心理语义的捕捉能力。这些衍生工作共同推动了从静态文本分类向动态纵向用户画像分析的范式演进，为未来开发具有实时反馈能力的个性化心理健康AI铺平了道路。

数据集最近研究