LoST: Low SelfesTeem

Name: LoST: Low SelfesTeem
Creator: 梅奥诊所
Published: 2023-06-09 07:52:35
License: 暂无描述

arXiv2023-06-09 更新2024-06-21 收录

下载链接：

https://github.com/drmuskangarg/LoST

下载链接

链接失效反馈

官方服务：

资源简介：

LoST数据集是由梅奥诊所和马里兰大学巴尔的摩分校共同创建，专注于Reddit上低自尊心的帖子，共包含3251条数据。该数据集通过专家注释，确保了数据的质量和可靠性。创建过程中，专家们使用了心理学理论和标准化问卷，如Rosenberg自尊量表，确保了数据的科学性。该数据集主要用于研究社交媒体上的低自尊心现象，旨在通过早期识别和干预，预防和治疗心理健康问题。

The LoST Dataset was co-created by the Mayo Clinic and the University of Maryland, Baltimore, focusing on posts related to low self-esteem on Reddit, with a total of 3251 entries. The quality and reliability of the dataset are guaranteed via expert annotation. During its development, experts utilized psychological theories and standardized questionnaires such as the Rosenberg Self-Esteem Scale to ensure the scientific rigor of the dataset. This dataset is primarily used for researching low self-esteem phenomena on social media, with the goal of preventing and treating mental health issues through early identification and intervention.

提供机构：

梅奥诊所

创建时间：

2023-06-09

搜集汇总

数据集介绍

构建方式

在心理健康研究领域，社交媒体文本已成为识别心理风险因素的重要数据源。LoST数据集的构建始于从Reddit平台的两个心理健康相关子论坛（r/depression和r/SuicideWatch）中，通过Python Reddit API Wrapper（PRAW）采集了2021年12月2日至2022年1月4日期间的每日200篇帖子。经过严格筛选，剔除了内容长度为零、缺乏个人心理困扰表达或仅包含自我伤害意图而无上下文信息的帖子，最终获得4,357篇候选文本。为简化心理学驱动的低自尊识别任务，进一步筛选出长度超过300词的帖子，形成包含3,251篇帖子的最终语料库。随后，由临床心理学家和社会NLP专家组成的团队，基于罗森伯格自尊量表（RSS）、库珀史密斯自尊量表（CSEI）及人际需求问卷（INQ-18）等标准化心理量表，制定了精细的注释指南与困惑指南，确保注释过程兼顾心理学理论与文本分析需求。三位研究生经过八小时培训后，在独立环境中进行手动注释，并通过Fleiss' Kappa系数（κ=78.52%）验证了注释者间的一致性，最终采用多数投票机制确定标签，构建出符合FAIR原则的高质量数据集。

特点

LoST数据集的核心特点在于其深厚的心理学理论基础与专家驱动的注释框架。该数据集以3,251篇Reddit帖子为基础，专注于低自尊这一关键心理风险因素的识别，填补了心理健康NLP研究中缺乏公开语言资源的空白。注释过程严格遵循标准化心理量表，如罗森伯格自尊量表，确保了标签的临床有效性与可靠性。数据集设计充分考虑了文本的复杂性，通过困惑指南处理了历史低自尊表达与社会经验模糊性等难点，增强了注释的准确性与一致性。此外，数据集遵循FAIR原则，强调可查找性、可访问性、互操作性与可重用性，所有数据均经过匿名化处理，仅保留文本内容与二元分类标签，保障了用户隐私与伦理安全。数据分布呈现不平衡性（低自尊存在与不存在比例约为1:3），为后续数据增强与模型优化提供了明确方向。

使用方法

LoST数据集主要应用于自然语言处理领域的心理健康计算研究，尤其适用于低自尊自动检测模型的开发与评估。研究者可将数据集用于监督学习任务，通过构建二元分类器（如基于Transformer的预训练模型BERT、RoBERTa或循环神经网络LSTM、GRU）来识别文本中低自尊的存在与否。为应对数据不平衡问题，可采用数据增强技术，如简单数据增强（EDA）中的同义词替换、随机插入与删除，或回译（Back Translation）方法，以扩充少数类样本并提升模型泛化能力。实验设置建议采用十折交叉验证，结合马修斯相关系数（MCC）等指标全面评估模型性能。此外，数据集支持心理健康筛查与分流应用，通过早期预警机制辅助临床决策，但需注意机器学习预测不能替代专业心理健康诊断。未来工作可探索将心理学知识（如量表词汇）作为外部知识注入模型，或开发更具解释性的上下文增强方法，以推动心理健康NLP向更精准、可信的方向发展。

背景与挑战

背景概述

在心理健康研究领域，社交媒体的文本数据为早期识别心理风险因素提供了宝贵资源。LoST（Low SelfesTeem）数据集由梅奥诊所等机构的研究人员于2022年构建，旨在通过Reddit帖子检测低自尊这一关键人际风险因素。该数据集基于心理学理论，采用标准化量表（如Rosenberg自尊量表）进行专家标注，包含3251条帖子，专注于低自尊与抑郁、自杀意念的关联研究。其发布推动了自然语言处理在心理健康监测中的应用，为开发早期预警系统提供了数据基础。

当前挑战

LoST数据集面临的挑战主要体现在领域问题与构建过程两方面。在领域问题上，低自尊检测涉及复杂的主观心理状态，文本中情感表达的隐晦性与语境依赖性使得模型难以准确捕捉细微的自尊信号，现有算法对正面样本的识别性能仍有提升空间。构建过程中，数据标注高度依赖心理学专业知识，标注者需平衡临床判断与文本表面信息，处理诸如过去低自尊陈述与社会经验歧义等困惑，同时需遵守伦理约束，在保护用户隐私的前提下确保数据质量与可靠性。

常用场景

经典使用场景

在心理健康计算领域，LoST数据集被广泛用于开发与验证低自尊倾向的自动检测模型。该数据集基于Reddit平台上的用户发帖构建，通过心理学理论指导的标注方案，为研究者提供了高质量的监督学习资源。经典应用场景包括利用深度学习模型，如BERT和RoBERTa，对文本进行二分类，以识别发帖中是否隐含低自尊信号，从而支持早期心理健康风险评估。

实际应用

在实际应用中，LoST数据集可被整合到心理健康监测平台，用于筛查社交媒体上潜在的低自尊用户群体。例如，在公共卫生领域，该数据集支持的模型能够辅助心理治疗师进行初步风险评估，实现对高风险个体的及时干预。此外，它还可应用于工作场所或教育环境，帮助识别因失业、学业压力或人际关系问题引发的心理困扰，促进早期支持机制的建立。

衍生相关工作

基于LoST数据集，研究者们衍生出一系列经典工作，主要集中在心理知识增强的语言模型开发。例如，通过融入临床心理学词典或因果分析框架，提升了模型对低自尊语境的理解能力。同时，该数据集也启发了对数据增强技术的探索，如回译与简单数据增强方法，以改善类别不平衡问题，并为后续心理健康数据集如CAMS的构建提供了方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集