Dreaddit

arXiv2025-09-30 收录

下载链接：

http://www.cs.columbia.edu/~eturcan/data/dreaddit.zip

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要关注从Reddit上的五个不同论坛中识别出压力迹象。此外，为了与先前的研究保持一致，所提出模型的性能报告也是基于该数据集进行评估的。该数据集的任务是识别压力迹象。

This dataset primarily focuses on identifying signs of stress from five distinct forums on Reddit. Additionally, to align with prior research, the performance reports of the proposed model are based on evaluations conducted using this dataset. The task of this dataset is to identify signs of stress.

搜集汇总

数据集介绍

构建方式

Dreaddit数据集的构建依托于Reddit社交平台，选取了五个与压力表达高度相关的社区领域：人际冲突、焦虑、创伤后应激障碍、社交关系及财务困境。研究团队通过PRAW API抓取了2017年1月至2018年11月期间共计约19万条帖子，并从中随机抽取了3000条帖子，进一步分割为五句话的文本片段。利用亚马逊众包平台Mechanical Turk，邀请至少五名标注者对每个片段进行压力标注，标注标准基于作者是否表达出压力及负面情绪。最终获得3553个标注片段，其中压力与非压力标签比例接近平衡，标注者间一致性达到中等水平（Fleiss's Kappa = 0.47），确保了数据集的可靠性与多样性。

特点

该数据集的核心特点在于其多领域性与文本长度。相较于传统微博数据，Dreaddit中的帖子平均长度达420词，为深入分析压力的语言表达提供了丰富语境。数据集涵盖五个不同压力领域，每个领域内压力表达方式呈现显著差异，例如财务领域压力表达词汇多样性较低，而心理健康领域则使用更多结构化临床术语。此外，数据集标注不仅包含二分类压力标签，还记录了标注者间的一致性程度，为研究压力表达的主观性与复杂性提供了重要维度。数据集的词汇与句法分析显示，压力文本在词汇多样性、第一人称使用及情感表达上具有独特模式，为模型开发提供了深层语言学线索。

使用方法

Dreaddit数据集适用于监督学习任务，主要用于文本压力检测。研究者可将标注片段划分为训练集与测试集，利用传统机器学习方法（如逻辑回归、支持向量机）或深度学习模型（如卷积神经网络、循环神经网络）进行压力分类。数据集提供的丰富元数据——包括词汇特征（如LIWC心理语言学指标）、句法复杂度及社交媒体特征（如发帖时间、投票比例）——可作为辅助特征融入模型，以提升分类性能。此外，未标注的大规模帖子数据可用于半监督或自监督学习，增强模型对压力表达的泛化能力。数据集的领域划分支持跨领域压力检测研究，有助于探索压力表达的领域特异性与迁移学习潜力。

背景与挑战

背景概述

在社交媒体文本分析领域，Dreaddit数据集由哥伦比亚大学计算机科学系的Elsbeth Turcan与Kathleen McKeown于2019年创建，旨在应对心理健康研究中压力检测的空白。该数据集聚焦于Reddit平台上的长篇多领域文本，涵盖人际冲突、精神疾病及财务需求等五个类别，共包含约19万条帖子，其中3500余个片段经过人工标注。其核心研究问题在于通过自然语言处理技术识别用户在社交媒体中表达的压力，为心理学、公共卫生及情感计算等领域提供了重要的数据基础，推动了基于文本的压力检测模型的发展。

当前挑战

Dreaddit数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，压力检测具有高度主观性和语境依赖性，用户表达方式多样且隐晦，例如通过叙事或间接语言传递情绪，这使得模型难以准确区分压力与非压力文本；其二，在构建过程中，数据标注面临显著困难，包括人工标注者间仅达到中等一致性（Fleiss's Kappa为0.47），以及长篇帖子中压力表达的分散性，导致片段划分与标注标准难以统一。此外，数据集的领域多样性虽丰富了表达形式，但也引入了词汇和主题的异质性，增加了模型泛化的复杂度。

常用场景

经典使用场景

在社交媒体心理健康分析领域，Dreaddit数据集被广泛应用于文本压力检测研究。该数据集通过收集Reddit平台上五个不同主题社区的长篇帖子，构建了一个包含大量标注文本的语料库，为研究者提供了丰富的语言表达样本。这些数据通常用于训练和评估机器学习模型，特别是自然语言处理技术，以识别用户在社交媒体中表达的压力情绪。

衍生相关工作

Dreaddit数据集催生了多项经典研究工作，包括基于深度学习的压力检测模型优化。研究者利用该数据集开发了结合语言学特征和神经网络的混合方法，显著提升了分类性能。后续工作进一步探索了跨领域压力表达差异分析，以及基于注意力机制的可解释性模型，推动了社交媒体情感分析技术的发展。

数据集最近研究