Dreaddit

Name: Dreaddit
Creator: 哥伦比亚大学计算机科学系
Published: 2019-11-01 06:28:45
License: 暂无描述

arXiv2019-11-01 更新2024-06-21 收录

下载链接：

http://www.cs.columbia.edu/~eturcan/data/dreddit.zip

下载链接

链接失效反馈

官方服务：

资源简介：

Dreaddit是由哥伦比亚大学创建的一个用于分析社交媒体中压力的文本数据集。该数据集包含来自Reddit社区的19万条帖子，涵盖五个不同类别，旨在通过这些数据识别和分析压力。数据集中的部分内容通过Amazon Mechanical Turk进行了标注，以辅助监督学习模型的训练。Dreaddit的应用领域广泛，包括诊断身心疾病、评估公众情绪和担忧，以及追踪灾难的影响等。

Dreaddit is a text dataset developed by Columbia University for stress analysis in social media. It contains 190,000 posts sourced from the Reddit community, spanning five distinct categories, and is designed for stress identification and analysis. Portions of the dataset were annotated via Amazon Mechanical Turk to support the training of supervised learning models. Dreaddit has widespread applications, including diagnosing mental and physical disorders, evaluating public sentiment and concerns, and monitoring the impacts of disasters.

提供机构：

哥伦比亚大学计算机科学系

创建时间：

2019-11-01

搜集汇总

数据集介绍

构建方式

Dreaddit数据集的构建依托于Reddit社交平台，聚焦于压力表达的文本分析。研究团队选取了五个主题领域的子版块，包括人际冲突、心理健康及财务困境等，通过PRAW API爬取了2017年至2018年间约18.7万条帖子。为确保数据质量，团队采用亚马逊众包平台对其中约3500个文本片段进行人工标注，每个片段由至少五名标注者根据压力表达与负面情绪的标准进行二元判定，最终以多数投票确定标签，形成了兼具规模与深度的标注语料。

特点

该数据集的核心特点在于其文本长度与主题多样性。相较于传统微博数据，Reddit帖子的平均长度达420词，为压力表达的细微分析提供了丰富语境。数据涵盖五个压力相关领域，各领域在词汇使用、情感表达及句法结构上呈现显著差异，例如心理健康领域常使用临床术语，而财务领域则更多涉及具体困境描述。数据标注的一致性为中等水平，反映了压力表达的主观性与复杂性，为模型训练提供了挑战性样本。

使用方法

Dreaddit数据集适用于监督学习任务，尤其适合压力检测模型的开发与评估。研究者可将标注片段划分为训练集与测试集，利用词嵌入技术与语言学特征（如LIWC词典）构建分类模型。数据支持传统机器学习方法（如逻辑回归）与深度学习模型（如BERT）的对比实验，同时其未标注的大规模语料可用于半监督或迁移学习。数据集的领域划分便于进行跨领域压力表达分析，助力于心理健康监测与社会情绪研究。

背景与挑战

背景概述

Dreaddit数据集由哥伦比亚大学计算机科学系的Elsbeth Turcan与Kathleen McKeown于2019年创建，旨在为社交媒体文本中的压力识别研究提供资源。该数据集聚焦于Reddit平台，涵盖人际冲突、精神疾病及财务需求等五个领域的社区帖子，共计约19万条文本，其中3500余个片段经人工标注用于监督学习。其核心研究问题在于通过自然语言处理技术，从长篇社交媒体内容中检测用户所表达的压力状态，以拓展心理健康监测、公共情绪分析等应用场景，弥补了以往研究多依赖短文本或语音数据的局限。

当前挑战

在压力检测这一领域问题中，Dreaddit面临的主要挑战在于压力表达的主观性与语境依赖性，使得模型需区分显性症状描述与隐含情感暗示，并处理不同领域（如焦虑与财务）中压力表征的词汇多样性差异。数据构建过程中的挑战则体现在标注一致性上，由于压力感知的个人差异，人工标注仅达到中等一致性（Fleiss's Kappa=0.47），且需平衡片段长度与上下文完整性的矛盾；同时，Reddit帖子的叙事长度与语言复杂性要求标注设计兼顾效率与语义深度，增加了数据清洗与质量控制的难度。

常用场景

经典使用场景

在社交媒体心理健康分析领域，Dreaddit数据集为研究者提供了一个丰富且多维度的文本资源，专门用于识别和分类用户在Reddit平台上表达的压力情绪。该数据集通过采集五个不同主题社区（如人际关系冲突、心理健康、财务需求等）的长篇帖子，构建了一个包含大量标注与非标注数据的语料库。其经典使用场景在于训练和评估自然语言处理模型，以自动检测文本中隐含的压力信号，从而支持心理学与计算语言学的交叉研究。

衍生相关工作

围绕Dreaddit数据集，学术界衍生了一系列经典研究工作，主要集中在压力检测模型的优化与扩展。例如，研究者利用该数据集比较了传统机器学习方法与深度神经网络（如BERT、GRNN和CNN）的性能，验证了领域特定词嵌入与心理语言学特征（如LIWC）的有效性。后续工作进一步探索了半监督学习、多任务框架以及压力因果分析，推动了社交媒体心理状态检测的技术前沿，并为相关领域如抑郁、焦虑识别提供了方法论借鉴。

数据集最近研究