five

REDDITESS

收藏
arXiv2025-03-28 更新2025-04-03 收录
下载链接:
http://arxiv.org/abs/2503.21888v1
下载链接
链接失效反馈
官方服务:
资源简介:
REDDITESS数据集是由Reddit帖子衍生的真实世界数据集,包含描述压力或困扰情境的原始帖子、提供的支持性评论以及原始帖子的回复。该数据集由亚利桑那州立大学等机构创建,旨在理解有效的社会支持构成,以改进AI驱动的心理健康干预工具。数据集涵盖了多种心理健康主题,通过综合评估回复的感激表达和情感分析,对支持性评论进行标记。

The REDDITESS dataset is a real-world corpus derived from Reddit posts, which includes original posts describing stressful or distressing situations, supportive comments targeting these posts, and replies to the original posts. Developed by institutions including Arizona State University, this dataset is designed to uncover the constituents of effective social support, so as to advance AI-driven mental health intervention tools. Covering a wide spectrum of mental health topics, the dataset annotates supportive comments through comprehensive assessment of gratitude expressions in replies and sentiment analysis.
提供机构:
亚利桑那州立大学,海勒大学,HumaConn AI咨询,微软,德克萨斯A&M大学
创建时间:
2025-03-28
搜集汇总
数据集介绍
main_image_url
构建方式
REDDITESS数据集的构建过程体现了严谨的科学方法论与创新的数据处理技术。研究团队从Reddit平台精选了五个心理健康相关子版块(创伤后应激障碍、抑郁症、焦虑症、压力及综合心理健康),通过Python Reddit API Wrapper进行数据采集,并实施了多级过滤机制以剔除低质量内容。数据集的核心价值在于其独特的三层交互结构:原始发帖、支持性评论以及发帖者的后续反馈,这种设计首次实现了对数字心理健康社区中支持有效性闭环评估。为确保标注质量,研究团队开发了集成标注机制,包含社会支持通用反馈标注、社区参与度标注和个体响应标注三个阶段,并引入语言学分析工具LIWC进行辅助验证。
使用方法
该数据集在应用层面展现出强大的多功能性。研究者可将其用于三大方向:首先,作为训练基准优化LLM的心理健康支持能力,研究团队已通过监督微调(SFT)和直接偏好优化(DPO)证明其提升模型生成上下文敏感支持的有效性;其次,构建支持有效性分类模型,基于RoBERTa的模型已达到83%的综合评估分数;第三,支持社会计算研究,通过分析1,689个独立帖文的时态模式(如发帖者平均10.8天后进行内容编辑)揭示在线支持社区的动态规律。使用建议包括:优先采用黄金样本进行有效性预测任务,结合LIWC特征提升模型解释性,并注意样本在不同心理健康子版块的不均衡分布。
背景与挑战
背景概述
REDDITESS是由亚利桑那州立大学、微软等机构的研究团队于2025年推出的心理健康社交支持交互数据集,旨在深化对有效社交支持的多维理解,并优化AI驱动的支持工具。该数据集源自Reddit平台的真实互动,包含原始发帖、支持性评论及发帖者的后续回应,并整合了社区元数据(如点赞数、争议分数)。其创新性在于突破了传统研究对共情维度的单一关注,首次系统性地整合了情感支持、信息指导、社区验证和应对策略等多重支持要素。该数据集基于社会科学理论构建标注框架,通过三重标注机制确保数据可靠性,对数字心理健康干预和LLM对齐研究具有重要价值。
当前挑战
该数据集面临的核心挑战体现在两个层面:在领域问题层面,需解决现有AI心理健康支持工具过度依赖共情表达、忽视信息性指导等多元支持维度的问题,以及缺乏用户反馈循环导致的支撑质量评估困境;在构建过程层面,需克服真实场景数据中低质量内容过滤、敏感信息匿名化处理等难题,同时设计兼顾互惠性(发帖者反馈)和社区认可度(元数据)的多阶段标注体系。此外,标注过程中还需平衡自动化标注效率与人工验证准确性,并处理Reddit平台固有的数据稀疏性和语境缺失问题。
常用场景
经典使用场景
REDDITESS数据集在心理健康研究领域具有广泛的应用价值,尤其在分析社交媒体平台上的社会支持互动方面表现突出。该数据集通过整合Reddit上的原始帖子、支持性评论以及发帖者的后续回复,为研究者提供了一个真实且多维度的数据源。经典使用场景包括分析有效社会支持的构成要素,如情感支持、信息支持和工具性支持等。数据集的多层次标注机制(包括社会支持的一般反馈标注、参与度标注和个体回应标注)使得研究者能够深入探讨不同支持类型的实际效果。此外,数据集还结合了社区反馈指标(如点赞数和争议分数),进一步增强了分析的全面性。
解决学术问题
REDDITESS数据集解决了心理健康研究中关于社会支持有效性的多个关键问题。首先,它突破了传统研究中对“有效支持”仅局限于共情表达的局限,通过引入信息指导、社区验证和具体应对策略等多维度指标,重新定义了社会支持的评估标准。其次,数据集通过整合发帖者的反馈和社区互动数据,解决了以往研究中缺乏用户反馈环的问题,使得研究者能够更准确地评估支持的感知质量和实际影响。此外,数据集的标注机制基于社会科学理论,并通过人工评估验证了其可靠性,为后续研究提供了坚实的理论基础和方法支持。
实际应用
REDDITESS数据集在实际应用中展现了广泛的潜力。在心理健康干预领域,该数据集可用于训练和优化基于大型语言模型(LLM)的支持工具,帮助这些工具生成更具上下文敏感性和实际帮助的回应。例如,通过指令调优和直接偏好优化(DPO),研究者可以利用数据集中的有效支持评论作为人类偏好数据,显著提升模型的生成质量。此外,数据集还可用于开发自动分类模型,预测评论的支持效果,为在线心理健康社区的内容审核和用户支持提供技术支持。在临床心理学研究中,数据集的分析结果可为设计数字化心理健康干预方案提供实证依据。
数据集最近研究
最新研究方向
近年来,REDDITESS数据集在心理健康支持领域的研究方向主要集中在多维度社会支持的有效性评估及大型语言模型(LLMs)的优化应用。该数据集通过整合用户反馈、社区互动元数据(如点赞数、争议评分)及理论驱动的标注框架,突破了传统研究对共情能力的单一关注,将信息指导、社区验证和实际应对策略纳入有效支持的定义范畴。前沿探索包括:1)基于社交科学与心理学理论构建的混合标注方法,通过用户互惠性和社区接受度量化支持质量;2)利用LIWC工具解析支持性语言的情感与社交特征,揭示有效支持在简洁性、正向情感及权威性表达上的显著差异;3)指导LLMs生成情境敏感的个性化支持响应,通过指令微调与直接偏好优化(DPO)技术,使模型在心理健康干预中展现出更贴近人类支持的语境理解能力。相关研究进一步推动了AI辅助工具在数字心理健康社区中的实际应用,为可扩展、即时化的心理援助系统提供了数据基础与方法学支持。
相关研究论文
  • 1
    RedditESS: A Mental Health Social Support Interaction Dataset -- Understanding Effective Social Support to Refine AI-Driven Support Tools亚利桑那州立大学,海勒大学,HumaConn AI咨询,微软,德克萨斯A&M大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作