five

FIG-Loneliness/FIG-Loneliness

收藏
Hugging Face2022-07-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/FIG-Loneliness/FIG-Loneliness
下载链接
链接失效反馈
官方服务:
资源简介:
FIG-Loneliness是一个用于细粒度孤独感特征描述和模型训练的数据集。该数据集包含2633个孤独和3000个非孤独的Reddit帖子,这些帖子由训练有素的人类注释者进行注释。对于孤独的帖子,提供了关于孤独形式的细粒度类别标签,包括持续时间、背景和人际关系,以及作者的应对策略,如寻求帮助、寻求建议、寻求验证和非直接互动。数据集支持的任务和语言也被提及,但某些部分如支持的任务和语言生产者信息缺失。

FIG-Loneliness is a dataset dedicated to fine-grained loneliness feature characterization and model training. It consists of 2633 lonely and 3000 non-lonely Reddit posts, which were annotated by professionally trained human annotators. For the lonely posts, fine-grained categorical labels regarding the forms of loneliness are provided, including duration, background, interpersonal relationships, as well as the authors' coping strategies such as seeking help, seeking advice, seeking validation and indirect interaction. The supported tasks and languages of the dataset are also mentioned, but some information such as the supported tasks, languages and the producer's details remains missing.
提供机构:
FIG-Loneliness
原始信息汇总

数据集概述

数据集描述

  • 名称: FIG-Loneliness
  • 摘要: FIG-Loneliness 是一个用于细粒度孤独特征化和模型训练的数据集。该数据集包含2633个孤独和3000个非孤独的Reddit帖子,由训练有素的人类标注者进行标注。对于孤独帖子,提供了包括持续时间、情境和人际关系在内的孤独形式的细粒度类别标签,以及作者包括寻求帮助、寻求建议、寻求验证和非定向互动在内的应对策略。
  • 语言: 英语

数据集结构

  • 数据实例: 训练集包含3,943个实例,开发集包含1,126个实例,测试集包含564个实例。
  • 数据字段: 每个实例包含8个字段,包括idx, unique_id, text, lonely, temporal, interaction, context_pri, 和 interpersonal_pri
  • 数据分割: 数据集分为训练集、开发集和测试集。

数据集创建

  • 采集理由: 旨在捕捉年轻成年人群(孤独易感群体)的孤独表达。
  • 源数据: 通过Reddit的Pushshift API从2018至2020年收集自特定子论坛的帖子。
  • 标注: 标注由训练有素的本科研究助理和Amazon Mechanical Turk的认证工人完成。

使用数据的考虑

  • 许可证: 数据集遵循CC BY-NC 4.0许可。
  • 引用信息: 引用时请参考Jiang, Y., Jiang, Y., Leqi, L., & Winkielman, P. (2022)的论文。
搜集汇总
数据集介绍
main_image_url
构建方式
在心理健康研究领域,对孤独感的精细刻画需要高质量的数据支撑。FIG-Loneliness数据集的构建始于从Reddit平台通过Pushshift API系统性地采集数据,时间跨度为2018年至2020年,覆盖了孤独感主题社区(如r/loneliness)及年轻成人社区(如r/youngadults)的公开帖子。随后,研究团队实施了严谨的人工标注流程:对于潜在的孤独帖子,由经过培训的研究助理依据详细编码手册进行多轮标注,标注维度涵盖孤独体验的持续时间、情境、人际关系及用户的互动策略;对于非孤独帖子,则通过亚马逊众包平台由认证工作者进行多数表决筛选。最终,经过严格的质量控制,形成了包含2633个孤独帖子和3000个非孤独帖子的平衡数据集,并划分为训练集、开发集和测试集。
特点
该数据集在孤独感计算研究领域展现出鲜明的特色。其核心优势在于提供了多维度的精细标注,不仅区分帖子是否表达孤独,更深入刻画了孤独的形式与应对策略。具体而言,每个孤独帖子均附有持续时间(如短暂性、持久性)、情境(如社交、身体、躯体、浪漫)、人际关系(如浪漫关系、友谊、家庭、同事)及互动意图(如寻求建议、提供帮助、寻求确认、主动联系、非定向互动)的向量化标注,这些标注以人类标注者投票汇总的形式呈现,增强了数据的可靠性与丰富性。数据规模适中,共计5633个实例,且专注于英语文本,为开发能够理解孤独感复杂表达的机器学习模型提供了结构化、高质量的语料基础。
使用方法
为便于研究者利用该数据集推进相关工作,其加载流程已与Hugging Face生态系统集成。使用者首先需克隆数据集仓库至本地,随后借助`datasets`库的`load_from_disk`函数分别载入预划分的训练集、开发集和测试集。每个数据实例包含八个字段,其中`text`字段存储原始帖子文本,而`lonely`、`temporal`、`interaction`、`context_pri`、`interpersonal_pri`等字段则对应各项精细标注的向量表示。研究者可据此构建分类或序列标注模型,以识别文本中的孤独表达并解析其具体维度。在使用前,建议详细阅读随附的编码手册与相关论文,以充分理解标注体系的内涵与数据局限性,确保研究设计的严谨性。
背景与挑战
背景概述
在心理健康与计算社会科学交叉领域,孤独感作为一种复杂的情感体验,其多维度表征一直是研究难点。FIG-Loneliness数据集由加州大学圣地亚哥分校的研究团队于2022年创建,旨在通过细粒度标注揭示孤独表达的内在结构。该数据集从Reddit平台采集了涵盖孤独与非孤独主题的5633条帖子,并由经过训练的人工标注员对孤独的持续时间、情境背景、人际关系及应对策略等维度进行系统标注。这一资源为深入理解数字环境中的孤独现象提供了实证基础,推动了自然语言处理在心理健康分析中的应用,尤其在年轻成年人这一易感群体的孤独感研究中具有重要价值。
当前挑战
该数据集致力于解决细粒度孤独感分类的挑战,包括从文本中识别孤独表达的多样性、区分其时间维度(如短暂性与持久性)以及解析个体采用的复杂应对机制。在构建过程中,研究团队面临多重困难:首先,从社交媒体获取的数据存在表达模糊性与语境依赖性,增加了标注的一致性难度;其次,设计涵盖多维度孤独特征的标注体系需要平衡理论严谨性与实际可操作性;此外,协调不同标注者(如研究助理与众包工人)的评判标准,确保标注质量与可靠性,亦是一项关键挑战。这些因素共同凸显了在真实世界文本数据中捕捉主观情感状态的复杂性。
常用场景
经典使用场景
在心理健康与计算社会科学领域,FIG-Loneliness数据集为研究者提供了深入探索孤独感表达的多维度框架。该数据集通过精细标注的Reddit帖子,捕捉了孤独感的持续时间、情境背景、人际关系及应对策略等关键维度,使得机器学习模型能够学习并识别文本中隐含的复杂情感状态。这一经典应用场景不仅推动了自然语言处理技术在情感分析中的精细化发展,还为理解在线社区中用户的情感表达模式提供了实证基础,促进了跨学科研究方法的融合与创新。
实际应用
在实际应用层面,FIG-Loneliness数据集为开发智能心理健康辅助工具提供了关键资源。基于该数据集训练的模型可应用于在线社交平台,自动识别用户帖子中的孤独感信号,并及时触发干预机制,如推荐专业支持资源或促进社区互动。此外,该数据集还可用于公共健康研究,帮助政策制定者了解特定人群(如年轻成年人)在重大社会事件(如COVID-19疫情期间)的情感变化趋势,从而优化心理健康服务的资源配置。
衍生相关工作
围绕FIG-Loneliness数据集,一系列经典研究工作相继涌现,进一步拓展了其学术价值。例如,有研究利用该数据集的精细标注训练多任务学习模型,以同时预测孤独感的多个维度属性;另有工作结合图神经网络分析用户互动模式,探索孤独感表达与在线社交网络结构之间的关联。这些衍生研究不仅验证了数据集的可靠性与泛化能力,还推动了情感计算、社会心理学与数据科学的交叉创新,为后续大规模心理健康数据集的建设奠定了方法论基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作