Reddit Reports of Chronic Pain (RRCP)
收藏arXiv2022-11-19 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2108.10218v4
下载链接
链接失效反馈官方服务:
资源简介:
Reddit Reports of Chronic Pain (RRCP)数据集由里斯本大学高等技术学院创建,包含86,537条来自Reddit的慢性疼痛相关帖子。该数据集涵盖了12个与慢性疼痛相关的子论坛,每个子论坛专注于一种特定的病理背景。数据集的创建过程涉及手动选择与慢性疼痛相关的子论坛,并收集了截至2020年的所有文本提交。RRCP数据集的应用领域在于通过自然语言处理技术,分析和模型化慢性疼痛的语言表达,以识别和量化不同病理背景下的慢性疼痛体验的相似性和差异性。
The Reddit Reports of Chronic Pain (RRCP) dataset was developed by the Instituto Superior Técnico, University of Lisbon. It contains 86,537 chronic pain-related posts sourced from Reddit, and covers 12 chronic pain-focused subreddits each dedicated to a specific pathological context. The dataset construction process involved manually curating these relevant subreddits and collecting all textual submissions up to the year 2020. The core applications of the RRCP dataset lie in utilizing natural language processing technologies to analyze and model the linguistic expressions of chronic pain, so as to identify and quantify the similarities and differences in chronic pain experiences across distinct pathological contexts.
提供机构:
里斯本大学高等技术学院
创建时间:
2021-08-23
搜集汇总
数据集介绍

构建方式
在慢性疼痛研究领域,语言表达作为评估与理解患者主观体验的关键媒介,其大规模文本数据的系统性构建显得尤为重要。Reddit Reports of Chronic Pain (RRCP) 数据集的构建基于Reddit社交平台,通过人工筛选12个与慢性疼痛明确相关的病理主题子论坛(subreddit),涵盖从2013年至2020年间所有包含文本内容的提交帖子。利用公开的Reddit API,采集了每篇帖子的唯一标识符、发布时间、作者用户名、标题、正文及互动数据,并辅以完整的评论树结构。数据经过预处理,包括去除URL、数字、标点及停用词,统一转换为小写,并进行分词处理,最终形成包含86,537篇有效文档的语料库,为后续语义分析奠定了坚实基础。
特点
该数据集的核心特征体现在其多维度的结构设计与丰富的语义内涵。RRCP囊括了12种不同病理背景下的慢性疼痛体验报告,文档总量达86,537篇,覆盖44,815名独立作者,确保了样本的多样性与代表性。数据集不仅包含文本内容,还整合了作者人口统计学信息(如性别、年龄与地理位置)及帖子情感倾向分析,为跨病理比较提供了丰富语境。尤为突出的是,通过潜在狄利克雷分配模型与聚类分析,数据集揭示了各子论坛在语义空间中的核心关切点,既识别出跨病理的共性主题(如工作与睡眠困扰),也凸显了特定病理的独有讨论焦点(如饮食与泌尿感染),生动映射了慢性疼痛体验的复杂多维性。
使用方法
在自然语言处理与健康信息学交叉领域,RRCP数据集为探索慢性疼痛的语言表达模式提供了重要资源。研究者可借助潜在主题建模技术,将文档投影至语义空间,进而通过聚类方法识别各子论坛的核心关切区域,构建其语义跨度模型。利用图论方法比较不同子论坛语义跨度的相似性,能够量化慢性疼痛体验之间的共性与差异。此外,数据集支持情感分析、词汇分布统计及人口统计学关联研究,可用于开发疼痛描述符自动识别、症状提取或强度估计等无监督学习任务。为确保研究伦理,使用中需遵循Reddit平台条款,避免用户身份识别,并关注数据来源的潜在文化偏差。
背景与挑战
背景概述
慢性疼痛作为一种多维度的主观体验,其语言表达在临床评估与管理中具有关键价值。传统研究如麦吉尔疼痛问卷依赖人工方法,受限于样本规模与成本。在此背景下,由INESC-ID与波尔图大学等机构的研究团队于2020年构建的Reddit慢性疼痛报告数据集,旨在通过自然语言处理技术,从社交媒体文本中量化分析多种病理背景下的慢性疼痛体验。该数据集收录了12个疼痛相关子论坛的86,537条公开提交内容,首次实现了对不同疼痛诱发病理的语言表达进行系统建模与比较,为疼痛研究的计算语言学路径奠定了数据基础。
当前挑战
该数据集致力于解决慢性疼痛语言表达的自动建模与跨病理比较问题,其核心挑战在于如何从非结构化的社交媒体文本中提取具有临床意义的语义模式,并区分通用与病理特异性的疼痛关切。在构建过程中,研究者面临多重挑战:首先,Reddit平台的匿名性导致人口统计学信息不完整,难以验证样本对整体疼痛人群的代表性;其次,子论坛特定的文化语境与表述习惯可能引入语言偏差;此外,用户生成内容的真实性与准确性无法直接验证,需依赖无监督方法应对标注缺失的困境。
常用场景
经典使用场景
在慢性疼痛研究领域,RRCP数据集为自然语言处理技术提供了丰富的语料基础。该数据集通过整合Reddit平台上12个与慢性疼痛相关子论坛的文本报告,构建了一个包含86,537条用户生成内容的语料库。研究者利用潜在狄利克雷分配模型对语料进行主题建模,将文本投影到20维语义空间中,进而通过聚类分析揭示不同病理背景下疼痛体验的核心关注点。这种基于语义密度的建模方法,能够系统性地捕捉慢性疼痛描述中的多维语义结构,为理解疼痛体验的语言表达提供了量化分析框架。
解决学术问题
该数据集有效解决了慢性疼痛研究中语言分析样本有限、人工标注成本高昂的学术难题。传统研究如麦吉尔疼痛问卷仅基于297名参与者的数据,而RRCP通过大规模社交媒体文本,实现了对疼痛语言表达的系统性建模。它使研究者能够识别不同病理背景下疼痛体验的共同关注点与独有特征,例如发现所有子论坛共享工作与睡眠等核心议题,而饮食问题则特定于克罗恩病等病理。这种基于语义相似性图的分析方法,为疼痛体验的多维性研究提供了新的实证基础。
衍生相关工作
基于RRCP数据集的研究推动了慢性疼痛计算语言学领域的发展。后续工作可扩展至基于预训练词向量的语义空间建模,或采用密度聚类方法优化主题识别。在应用层面,该数据集启发了无监督症状提取、疼痛描述符识别及基于关键词的强度估计等研究方向。相关方法已被应用于炎症性肠病论坛的实体关系挖掘、类风湿关节炎女性的质性分析等工作中,形成了从社交媒体文本中提取临床见解的方法论体系。
以上内容由遇见数据集搜集并总结生成



