five

RedHOTExpect

收藏
arXiv2026-02-17 更新2026-02-19 收录
下载链接:
https://www.ims.uni-stuttgart.de/data/RedHOTExpect
下载链接
链接失效反馈
官方服务:
资源简介:
RedHOTExpect是由斯图加特大学和哥本哈根IT大学联合创建的医疗领域社交媒体文本数据集,旨在研究患者对治疗的期望表达。该数据集包含约4,500条来自Reddit的医疗相关帖子,其中约2,500条带有治疗-期望-结果(TEO)三元组的细粒度标注。数据来源于Reddit健康讨论板块,通过大语言模型(LLM)进行自动筛选和银标注,并经过人工验证(标注准确率约78%)。数据集构建过程包括经验帖子筛选、期望标注和TEO三元组提取三个步骤。该数据集主要用于自然语言处理中的期望检测任务,可应用于医疗意见挖掘、治疗效果预测等领域,帮助医生识别患者未公开表达的治疗担忧。
提供机构:
斯图加特大学; 哥本哈根IT大学
创建时间:
2026-02-17
搜集汇总
数据集介绍
构建方式
在医疗社交媒体文本挖掘领域,RedHOTExpect数据集的构建采用了创新的半自动化流程。该数据集以RedHOT语料库为基础,从中筛选出约1.2万条患者自述的医疗经历帖子。通过部署大型语言模型,对每篇帖子进行二元分类,识别其中是否包含与治疗结果相关的期望表达。对于被标记为包含期望的帖子,进一步利用同一模型提取结构化的治疗-期望-结果三元组。为确保标注质量,研究团队对245个帖子的子集进行了人工验证,确认自动标注的准确率约为77.5%,最终形成了包含约4.5万条帖子、其中约2500条带有精细三元组标注的语料库。
特点
RedHOTExpect数据集的核心特点在于其专注于自然语言中期望表达这一新颖的语义范畴。该数据集不仅提供了句子级别的期望存在性标注,更包含了细粒度的治疗、期望与结果之间的三元组关系,为深入分析期望的语言学特征及其与治疗结果的关联提供了结构化基础。语料源自真实的Reddit医疗社区讨论,涵盖了23种健康条件,确保了数据的多样性与现实代表性。其标注体系融合了期望类型、依据、确定性及时间导向等多维度属性,为计算语言学领域首次系统化探索期望检测任务奠定了资源基石。
使用方法
该数据集主要服务于自然语言处理中新兴的期望检测任务研究。使用者可将其用于训练和评估模型,以自动识别文本中关于未来治疗结果的信念、预期或预测。具体而言,研究者可利用其句子级标签开发期望分类器,或基于其三元组标注构建关系抽取模型,以自动析取治疗干预、预期结果与实际报告结果之间的复杂关联。此外,该语料库支持跨健康领域的对比语言学分析,例如探究不同疾病背景下期望表达的语言风格差异,或分析期望依据(如个人经验、权威建议)的分布模式,从而深化对患者在线健康交流行为的理解。
背景与挑战
背景概述
RedHOTExpect数据集由德国斯图加特大学和丹麦哥本哈根IT大学的研究团队于2026年构建,旨在探索自然语言处理中一个新兴任务——期望检测。该数据集聚焦于医疗领域,特别是患者对治疗结果的预期表达,其核心研究问题在于如何从社交媒体文本中自动识别并结构化提取患者对未来治疗效果的信念、希望或担忧。通过分析Reddit医疗子论坛中约4500条帖子,该数据集揭示了在线患者讨论中普遍存在的期望表达现象,为理解心理社会因素如何影响治疗依从性与疗效提供了大规模实证基础,对计算社会科学、医疗信息学及个性化医疗具有重要启示。
当前挑战
RedHOTExpect数据集所应对的核心领域挑战在于,期望检测作为一个全新的自然语言处理任务,其目标是从非结构化文本中识别对未来结果的微妙预期,这超越了传统情感分析或立场检测的范畴,要求模型理解隐含的因果与时间关联。在构建过程中,研究团队面临双重挑战:其一,期望表达常具隐含性与语境依赖性,需依赖大型语言模型进行银标注,并承受约22%的标注噪声;其二,从叙事性社交媒体帖子中准确提取治疗-期望-结果三元组存在困难,因患者可能在后续评论中才披露结果,要求标注流程具备跨文本片段的关联推理能力。
常用场景
经典使用场景
在医疗自然语言处理领域,RedHOTExpect数据集为探索患者治疗期望的表达模式提供了关键资源。该数据集通过从Reddit医疗板块中提取约4500条患者自述帖子,构建了包含治疗-期望-结果三元组标注的语料库,为期望检测这一新兴任务奠定了实证基础。研究者利用该数据集分析患者在线讨论中期望的语言特征,例如未来导向词汇和动机性表达的使用频率,从而揭示期望表达与健康叙事之间的系统性差异。
实际应用
在实际医疗健康领域,RedHOTExpect数据集支持开发智能系统以监测患者在线社区中的治疗期望动态。这类系统可辅助医疗从业者识别患者未在临床环境中表达的隐性担忧,例如对药物副作用的恐惧或对疗效的怀疑。通过分析大规模社交媒体数据,公共卫生机构能够及时发现可能影响治疗依从性的负面期望模式,从而设计针对性的患者教育干预措施。
衍生相关工作
基于RedHOTExpect数据集,后续研究可延伸至多模态期望分析、跨文化期望比较等领域。该数据集启发了对希望与遗憾检测任务的深化探索,促进了医疗社交媒体挖掘中细粒度情感与认知状态的建模工作。相关研究可进一步整合临床报告数据,构建融合线上线下信息的期望预测模型,推动个性化医疗与患者支持系统的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作