CausalTalk
收藏arXiv2025-09-20 更新2025-09-24 收录
下载链接:
https://github.com/xding2/CausalTalk
下载链接
链接失效反馈官方服务:
资源简介:
CausalTalk是一个多层次的Reddit帖子数据集,包含2020年至2024年间关于COVID-19大流行相关公共卫生的讨论。数据集涵盖了四个任务:二元因果分类、显式与隐式因果性检测、原因-结果跨度提取和因果概要生成。数据集包括专家手动标注的金标准标签和通过GPT-4o生成的银标准标签。CausalTalk旨在支持细粒度因果检测和基于概要的推理,为研究社交媒体中的因果推理提供了丰富的资源。
CausalTalk is a multi-level Reddit post dataset containing discussions related to public health concerning the COVID-19 pandemic spanning from 2020 to 2024. The dataset covers four tasks: binary causal classification, explicit and implicit causality detection, cause-effect span extraction, and causal summary generation. It includes gold-standard labels manually annotated by experts and silver-standard labels generated by GPT-4o. CausalTalk aims to support fine-grained causal detection and summary-based reasoning, providing a rich resource for research on causal reasoning in social media.
提供机构:
弗吉尼亚理工大学计算机科学系
创建时间:
2025-09-20
原始信息汇总
CausalTalk数据集概述
数据集名称
CausalTalk
数据集来源
GitHub仓库:https://github.com/xding2/CausalTalk
搜集汇总
数据集介绍

构建方式
CausalTalk数据集的构建基于2020年至2024年期间从43个与公共卫生相关的Reddit子论坛中收集的公开帖子,涵盖COVID-19大讨论等主题。通过Pushshift API进行数据采集,并应用去重、短文本过滤及非英语内容排除等质量控制措施。标注过程采用双轨策略:金标准标注由五位领域专家独立完成,并通过讨论达成共识;银标准标注则利用GPT-4o进行零样本提示生成,再经人工验证以确保质量。最终数据集包含10,120条标注实例,覆盖因果分类、显隐式区分、因果跨度提取及因果要点生成四层任务。
特点
CausalTalk的核心特点在于其多层次标注框架,专门针对社交媒体非正式文本中的因果语言理解。数据集不仅区分显性因果标记(如“因为”“因此”)与隐性因果推理(依赖语境推断),还提供精细的因果跨度标签及抽象化的因果要点总结。其数据来源聚焦Reddit平台,囊括科学讨论、政策辩论及个人经历等多元视角,增强了现实场景的覆盖度。此外,银标准标注的引入平衡了规模与质量,支持判别式与生成式模型的基准测试,为社交媒体的因果推理研究提供了丰富资源。
使用方法
该数据集适用于四类核心任务的模型评估与训练:因果二分类任务可通过微调BERT、DeBERTa等编码器模型实现;显隐式因果检测需结合语义上下文分析,尤其关注隐性关系的推理;因果跨度提取任务可借助SpanBERT等序列标注模型定位文本中的原因与结果片段;因果要点生成则支持T5、FLAN-T5等生成模型的监督微调,或通过指令提示调用Gemini、DeepSeek等大语言模型进行零样本/少样本学习。评估指标涵盖F1分数、ROUGE及BERTScore,确保对模型性能的多维度衡量。
背景与挑战
背景概述
CausalTalk数据集由弗吉尼亚理工大学研究团队于2025年推出,专注于社交媒体语境下的因果语言理解研究。该数据集采集了2020至2024年间43个公共卫生相关Reddit子论坛的讨论内容,涵盖COVID-19大流行等关键议题,共包含10,120条经过多层级标注的文本。其核心研究目标在于突破传统因果数据集对结构化文本的依赖,通过融合模糊痕迹理论,构建能够同时处理显性因果标记与隐性因果推理的多任务评估框架。该数据集的建立为自然语言处理领域提供了首个面向非正式社交媒体话语的因果理解基准,显著推动了公共卫生决策支持、谣言分析等应用场景的研究进展。
当前挑战
CausalTalk需应对社交媒体因果理解的双重挑战:在领域问题层面,其需解决非正式文本中隐性因果关系的识别难题,这类关系缺乏明确连接词,依赖语境推理与动词语义解析;在构建过程中,面临标注一致性的技术挑战,特别是因果跨度边界划分与因果要旨生成任务需平衡语义准确性与表述简洁性。此外,数据集需克服社交媒体文本固有的噪声干扰,包括口语化表达、信息碎片化以及因果链嵌套现象,同时通过金标准与银标准标注的协同验证,确保机器学习模型在因果分类、显隐判别、跨度抽取及生成任务上的评估可靠性。
常用场景
经典使用场景
在社交媒体自然语言处理研究中,CausalTalk数据集被广泛应用于多层级因果语言理解任务。该数据集通过标注Reddit平台上2020至2024年间与公共卫生相关的讨论帖文,为模型提供了识别非正式文本中因果关系的基准测试环境。研究者常利用其四层标注架构——包括因果二元分类、显隐式因果判别、因果要素跨度提取及因果要旨生成——来系统评估模型在复杂社交语境下的因果推理能力。特别是在疫情相关讨论的分析中,该数据集能有效支撑模型对用户生成内容中隐含因果链的挖掘与重构。
实际应用
该数据集在公共卫生监测与舆情分析中具有显著应用价值。通过分析社交媒体用户对疫苗接种、隔离政策等话题的因果表述,可辅助政府部门识别公众决策的心理动因。在虚假信息治理场景中,模型能依据因果逻辑链检测言论中的逻辑谬误,例如将“接种疫苗后生病”的时序关联误判为因果关系的认知偏差。此外,医疗机构可借助因果要旨生成技术,快速提炼患者自述症状中的关键因果链,辅助临床诊断决策。
衍生相关工作
基于CausalTalk的标注范式,多项研究进一步拓展了因果推理的技术边界。例如有工作将角色导向增量教练框架与因果要旨生成结合,通过分解复杂因果推理步骤提升大语言模型的逻辑连贯性;另有研究借鉴其显隐式因果分类体系,开发了针对长文本的篇章结构解析工具。该数据集还启发了多语言因果分析平台的构建,促使研究者将标注框架适配至日语、西班牙语等语言环境,推动跨文化语境下的因果表达比较研究。
以上内容由遇见数据集搜集并总结生成



