Stance in Replies and Quotes (SRQ)
收藏arXiv2020-06-28 更新2024-06-21 收录
下载链接:
http://doi.org/10.5281/zenodo.3609277
下载链接
链接失效反馈官方服务:
资源简介:
Stance in Replies and Quotes (SRQ) 数据集是由卡内基梅隆大学计算机科学学院创建,专注于Twitter对话中的立场分析,特别是回复和引用中的立场表达。该数据集包含超过5200个立场标签,是目前最大的针对Twitter对话的人工标注立场数据集。数据集通过特定的收集方法,偏向于选择否认类型的回复,有助于识别谣言和确定用户间的敌对关系。此外,数据集区分了回复和引用的不同类型,为理解社交媒体中的对话提供了新的视角。该数据集适用于开发自动检测错误信息和理解社区极化的系统。
The Stance in Replies and Quotes (SRQ) dataset was developed by the School of Computer Science at Carnegie Mellon University, focusing on stance analysis in Twitter conversations, especially stance expressions conveyed in replies and quote posts. Boasting over 5200 manually annotated stance labels, it stands as the largest manually annotated stance dataset tailored for Twitter conversations to date. Employing a targeted data collection strategy that prioritizes denier-type replies, the dataset facilitates rumor identification and the detection of adversarial relationships between users. Furthermore, the dataset distinguishes between different categories of replies and quote posts, offering novel insights into the dynamics of social media conversations. This dataset is a valuable resource for developing automated systems for misinformation detection and community polarization research.
提供机构:
卡内基梅隆大学计算机科学学院
创建时间:
2020-06-01
搜集汇总
数据集介绍

构建方式
在社交媒体立场检测研究领域,构建高质量数据集是推动模型发展的关键。SRQ数据集的构建采用了一种精心设计的收集方法,聚焦于Twitter平台上围绕争议性议题的回复与引用对话。研究团队选取了三个特定事件(学生游行、伊朗核协议、圣达菲枪击案)以及一组通用术语作为数据来源,通过Twitter的REST和流式API采集推文。为确保数据偏向于包含否认立场的回复,团队引入了一系列争议性术语作为筛选条件,仅当目标推文包含事件相关术语且回复包含争议性术语时,才将对话对纳入候选集。随后,采用分层抽样策略,基于Skip-Thought向量对语义空间进行聚类,以获取具有代表性的标注样本,最终通过人工标注流程对5200余个对话对进行了六类立场标注。
特点
SRQ数据集在社交媒体立场分析领域展现出若干显著特征。作为当前规模最大的人工标注Twitter对话立场数据集,它首次区分了回复与引用两种交互模式,为探究不同对话形式下的立场表达提供了独特视角。该数据集在类别分布上实现了更优的平衡性,通过针对性收集策略显著提升了否认类和支持类样本的比例,克服了传统数据集中中立评论占主导的局限。此外,标注体系创新性地引入了显性与隐性立场细分维度,将非中立响应进一步区分为显性支持/否认和隐性支持/否认,这种精细划分有助于揭示语境依赖型立场表达的复杂性,为模型误差分析提供了更丰富的视角。
使用方法
该数据集为立场检测模型的训练与评估提供了重要资源。研究者可依据数据集提供的结构化JSON文件,利用推文ID重新获取完整对话内容,或直接使用已标注的文本与元数据。数据集明确区分回复与引用两种类型,建议分别构建训练集以捕捉其不同的语言特征。在模型构建方面,既可基于传统文本特征(如TF-IDF结合SVM分类器)进行快速原型验证,也可采用深度学习架构,利用词向量(Glove)或句向量(Skip-Thought、DeepMoji)等特征,设计能够同时编码目标推文与回复文本的神经网络模型。数据集的六类标注可灵活合并为支持、否认、查询、评论四类,以适应不同的研究任务。其包含的多事件数据支持跨领域泛化能力测试,而丰富的元数据(如时间戳、交互类型)则为研究对话动态和用户行为提供了多维分析基础。
背景与挑战
背景概述
社交媒体意见挖掘领域长期致力于自动化提取用户立场,以深化对在线对话的理解。2020年,卡内基梅隆大学计算机科学学院的Ramon Villa-Cox、Sumeet Kumar等研究人员推出了Stance in Replies and Quotes (SRQ)数据集,旨在解决Twitter对话中立场检测的核心研究问题。该数据集聚焦于争议性话题,通过标注回复与引用推文中的支持、否认等立场,构建了包含超过5200条人工标注标签的大规模语料库。其创新之处在于首次区分了回复与引用两种交互模式,并采用偏向否认类样本的收集策略,显著提升了数据平衡性,为谣言检测、社区极化分析等下游任务提供了关键资源,推动了立场学习模型的泛化能力与性能提升。
当前挑战
立场检测领域面临的核心挑战在于模型泛化性与数据质量。现有数据集通常规模有限、类别分布不均,且多数样本缺乏明确立场,导致模型难以准确识别支持或否认等关键类别。此外,社交媒体对话的多样性,如Twitter中回复与引用在语言模式上的差异,进一步增加了统一建模的难度。在SRQ数据集的构建过程中,研究人员需克服标注一致性难题,尤其是隐式立场样本的歧义性处理,同时设计高效的语义空间采样方法以确保数据代表性。这些挑战共同凸显了立场检测任务的复杂性,亟待更先进的模型与数据策略以提升性能。
常用场景
经典使用场景
在社交媒体意见挖掘领域,SRQ数据集为立场检测任务提供了关键资源。该数据集通过标注Twitter对话中回复与引用帖文的立场,支持研究者训练模型以自动识别用户对争议性话题的支持或否认态度。其经典应用场景包括构建端到端的立场分类系统,利用机器学习算法分析对话结构,从而揭示用户在互动过程中的情感倾向与观点对立。
解决学术问题
SRQ数据集有效解决了社交媒体立场检测中的若干学术难题。传统数据集常因规模有限、类别分布不均而难以泛化,SRQ通过精心设计的收集方法,显著增加了否认类样本的比例,缓解了类别不平衡问题。同时,该数据集首次区分回复与引用两种交互模式,为探究不同对话形式下的立场表达差异提供了实证基础,推动了立场检测模型在跨事件泛化与细粒度分类方面的进展。
衍生相关工作
SRQ数据集的发布催生了多项经典研究工作。例如,后续研究基于该数据集探索了树状LSTM与卷积单元结合的网络结构,以提升对话中立场与谣言可信度的预测性能。同时,该数据集启发了对社交媒体中引用行为的多模态分析,促进了针对不同交互类型的专用立场检测模型开发,进一步拓展了对话理解与社交网络挖掘的研究边界。
以上内容由遇见数据集搜集并总结生成



