SPINOS (Subtle Polarity and Intensity Opinion Shifts)
收藏arXiv2022-04-29 更新2024-06-21 收录
下载链接:
https://github.com/caisa-lab/SPINOS-dataset
下载链接
链接失效反馈官方服务:
资源简介:
SPINOS数据集由马尔堡大学数学与计算机科学系对话式AI与社交分析实验室创建,旨在研究社交媒体用户细微的观点变化和立场检测。该数据集包含3.5k个Reddit帖子,涵盖了如堕胎、枪支控制等社会政治话题,共有超过11k个由专家和非专家手动标注的标注。数据集不仅记录了用户的立场极性,还包括立场强度,使得细微的观点变化可被检测。此数据集的创建过程涉及多阶段的标注和质量控制,旨在解决缺乏用于研究时间观点动态的自然语言处理数据资源的问题。应用领域包括社会政治科学中的观点形成和表达研究,以及自然语言处理中关于社交媒体行为与观点形成和波动关系的研究。
The SPINOS dataset was developed by the Lab for Conversational AI and Social Analysis, Department of Mathematics and Computer Science, University of Marburg, aiming to investigate subtle opinion shifts and stance detection among social media users. This dataset contains 3.5k Reddit posts covering socio-political topics such as abortion and gun control, with over 11k manual annotations completed by both experts and non-experts. It not only records the stance polarity of users but also includes stance intensity, enabling the detection of subtle opinion changes. The creation of this dataset involves multi-stage annotation and quality control processes, designed to address the scarcity of natural language processing (NLP) data resources for researching temporal opinion dynamics. Its applicable domains include studies on opinion formation and expression in socio-political sciences, as well as NLP research on the relationship between social media behaviors and the formation and fluctuation of public opinions.
提供机构:
马尔堡大学数学与计算机科学系对话式AI与社交分析实验室
创建时间:
2022-04-16
搜集汇总
数据集介绍

构建方式
在社交媒体极化现象日益加剧的背景下,SPINOS数据集应运而生,旨在捕捉用户意见的微妙波动。该数据集从Reddit平台收集了3526条帖子,涵盖堕胎、枪支、核能等八个社会政治议题。为确保用户历史数据的丰富性,每条帖子均与特定作者关联,并平均跨越六个月的时间跨度。数据标注采用专家与非专家(通过Mechanical Turk招募)相结合的方式,非专家需通过严格的资格测试和专家一致性筛选。最终标签由至少三位标注者的多数投票决定,并辅以语境信息需求、立场显性度、讽刺表达等额外元数据,以提升标注的精细度。
特点
SPINOS的核心创新在于其三维度的细粒度标注:时间维度上,每位用户拥有多条历史立场标注,支持长期意见演变分析;对话维度上,完整注释对话线程内的所有帖子,揭示讨论中的即时立场波动;强度维度上,引入强/弱二元强度标签,捕捉极性不变但强度变化的细微转变。数据集还包含专家与非专家的对比验证,结果表明非专家多数投票的标注质量与专家相当。此外,低一致性议题(如Brexit、核能)揭示了技术术语对标注的挑战,而高一致性议题(如堕胎、素食主义)则凸显了日常话题的标注优势。
使用方法
该数据集适用于多种立场检测任务,包括二元立场存在性分类、强度区分、三/四/五类细粒度立场分类。研究者可利用用户历史序列建模意见动态,或在对话线程内分析即时极化倾向。基线实验表明,基于unigram特征的逻辑回归或朴素贝叶斯模型显著优于随机基线,但任务难度与人类标注者的一致性正相关。未来可探索用户熵值驱动的意见波动预测、LIWC词汇类别与立场稳定性的关联,以及情感、讽刺与强度之间的交互作用。数据集中用户身份已匿名化处理,仅保留文本内容,确保隐私合规。
背景与挑战
背景概述
在社交媒体深度嵌入公众生活的当下,意见极化与激进化现象日益引发学界关注。然而,现有立场检测数据集多聚焦于静态极性判断,缺乏对用户意见随时间演变的细粒度刻画,尤其是对立场强度微弱波动的捕捉。为弥合计算语言学与社会政治学之间的方法论鸿沟,由德国马尔堡大学对话式人工智能与社会分析实验室联合达姆施塔特工业大学于2022年构建的SPINOS数据集应运而生。该数据集以Reddit平台为数据源,精选堕胎、枪支管制、气候变化等八项争议性社会政治议题,收集638位用户跨越6至15个月的3526条帖子,并引入专家与非专家联合标注机制,提供涵盖立场极性、强度及语境依赖性的多层次标注。SPINOS的核心创新在于其用户中心的设计理念:不仅追踪个体用户在长期时间轴上的态度波动,还解析对话线程内即时意见演化,为探索意见动态的宏观趋势与微观机制提供了前所未有的实证基础,标志着社会政治语言理解从静态分类向动态建模的关键转型。
当前挑战
SPINOS数据集面临的核心挑战在于其研究问题本身的高度复杂性。所解决的领域问题聚焦于意见动态建模,这要求模型不仅能识别立场极性,更需解析立场强度的细微变化,而人类标注者在区分‘弱支持’与‘强支持’时已呈现显著分歧,专家与非专家间的整体一致性仅达中等水平。构建过程中遭遇的挑战尤为严峻:首先,标注任务对语言理解和文化背景要求极高,涉及英国脱欧、核能等专业议题时,非专家因缺乏领域知识导致一致性骤降;其次,众包标注的质量控制极为棘手,需通过多阶段筛选与专家基准校验才能获取可靠标注,成本与质量难以平衡;再者,数据稀疏性问题突出,多数用户仅贡献少量帖子,且约半数帖子无法推断明确立场,给时序分析带来统计噪声;最后,对话线程的树状结构使语境依赖标注变得复杂,超过58%的案例需要参考上下文,进一步增加了模型对交互语境建模的难度。
常用场景
经典使用场景
在社交网络意见动态研究的广阔领域中,SPINOS数据集以其精细化的标注体系脱颖而出,成为分析用户立场微妙波动的核心工具。该数据集聚焦于Reddit平台上围绕堕胎、枪支管制、气候变化等社会政治议题的讨论,通过提供每位用户随时间推移的立场极性与强度标签,以及完整对话线程内的逐条标注,使得研究者能够从宏观时间跨度和微观对话互动两个维度,捕捉那些传统数据集难以呈现的细微意见变化。其经典使用场景在于构建细粒度立场检测模型,并探索用户态度在长期与短期内的演变轨迹。
解决学术问题
SPINOS数据集精准回应了计算社会科学与自然语言处理交叉领域的一个关键学术难题:如何系统性地建模社交网络中用户意见的时变动态。此前,多数立场检测数据集仅提供静态的二元极性标注,缺乏对立场强度的刻画,更无法关联同一用户的多次表达,因而难以支撑对意见极化、激进化等过程的量化研究。该数据集通过引入立场强度标签与用户级历史数据,首次实现了对微妙意见波动的可检测性,弥合了社会学理论中关于态度渐变与突变假设之间的实证鸿沟,为理解回声室效应、螺旋沉默现象提供了前所未有的数据基础,推动了NLP模型从静态分类向动态预测的范式跃迁。
衍生相关工作
SPINOS数据集的问世催生了一系列富有洞见的衍生研究工作。在立场检测基准方面,论文提供的基线实验揭示了细粒度分类(如强弱支持、强弱反对)相较于传统三分类任务的显著挑战性,激励了后续研究者探索更复杂的上下文感知模型与用户历史嵌入方法。在意见动态分析领域,基于该数据集的用户熵计算与LIWC语言特征分析,启发了关于“摇摆型”与“坚定型”用户语言模式差异的深入探讨,相关成果已被用于构建更逼真的意见传播仿真模型。此外,数据集对技术性话题(如核能、资本主义)中低注释一致性的发现,催生了面向专业领域立场标注的迁移学习与知识增强方法研究,进一步拓展了跨话题立场检测的理论边界。
以上内容由遇见数据集搜集并总结生成



