CONSPIRED (CONSPIR Evaluation Dataset)

Name: CONSPIRED (CONSPIR Evaluation Dataset)
Creator: 德国达姆施塔特工业大学 Ubiquitous 知识处理实验室 (UKP Lab), 计算机科学与黑森州人工智能中心 (hessian.AI), 德国应用网络安全国家研究中心 ATHENE, 阿联酋 Mohamed bin Zayed 人工智能大学
Published: 2025-08-28 14:39:25
License: 暂无描述

arXiv2025-08-28 更新2025-08-30 收录

下载链接：

https://github.com/UKPLab/arxiv2025-conspired

下载链接

链接失效反馈

官方服务：

资源简介：

CONSPIRED 数据集是一个关于阴谋论文章的认知特征的标注数据集，用于捕捉在线阴谋论文章中多句话摘录 (80-120 个单词) 的认知特征，并使用 CONSPIR 认知框架 (Lewandowsky 和 Cook, 2020) 进行标注。CONSPIRED 是第一个标注了普遍认知特征的阴谋论内容数据集。该数据集旨在支持对阴谋论推理模式的计算分析，并评估大型语言模型对阴谋论输入的鲁棒性。

The CONSPIRED dataset is an annotated dataset targeting the cognitive characteristics of conspiracy theory articles. It is designed to capture the cognitive features of multi-sentence excerpts (80–120 words) extracted from online conspiracy theory articles, and annotated via the CONSPIR cognitive framework (Lewandowsky and Cook, 2020). As the first conspiracy theory content dataset annotated with universal cognitive characteristics, CONSPIRED aims to support computational analyses of conspiracy theory reasoning patterns and evaluate the robustness of large language models when processing conspiracy theory inputs.

提供机构：

德国达姆施塔特工业大学 Ubiquitous 知识处理实验室 (UKP Lab), 计算机科学与黑森州人工智能中心 (hessian.AI), 德国应用网络安全国家研究中心 ATHENE, 阿联酋 Mohamed bin Zayed 人工智能大学

创建时间：

2025-08-28

搜集汇总

数据集介绍

构建方式

CONSPIRED数据集的构建基于在线阴谋论文章的多句子摘录，每段文本长度控制在80至120词之间，采用CONSPIR认知框架进行系统标注。数据收集过程结合了LOCO语料库的历史文章与GlobalResearch网站的新近内容，确保时间跨度和主题多样性。标注工作由两名经过培训的硕士级标注员完成，通过INCEpTION平台进行多标签和主导特质标注，并辅以自由文本理由说明，最终通过专家整合确保标注一致性。

使用方法

CONSPIRED支持多标签和单标签分类任务，适用于阴谋论特质检测和大型语言模型安全性评估。研究者可利用该数据集训练轻量级分类器（如LaGoNN）或进行大语言模型提示实验，以识别文本中的阴谋论推理模式。此外，该数据集还可用于分析模型对阴谋内容的生成响应，评估其对齐脆弱性。使用时应遵循严格的伦理准则，仅限学术用途，并可通过Wayback Machine访问原始内容以确保可重现性。

背景与挑战

背景概述

CONSPIRED数据集由达姆施塔特工业大学UKP实验室联合ATHENE国家网络安全中心于2025年创建，旨在通过认知特质分析破解阴谋论的修辞模式。该数据集基于Lewandowsky和Cook提出的CONSPIR认知框架，对网络阴谋论文章进行多标签标注，涵盖矛盾性、过度怀疑、恶意意图等六大认知特征。作为首个专注于阴谋论通用认知特质的数据集，它为计算社会科学提供了可扩展的分析工具，显著推动了针对动态演化虚假信息的预干预机制研究。

当前挑战

该数据集核心挑战在于阴谋论文本的多维认知特质识别：首先需解决CONSPIR框架中特质边界模糊性问题，如‘矛盾性’与‘证据免疫’特征的隐性交织；其次面临标注一致性难题，尤其长文本中隐含逻辑冲突的标注仅达到0.57的Gamma系数。构建过程中需克服数据源敏感性，从GlobalResearch等争议平台采集样本时需平衡学术价值与伦理审查，同时确保时间跨度覆盖2015-2023年以检验模型时序泛化能力。

常用场景

经典使用场景

CONSPIRED数据集在认知计算语言学领域被广泛应用于阴谋论修辞模式的识别与分析。该数据集通过标注多句子摘录中的CONSPIR认知特征，为研究者提供了系统研究阴谋论文本认知特质的标准化工具。在虚假信息检测研究中，学者们利用该数据集训练模型识别阴谋论特有的推理模式，如证据免疫性和过度怀疑倾向，从而实现对阴谋论内容的细粒度分类。

解决学术问题

该数据集解决了阴谋论研究领域缺乏通用认知框架的学术难题，通过CONSPIR特质体系实现了跨主题的阴谋论内容分析。其标注体系突破了传统基于特定事件（如COVID-19）的研究局限，为认知语言学和社会心理学提供了可计算的分析范式。数据集支撑了对大型语言模型在处理阴谋论内容时存在的认知对齐问题的实证研究，揭示了模型既可作为诊断工具又可能成为无意识放大器的双重特性。

实际应用

在实际应用层面，CONSPIRED为内容审核系统提供了阴谋论特征检测的技术基础，支持社交媒体平台对阴谋论内容的早期识别和干预。安全机构利用该数据集开发针对性的预辟谣策略，通过识别特定修辞模式实施精准的反制消息投放。教育机构则基于其标注体系开发数字素养课程，帮助公众识别阴谋论的认知特征，增强对虚假信息的抵抗力。

数据集最近研究