UKElectionNarratives
收藏arXiv2025-05-09 更新2025-05-10 收录
下载链接:
https://doi.org/10.5281/zenodo.15228283
下载链接
链接失效反馈官方服务:
资源简介:
UKElectionNarratives是一个包含2019年和2024年英国大选期间传播的误导性叙事的人标注数据集。该数据集基于对欧洲最近选举中流传的常见误导性叙事的首次分类,旨在为研究人员提供一种独特的机会,以开发检测、分析和反击叙事和虚假信息运动的创新技术。数据集包括10个超级叙事和32个叙事,涵盖选举过程完整性、经济不确定性、外国干预、性别动态、宗教紧张关系和移民等主题。数据集的创建过程包括数据收集、过滤和人工标注三个主要步骤。
UKElectionNarratives is a human-annotated dataset containing misleading narratives spread during the 2019 and 2024 UK general elections. Built upon the first taxonomy of common misleading narratives circulating in recent European elections, this dataset provides researchers with a unique opportunity to develop innovative technologies for detecting, analyzing, and countering narrative and disinformation campaigns. The dataset comprises 10 super-narratives and 32 narratives, covering topics such as electoral process integrity, economic uncertainty, foreign interference, gender dynamics, religious tensions, and immigration. The creation of this dataset involves three core stages: data collection, filtering, and manual annotation.
提供机构:
谢菲尔德大学计算机科学系
创建时间:
2025-05-09
原始信息汇总
UKElectionNarratives: A Dataset of Misleading Narratives Surrounding Recent UK General Elections
基本信息
- DOI: 10.5281/zenodo.15228283
- 发布日期: 2025年4月16日
- 版本: v2
- 资源类型: 数据集
- 语言: 英语
- 许可证: CC BY-NC-SA 4.0
创作者
- Haouari, Fatima (联系人)
- Scarton, Carolina (数据管理员)
- Faggiani, Nicolò (数据策展人)
- Nikolaidis, Nikolaos (数据策展人)
- Kotseva, Bonka (数据策展人)
- Abu Farha, Ibrahim (数据策展人)
- Linge, Jens (数据策展人)
- Bontcheva, Kalina (数据管理员)
机构
- University of Sheffield
- Engineering S.p.A., Rome, RM, Italy
- Athens University of Economics and Business, Athens, Greece
- Piksel S.r.l., Ispra, VA, Italy
- European Commission, Joint Research Centre, Unit T.5, Ispra, VA, Italy
文件
附加信息
- 提交日期: 2025年1月15日
- 软件仓库: GitHub
- 索引: OpenAIRE
统计
- 总浏览量: 35
- 总下载量: 24
- 数据总量: 797.8 kB
版本
- v2: 2025年4月16日
- v1: 2025年1月15日
引用
Haouari, F., Scarton, C., Faggiani, N., Nikolaidis, N., Kotseva, B., Abu Farha, I., Linge, J., & Bontcheva, K. (2025). UKElectionNarratives: A Dataset of Misleading Narratives Surrounding Recent UK General Elections [Data set]. Zenodo. https://doi.org/10.5281/zenodo.15228283
搜集汇总
数据集介绍

构建方式
UKElectionNarratives数据集的构建采用了多阶段方法,首先通过Twitter流API和关键词筛选收集了2019年和2024年英国大选期间的相关推文。随后,通过高转发推文筛选和大型语言模型(LLMs)预标注,进一步过滤无潜在误导性叙事的推文。最终,经过三轮人工标注(独立标注、分歧解决和最终整合),确保了数据标注的高质量和一致性。
特点
该数据集是首个针对英国大选中误导性叙事的人类标注数据集,涵盖10个超级叙事和32个子叙事,内容涉及选举诚信、移民政策、宗教与性别议题等。其特点包括精细的叙事分类、多阶段标注流程确保的标注质量,以及通过BERTopic和GPT-4o进行的主题建模分析,揭示了叙事在不同选举中的延续性和演变。
使用方法
UKElectionNarratives可用于开发自动检测误导性叙事的模型,支持研究者分析选举期间的虚假信息传播模式。使用方法包括:通过提供的代码和预训练模型(如RoBERTa和GPT-4o)进行叙事分类实验;利用主题建模工具(如BERTopic)分析叙事主题分布;或作为基准数据集评估新模型在政治叙事检测任务上的性能。数据以推文ID和标注形式发布,需遵循Twitter使用条款和CC-BY-NC-SA许可。
背景与挑战
背景概述
UKElectionNarratives数据集由谢菲尔德大学计算机科学系的Fatima Haouari、Carolina Scarton等研究人员于2025年创建,旨在研究英国大选期间社交媒体上传播的误导性叙事。该数据集基于欧洲数字媒体观察站(EDMO)对误导性叙事的定义,聚焦于选举过程中出现的虚假信息,如选举过程完整性、经济不确定性、外国干涉和社会问题等。作为首个针对英国大选的人类标注误导性叙事数据集,UKElectionNarratives填补了欧洲选举相关数据集的空白,为研究者提供了分析大规模误导性叙事和反制虚假信息的重要资源。
当前挑战
UKElectionNarratives数据集面临多重挑战。在领域问题层面,选举相关误导性叙事具有高度动态性和文化特异性,如何准确定义和分类反映英国政治语境的叙事是一大难点。数据构建过程中,研究人员需应对社交媒体数据的噪声和模糊性,并通过多阶段标注流程(包括预标注、人工标注和整合)确保标注质量。此外,数据集的类别不平衡问题(某些叙事样本量极少)和标注主观性(涉及政治敏感内容)也为模型训练和评估带来困难。最后,如何将基于英国选举的叙事分类模型推广至其他欧洲国家语境,也是未来研究的关键挑战。
常用场景
经典使用场景
UKElectionNarratives数据集在政治传播学和计算社会科学领域具有重要应用价值,尤其在分析选举期间社交媒体上的误导性叙事方面表现突出。该数据集通过标注2019年和2024年英国大选期间的推文,为研究者提供了识别和分类政治误导性叙事的标准化框架。其典型使用场景包括训练自然语言处理模型来自动检测选举相关的虚假信息,以及帮助政治学者分析特定叙事如何影响公众舆论。数据集的多层次分类体系(10个超级叙事和32个子叙事)特别适合用于研究政治话语中的细粒度模式,例如反欧盟情绪或移民威胁论等特定主题的传播机制。
解决学术问题
该数据集有效解决了政治传播领域三个关键学术问题:首先,它填补了欧洲选举误导性叙事标准化数据集的空白,为跨国家比较研究奠定基础;其次,通过人工标注的细粒度分类,解决了传统自动化方法在识别复杂政治叙事时的准确性问题;第三,数据集附带完整的分类体系和标注指南,为后续研究提供了可复用的方法论框架。其重要意义在于首次系统化地揭示了英国政治话语中误导性叙事的结构和传播特征,为理解数字时代民主进程面临的挑战提供了实证依据。
衍生相关工作
该数据集已催生多项重要衍生研究:欧盟数字媒体观察站(EDMO)基于此开发了跨语言叙事检测系统;剑桥大学团队扩展创建了EuroElectionNarratives数据集,涵盖欧洲议会选举案例;《自然-人类行为》期刊近期发表的论文采用该数据集的分类体系,揭示了政治叙事传播的网络动力学特征。在方法论层面,数据集推动了三项创新:基于置信度评分的多阶段标注流程、LLM辅助的预标注技术,以及结合语义嵌入和人工验证的叙事演化分析框架。
以上内容由遇见数据集搜集并总结生成



