ogozcelik/english-fake-news-detection

Name: ogozcelik/english-fake-news-detection
Creator: ogozcelik
Published: 2024-07-10 14:25:44
License: 暂无描述

Hugging Face2024-07-10 更新2024-07-22 收录

下载链接：

https://hf-mirror.com/datasets/ogozcelik/english-fake-news-detection

下载链接

链接失效反馈

官方服务：

资源简介：

MiDe22数据集包含5,284条英文推文，涵盖了2020年至2022年期间的多个事件，如俄罗斯-乌克兰战争、COVID-19大流行和难民问题。每条推文都有其错误信息标签，包括True、False和Other三类。数据集还包括用户与推文的互动数据，如点赞、回复、转发和引用。数据集的标注过程由五名标注者完成，每条推文至少由两名标注者标注，并使用Krippendorf’s alpha可靠性系数来衡量标注者间的一致性，结果为0.785。

MiDe22 is a dataset containing 5,284 English tweets related to several events between 2020 and 2022, including the Russia-Ukraine war, COVID-19 pandemic, and Refugees. Each tweet is labeled with a misinformation label, categorized into True (correct information), False (misinformation), and Other (uncategorizable information). The dataset also includes user engagements with the tweets in terms of likes, replies, retweets, and quotes. The dataset is annotated by five annotators, with each tweet annotated by at least two annotators, and the interannotator agreement is measured by Krippendorf’s alpha reliability coefficient, resulting in an alpha coefficient of 0.785.

提供机构：

ogozcelik

原始信息汇总

MiDe22: An Annotated Multi-Event Tweet Dataset for Misinformation Detection

概述

数据集名称: MiDe22
任务类别: 文本分类
语言: 英语
数据量: 1K<n<10K
数据集别名: mide22-en
许可协议: MIT

数据描述

时间范围: 2020年至2022年
事件类型: 俄罗斯-乌克兰战争、COVID-19疫情、难民问题
数据量: 5,284条推文
用户互动: 包含点赞、回复、转发和引用等用户互动数据

数据字段

tweet: 字符串类型的推文内容
label: 分类标签，可能值包括 True, False, Other

数据标签

True: 推文包含关于对应事件的正确信息
False: 推文包含关于对应事件的错误信息
Other: 推文无法归类为错误或正确信息

标注过程

标注者数量: 5名
标注方式: 每条推文至少由两名标注者标注
一致性测量: 使用Krippendorf’s alpha可靠性系数测量标注者间的一致性，结果为0.785

数据来源

GitHub仓库: MiDe22 GitHub
相关论文: LREC-COLING 2024

引用

@inproceedings{toraman-etal-2024-mide22-annotated, title = "{M}i{D}e22: An Annotated Multi-Event Tweet Dataset for Misinformation Detection", author = "Toraman, Cagri and Ozcelik, Oguzhan and Sahinuc, Furkan and Can, Fazli", booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)", month = may, year = "2024", address = "Torino, Italia", publisher = "ELRA and ICCL", url = "https://aclanthology.org/2024.lrec-main.986", pages = "11283--11295", }

联系信息

邮箱: ogozcelik[at]gmail[dot]com

搜集汇总

数据集介绍

构建方式

在社交媒体信息验证领域，MiDe22数据集的构建体现了严谨的学术规范。该数据集从2020年至2022年间多个重大社会事件中，系统性地采集了5,284条英文推文，涵盖俄乌战争、新冠疫情及难民议题。为确保标注质量，每条推文均由至少两名标注者独立审阅，并采用Krippendorf's alpha系数衡量标注者间一致性，最终获得0.785的可靠度指标，这一过程有效保障了数据标注的客观性与可复现性。

特点

该数据集的核心特征在于其多事件覆盖与精细的类别划分。不同于传统真假二元分类，MiDe22创新性地引入“其他”类别，专门收录那些无法明确归为真实或虚假的模糊信息，这种三元分类体系更贴合社交媒体信息的复杂性。数据集同时整合了用户互动数据，包括点赞、回复、转发和引用等元数据，为研究信息传播机制与用户参与行为提供了多维分析视角。

使用方法

研究者可基于该数据集开展多层次的自然语言处理任务。在基础应用层面，可直接利用推文文本与三类标签训练 misinformation 检测模型。进阶研究中，可结合用户互动元数据分析虚假信息的传播模式与社会影响。数据集采用标准文本分类格式，支持主流机器学习框架的直接加载，其配套的学术论文与GitHub仓库为方法复现与比较研究提供了完整的技术参照体系。

背景与挑战

背景概述

在数字信息时代，社交媒体平台已成为公众获取新闻资讯的重要渠道，然而虚假信息的泛滥对公共舆论与社会稳定构成了严峻挑战。为应对这一现象，由研究人员Cagri Toraman、Oguzhan Ozcelik、Furkan Sahinuc和Fazli Can于2024年共同构建的MiDe22数据集应运而生，专注于英语推文的虚假新闻检测。该数据集收录了2020年至2022年间涉及俄乌战争、COVID-19疫情及难民问题等多个重大事件的5,284条推文，并标注了真实性标签，旨在为自然语言处理领域提供高质量的多事件虚假信息检测基准，推动相关算法在复杂现实场景中的应用与发展。

当前挑战

虚假新闻检测领域面临的核心挑战在于信息语义的模糊性与语境依赖性，使得模型难以准确区分真实陈述、恶意误导及中立内容。MiDe22数据集构建过程中，标注者需处理推文语言的简略性、讽刺表达及多事件交叉引用等复杂情况，这要求标注协议具备高度的灵活性与一致性。尽管通过多标注者机制与Krippendorf's alpha系数（0.785）确保了标注可靠性，但数据中“其他”类别的广泛存在仍反映了信息真实性边界判定的固有困难，为后续模型训练带来了类别不平衡与语义歧义消解的双重挑战。

常用场景

经典使用场景

在数字媒体时代，虚假信息检测已成为自然语言处理领域的关键挑战。ogozcelik/english-fake-news-detection数据集通过标注2020年至2022年间涉及俄乌战争、COVID-19疫情及难民议题的英文推文，为研究者提供了多事件背景下的文本分类基准。该数据集包含5,284条标注为“真实”、“虚假”或“其他”的推文，并附带用户互动数据，使其成为训练和评估虚假新闻检测模型的经典资源。其多事件特性有助于模型学习跨领域的语义模式，推动领域自适应方法的发展。

实际应用

在实际应用层面，该数据集为社交媒体平台、新闻机构及公共部门构建自动化虚假信息过滤系统提供了关键训练数据。例如，平台可基于此类模型实时识别并标记涉及公共卫生或地缘政治事件的误导性内容，辅助内容审核流程。此外，在危机管理场景中，系统能快速筛查大规模信息流，帮助机构发布权威澄清，遏制虚假信息的传播链条，从而维护公共信息环境的健康与稳定。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在多任务学习、领域自适应及图神经网络应用。例如，研究者利用其多事件结构开发联合训练框架，以提升模型对新事件的检测泛化能力；另有工作结合用户互动数据构建异构图网络，分析信息传播模式与虚假性的关联。这些成果发表于LREC-COLING 2024等顶级会议，推动了虚假信息检测从纯文本分析向多模态、社会网络融合的范式演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集