Misinformation-datasets-fakenews-rumors-conspiracy

github2024-07-09 更新2024-07-12 收录

下载链接：

https://github.com/lzw108/Misinformation-datasets-fakenews-rumors-conspiracy

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个错误信息数据集列表，包含假新闻、谣言和阴谋论。数据集包括PHEME和FakeNewsAMT等，用于研究领域中的错误信息。

This is a collection of misinformation datasets covering fake news, rumors and conspiracy theories. The datasets include resources such as PHEME and FakeNewsAMT, and are intended for misinformation-related research in academic fields.

创建时间：

2024-07-09

原始信息汇总

错误信息数据集列表

数据集概述

该数据集列表与我们的调查论文《Emotion Detection for Misinformation: A Review》相关，包含多个与错误信息相关的数据集，如假新闻、谣言和阴谋论。

数据集详情

数据集名称	来源	描述	备注	数据集链接
PHEME	Twitter	105,354条推文，组织成6425个线程（2402个谣言和4023个非谣言），涉及九个事件。	-	链接
FakeNewsAMT	多种	240条假新闻和240条合法新闻条目。	-	链接
Celeb	多种	250条假新闻和250条合法新闻条目，涉及名人领域。	-	链接
Twitter15	Twitter	1490条源推文（374条非谣言，370条假谣言，372条真谣言，374条未验证谣言），包含转发和回复。	-	链接
Twitter16	Twitter	818条源推文（205条非谣言，205条假谣言，205条真谣言，203条未验证谣言），包含转发和回复。	-	链接
Twitter16-2	Twitter	498条谣言和494条非谣言，包含评论。	-	-
ISOT	多种	23481条假新闻和21417条真实新闻条目，涉及政治和世界新闻话题。	-	链接
LIAR	Politifact	12.8k条手动标记的短声明，涉及多种上下文和发言人相关元数据，主要来自2007-2016年。	-	链接
Liar-plus	Politifact	LIAR数据集的扩展版本，声明伴随有提供标签理由的句子。	-	链接
CREDBANK	Twitter	2014-2015年的6000万条推文，涉及1049个真实世界事件，每个事件由30个人类标注者标记。	-	链接
Kaggle Fake News dataset	多种	12,999条帖子，包含文本和元数据，从244个网站收集，持续30天。	-	链接
George McIntire dataset	多种	6.3k条新闻条目，假新闻和真实新闻各占一半。	-	链接
SLN	多种	360篇新闻文章，涉及12个当代新闻话题，涵盖4个领域（公民、科学、商业和软新闻）。	-	链接
LUN	多种	新闻条目分类为可信（13995）、讽刺（14985）、骗局（12047）或宣传（35029）。	-	链接
Twiter_harvard dataset	Twitter	111个事件，包含推文ID和用户信息（60个谣言和51个非谣言）。	-	链接
health-related news	Twitter	709条帖子（54%谣言，30%非谣言，16%未知），使用关键词#zikavirus和zika microcephaly收集。	R	请求
MultiSourceFake	多种	5,994条真实新闻和5,403条假新闻文章。	-	链接
PoliticalNews	多种	2013-2018年的14,240条新闻页面（7,136条假新闻和7,104条真实新闻）。	-	链接

搜集汇总

数据集介绍

构建方式

该数据集名为Misinformation-datasets-fakenews-rumors-conspiracy，其构建基于对多个来源的虚假新闻、谣言和阴谋论数据的收集与整合。数据集包括了来自Twitter、Politifact、Kaggle等多个平台的数据，涵盖了从2014年至2018年的多种事件和话题。每个数据集条目均经过人工标注，确保了数据的真实性和可靠性。此外，数据集还包含了详细的元数据，如发布时间、来源信息等，以支持更深入的分析和研究。

使用方法

该数据集适用于多种研究场景，包括但不限于虚假信息检测、情感分析和信息传播路径研究。研究人员可以通过访问数据集的GitHub页面获取详细的数据链接和使用指南。在使用过程中，建议结合数据集提供的元数据和标注信息，进行深入的分析和模型训练。此外，数据集的持续更新机制也为研究者提供了最新的数据资源，确保研究的前沿性和时效性。

背景与挑战

背景概述

Misinformation-datasets-fakenews-rumors-conspiracy数据集是由相关研究人员和机构创建，旨在支持对虚假新闻、谣言和阴谋论的研究。该数据集的构建源于对信息真实性检测的迫切需求，特别是在社交媒体和新闻传播领域。主要研究人员通过收集和整理来自多个来源的数据，包括Twitter、Politifact等，形成了这一综合性的数据集。其核心研究问题是如何有效识别和分类虚假信息，这对于提升公众信息素养和维护社会稳定具有重要意义。该数据集的发布不仅为学术界提供了宝贵的研究资源，也为相关领域的实践应用奠定了基础。

当前挑战

Misinformation-datasets-fakenews-rumors-conspiracy数据集在构建过程中面临多项挑战。首先，数据来源的多样性和复杂性增加了数据整合和标注的难度。其次，虚假信息的动态变化和不断演化使得数据集的更新和维护成为一个持续的挑战。此外，如何确保数据标注的准确性和一致性，以及如何处理不同类型信息之间的交叉影响，也是该数据集需要解决的重要问题。这些挑战不仅影响了数据集的质量和可用性，也对后续的研究和应用提出了更高的要求。

常用场景

经典使用场景

在信息传播的复杂网络中，Misinformation-datasets-fakenews-rumors-conspiracy数据集被广泛应用于谣言检测与真伪新闻识别的研究。该数据集汇集了来自Twitter、Politifact等多个来源的假新闻、谣言和阴谋论数据，为研究者提供了一个全面的信息验证平台。通过分析这些数据，研究者可以开发和优化算法，以自动识别和分类社交媒体中的不实信息，从而提升信息传播的透明度和可信度。

解决学术问题

Misinformation-datasets-fakenews-rumors-conspiracy数据集在学术研究中解决了信息验证和谣言检测的关键问题。通过提供大量标注的真实和虚假新闻数据，该数据集帮助研究者开发和验证机器学习模型，以区分真假信息。这不仅推动了自然语言处理和机器学习领域的发展，还为社会科学研究提供了宝贵的数据资源，有助于理解信息传播的动态和机制。

实际应用

在实际应用中，Misinformation-datasets-fakenews-rumors-conspiracy数据集被用于开发和部署信息验证系统。例如，社交媒体平台可以利用这些数据训练算法，实时监控和过滤虚假信息，保护用户免受误导。此外，新闻机构和公共机构也可以使用该数据集来提升信息发布的准确性和透明度，增强公众对信息的信任。

数据集最近研究