Fakeddit
收藏arXiv2020-03-13 更新2024-06-21 收录
下载链接:
https://github.com/entitize/fakeddit
下载链接
链接失效反馈官方服务:
资源简介:
Fakeddit是由加利福尼亚大学圣塔芭芭拉分校创建的一个大型多模态数据集,包含超过100万条来自多个假新闻类别的样本。该数据集通过多阶段审查处理,根据远监督进行2路、3路和6路分类标签的标注。数据来源于Reddit上的多个子论坛,旨在通过文本、图像、元数据和评论数据的结合,推动假新闻研究进入多模态领域,并允许研究人员开发更强大、更通用的细粒度假新闻检测系统。Fakeddit的应用领域广泛,旨在解决假新闻在社会中的传播和影响问题。
Fakeddit is a large-scale multimodal dataset created by the University of California, Santa Barbara, containing over one million samples across multiple fake news categories. This dataset undergoes multi-stage review processing, with 2-way, 3-way, and 6-way classification labels annotated via distant supervision. The dataset is sourced from multiple subreddits on Reddit. It aims to advance fake news research into the multimodal domain by integrating text, images, metadata and comment data, and enables researchers to develop more robust and generalizable fine-grained fake news detection systems. Fakeddit has broad application scenarios, targeting the resolution of the spread and societal impact of fake news.
提供机构:
加利福尼亚大学圣塔芭芭拉分校
创建时间:
2019-11-10
搜集汇总
数据集介绍

构建方式
Fakeddit 数据集的构建基于 Reddit 平台上 22 个不同的子版块,这些子版块涵盖了从政治新闻到日常用户帖子的广泛内容。数据集包含了超过 100 万个样本,每个样本都经过多阶段的审查,并根据 2 方、3 方和 6 方分类类别进行标记。这些样本通过远监督的方式进行标记,以确保数据的质量和可靠性。此外,数据集还包括文本、图像、元数据和评论数据,为研究人员提供了丰富的多模态信息。
特点
Fakeddit 数据集的主要特点是其多模态性和细粒度分类。数据集中超过 64% 的样本包含文本和图像,这使得研究人员能够开发更强大、更通用的细粒度假新闻检测系统。此外,每个数据样本都有多个标签,允许用户进行 2 方、3 方和 6 方分类,这有助于在高层次和细粒度上进行假新闻分类。Fakeddit 数据集的规模之大、多样性之广以及丰富的多模态信息使其成为假新闻研究领域的宝贵资源。
使用方法
使用 Fakeddit 数据集时,研究人员可以根据需要选择不同的分类类别,包括 2 方、3 方和 6 方分类。对于文本数据,可以使用 InferSent 或 BERT 模型来生成文本嵌入。对于图像数据,可以使用 VGG16、EfficientNet 或 ResNet50 模型来提取图像特征。在进行多模态分类时,可以将文本和图像特征通过可训练的密集层压缩成 n 维向量,并通过添加、连接、最大值或平均值等方法进行合并。最后,这些特征可以通过全连接 softmax 预测器进行分类。为了优化模型性能,可以使用 Keras Tuner 工具进行超参数调整。Fakeddit 数据集为假新闻研究提供了一个强大的平台,可以帮助研究人员开发更准确、更可靠的假新闻检测系统。
背景与挑战
背景概述
在当今社会,虚假新闻的传播对政治、文化和社会交流产生了负面影响。为了对抗虚假新闻的广泛传播,自动机器学习分类模型被证明是一种有效的方法。然而,缺乏有效、全面的虚假新闻数据集一直是研究和检测模型开发中的一个问题。先前的虚假新闻数据集并未提供多模态文本和图像数据、元数据、评论数据以及我们数据集中规模和范围之内的细粒度虚假新闻分类。Fakeddit是一个由Kai Nakamura、Sharon Levy和William Yang Wang等研究人员创建的全新多模态数据集,包含超过100万个样本,涵盖了多种类别的虚假新闻。该数据集经过多个阶段的审查后,根据2-way、3-way和6-way分类类别进行标记,并通过远程监督的方式构建混合文本+图像模型,为多种分类变体进行了广泛的实验,展示了Fakeddit独有的多模态和细粒度分类的重要性。
当前挑战
Fakeddit数据集的研究背景和构建过程中面临的挑战包括:1) 所解决的领域问题:虚假新闻的检测和分类,这需要考虑到多模态文本和图像数据、元数据、评论数据以及细粒度虚假新闻分类的挑战;2) 构建过程中所遇到的挑战:数据收集、清洗和标记的挑战,以及如何确保数据集的质量和可信度。
常用场景
经典使用场景
Fakeddit数据集主要用于细粒度假新闻检测,它提供了包含文本、图像、元数据和评论数据的多模态样本,使研究人员能够开发更强、更通用的假新闻检测系统。该数据集的2-way、3-way和6-way分类标签允许用户进行高层次或更精细的新闻分类,这对于需要精确检测假新闻的应用尤为重要。
解决学术问题
Fakeddit数据集解决了现有假新闻数据集的几个限制,包括规模、模态和粒度。它包含了超过一百万个样本,提供了文本和图像数据,以及详细的元数据和评论数据,使得研究假新闻的传播和检测变得更加全面和深入。该数据集的多样性也为研究人员提供了丰富的实验数据,有助于提高假新闻检测系统的准确性和泛化能力。
衍生相关工作
Fakeddit数据集的发布促进了相关领域的研究,例如多模态假新闻检测和细粒度假新闻分类。研究人员可以利用该数据集开发新的假新闻检测模型,探索多模态数据在假新闻检测中的应用,以及研究假新闻的传播和影响。此外,Fakeddit数据集还可以用于开发新的事实核查工具,帮助人们更准确地判断信息的真实性。
以上内容由遇见数据集搜集并总结生成



