FACTIFY 3M
收藏arXiv2023-10-31 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2306.05523v2
下载链接
链接失效反馈官方服务:
资源简介:
FACTIFY 3M是由南卡罗来纳大学等机构创建的大规模多模态事实验证数据集,包含300万个样本。该数据集通过文本声明、ChatGPT生成的改写声明、相关图像、稳定扩散生成的附加图像、像素级图像热图、5W问答对和对抗性假新闻故事等丰富特征,推动了事实验证领域的发展。数据集旨在通过多模态假新闻数据集和5W问答概念提供可解释性,解决社会中信息误导的问题,特别是在社交媒体上每天分享的大量图像和视频中识别多模态虚假信息的需求。
FACTIFY 3M is a large-scale multimodal fact verification dataset developed by institutions including the University of South Carolina, containing 3 million samples. This dataset features rich modalities including textual claims, rewritten claims generated by ChatGPT, associated images, additional images generated by Stable Diffusion, pixel-level image heatmaps, 5W question-answer pairs, and adversarial fake news stories, advancing the development of the fact verification field. The dataset aims to provide interpretability via multimodal fake news datasets and the 5W question-answer concept, addressing the issue of information misinformation in society, especially the demand for identifying multimodal disinformation in the vast amounts of images and videos shared daily on social media.
提供机构:
南卡罗来纳大学
创建时间:
2023-05-22
搜集汇总
数据集介绍

构建方式
在虚假信息检测领域,FACTIFY 3M数据集的构建体现了多模态事实核查的前沿理念。该数据集通过整合多个现有基准如FEVER、HoVer和Factify系列,并采用半自动方法收集支持与中立类别的数据,形成了包含947,000条原始声明的核心集合。为模拟真实新闻环境的多样性,研究团队利用GPT-3生成文本释义,通过Stable Diffusion 2.0创建视觉释义图像,并采用CLIP分数重排序机制确保生成质量。针对可解释性需求,数据集创新性地引入基于语义角色标注的5W问答对自动生成流程,同时通过OPT语言模型构建对抗性虚假新闻故事,最终形成涵盖文本声明、关联图像、像素级热力图和对抗样本的立体化数据结构。
使用方法
该数据集为多模态事实核查研究提供了标准化实验框架。研究者可将文本声明、关联图像与证据文档作为输入,通过多模态融合模型进行五分类任务,评估系统在文本支持、多模态支持等复杂场景下的性能。5W问答对可作为可解释性验证模块,通过T5等问答模型对声明各维度进行独立验证,实现细粒度错误定位。对抗性样本可用于压力测试,评估模型在面临AI生成虚假内容时的鲁棒性。数据集提供的像素级热力图可支持视觉注意力机制研究,而稳定扩散生成的图像变体则为数据增强和跨模态表示学习提供了丰富素材。整体使用流程遵循声明-证据比对、多模态融合、可解释验证的三层架构,推动领域向透明化、鲁棒化方向发展。
背景与挑战
背景概述
在信息时代,虚假信息的泛滥已成为严峻的社会挑战,约67%的美国民众认为虚假信息导致高度不确定性,其中10%的人甚至有意传播。虚假信息不仅扭曲民主进程与公众舆论,更可能引发金融市场动荡、社会恐慌乃至危机中的死亡事件。面对社交媒体每日约32亿图像与72万小时视频的传播规模,高效的多模态事实核查成为迫切需求。尽管文本事实核查领域已有显著进展,如FEVER与LIAR等数据集,但多模态事实核查仍缺乏大规模资源支持。为此,南卡罗来纳大学、加州大学洛杉矶分校、亚马逊人工智能及斯坦福大学的研究团队于2023年联合推出了FACTIFY 3M数据集,包含300万样本,旨在通过多模态虚假新闻检测与5W问答解释框架,推动该领域的边界拓展。该数据集不仅整合了文本声明、ChatGPT生成的转述声明、关联图像及稳定扩散生成的视觉转述,还引入了像素级热力图与对抗性虚假新闻故事,为核心研究问题——多模态声明的可解释性验证提供了前所未有的资源基础。
当前挑战
多模态事实核查领域面临双重挑战:在领域问题层面,虚假信息常融合文本与图像,形成复杂语义关联,例如图像可能被篡改或脱离上下文使用,导致传统单模态方法难以捕捉跨模态矛盾;同时,生成式人工智能的崛起使得伪造内容在视觉与文本层面均逼近真实,加剧了检测难度。在数据集构建过程中,挑战主要体现在数据规模与质量平衡:大规模虚假声明样本的收集需克服真实性验证的复杂性,而自动生成转述文本与图像时,需确保语言模型的输出在多样性与准确性间取得平衡;此外,5W问答对的自动生成依赖语义角色标注的精确映射,但自然语言中的指代消解与隐喻结构可能降低标注可靠性;对抗性新闻故事的注入虽提升了数据集的现实代表性,却也要求未来模型具备更强的鲁棒性以区分人类与机器生成内容。
常用场景
经典使用场景
在虚假信息检测领域,FACTIFY 3M数据集为多模态事实验证任务提供了经典的应用场景。该数据集通过整合文本声明、关联图像、ChatGPT生成的转述声明以及Stable Diffusion生成的视觉转述,构建了一个涵盖支持、中立与反驳三类样本的大规模多模态验证环境。研究者可利用该数据集训练模型,以同时分析文本与图像的一致性,从而判断声明的真实性。这种多模态融合方法模拟了现实世界中新闻传播的复杂性,为开发能够处理图文混合信息的自动化事实核查系统奠定了坚实基础。
解决学术问题
FACTIFY 3M数据集有效解决了多模态虚假信息检测中的若干核心学术问题。传统文本事实验证数据集如FEVER等难以应对图像与文本混合的虚假内容,而该数据集通过引入视觉转述和像素级热力图,推动了多模态蕴含关系识别的研究。其5W问答框架为事实核查提供了可解释性路径,使模型不仅能判断真伪,还能定位虚假信息的具体成分。此外,数据集包含的对抗性虚假新闻故事为评估模型在对抗攻击下的鲁棒性提供了基准,促进了生成式AI时代虚假信息防御机制的发展。
实际应用
在实际应用层面,FACTIFY 3M数据集为社交媒体平台和新闻机构的自动化事实核查系统提供了关键训练资源。基于该数据集开发的模型可实时分析网络上的图文帖子,识别潜在的虚假信息,辅助人工审核。其5W问答机制能够生成易于理解的核查报告,帮助公众理解特定声明被判定为虚假的具体原因。在危机事件如公共卫生事件中,此类系统可快速遏制虚假信息的传播,减少社会恐慌。此外,数据集的对抗性样本也有助于开发更强大的AI生成内容检测工具。
数据集最近研究
最新研究方向
在虚假信息检测领域,FACTIFY 3M数据集正推动多模态事实核查技术向可解释性与对抗性鲁棒性方向深化。该数据集整合了文本声明、ChatGPT生成的转述、关联图像及Stable Diffusion生成的视觉转译,并创新性地引入基于5W问答的可解释性框架,通过语义角色标注将事实核查分解为“谁、何事、何时、何地、为何”的细粒度验证。当前研究聚焦于利用生成式人工智能合成对抗性虚假新闻样本,以测试系统在对抗攻击下的稳定性,同时探索像素级热力图与多模态注意力机制在图像-文本关联解释中的应用。这些进展不仅应对了社交媒体中多模态虚假信息泛滥的挑战,也为构建透明、可信的自动化事实核查系统提供了关键基准。
相关研究论文
- 1FACTIFY3M: A Benchmark for Multimodal Fact Verification with Explainability through 5W Question-Answering南卡罗来纳大学 · 2023年
以上内容由遇见数据集搜集并总结生成



