five

MFND (Multimodal Fake News Detection) Dataset

收藏
arXiv2025-05-11 更新2025-05-14 收录
下载链接:
https://github.com/yunan-wang33/sdml
下载链接
链接失效反馈
官方服务:
资源简介:
MFND数据集是一个大规模且多样化的多模态虚假新闻检测数据集,包含11种操控类型,旨在检测和定位高度真实的虚假新闻。数据集基于原始VisualNews数据集构建,包含约20万个真实社会新闻的图像-文本对。MFND数据集包含了关键词和情感反转、摘要归纳、关键词替换等操控技术。数据集分为训练集、测试集和验证集,分别包含95k、15k和15k个样本。该数据集旨在帮助研究者开发更有效的虚假新闻检测模型,以应对当前日益复杂的虚假新闻问题。

The MFND dataset is a large-scale, diverse multimodal fake news detection dataset encompassing 11 types of manipulation, designed to detect and locate highly realistic fake news. Constructed upon the original VisualNews dataset, it contains approximately 200,000 image-text pairs from real social news. The MFND dataset incorporates manipulation techniques including keyword and sentiment reversal, summary induction, and keyword replacement. It is split into training, test, and validation sets, with 95k, 15k, and 15k samples respectively. This dataset is intended to help researchers develop more effective fake news detection models to address the increasingly complex issue of fake news in the current context.
提供机构:
河北工业大学人工智能学院, 湾区大学计算机与信息技术学院, 深圳大学广东省智能信息处理重点实验室及媒体安全深圳市重点实验室, 东莞市智能信息技术重点实验室
创建时间:
2025-05-11
搜集汇总
数据集介绍
main_image_url
构建方式
MFND数据集构建于VisualNews数据集的基础上,通过筛选以人为中心的图像-文本对作为源数据池。采用三种深度伪造技术(全脸合成、属性操作和面部交换)生成伪造图像,并结合多模态大语言模型(如MiNiGPT-v2和CogVLM)生成伪造文本。数据集包含四种多模态类型(真实图像真实文本、伪造图像真实文本、真实图像伪造文本、伪造图像伪造文本),并通过后处理模拟真实场景,提供媒体新闻真伪二元标签、伪造图像标签、伪造文本标签及伪造图像定位标签。
特点
MFND数据集以其大规模和多样性著称,包含125,000个多模态假新闻样本,涵盖11种先进的图像和文本操纵方法。数据集不仅提供粗粒度的真伪分类标签,还包含细粒度的图像定位标注,能够有效支持假新闻检测与定位任务。与现有数据集相比,MFND在技术复杂性和标注丰富性上具有显著优势,尤其适合研究深度伪造技术与大语言模型生成的假新闻。
使用方法
MFND数据集适用于多模态假新闻检测与定位任务的研究。使用者可通过加载数据集提供的图像-文本对及其对应标签,进行模型训练与评估。数据集支持多任务学习,包括媒体新闻真伪分类、伪造图像检测与定位以及伪造文本检测。建议结合提出的浅层-深层多任务学习(SDML)模型,利用其模态对齐与自适应融合机制,充分挖掘单模态与多模态特征的深层语义信息。
背景与挑战
背景概述
随着多模态新闻成为信息传播的主流形式,深度伪造技术的滥用对媒体可信度构成了严峻挑战。MFND(多模态虚假新闻检测)数据集由河北工业大学和深圳大学的研究团队于2025年创建,旨在应对基于图像和文本生成技术的最新伪造手段。该数据集包含11种操纵类型,涵盖真实与伪造新闻的二元标签、图像和文本的篡改标签以及图像定位标签,为多模态虚假新闻检测与定位任务提供了丰富的研究资源。MFND的建立不仅推动了计算机视觉与自然语言处理领域的交叉研究,还为应对AI生成内容的真实性验证提供了重要基准。
当前挑战
多模态虚假新闻检测面临的核心挑战在于如何有效融合图像与文本的异构特征以实现细粒度语义推理。具体而言,领域问题的挑战包括:1) 深度伪造技术生成的图像与大型语言模型生成的文本在语义上高度一致,导致传统二元分类方法难以辨别;2) 真实新闻场景中的噪声干扰使得跨模态对齐更加困难。在数据集构建过程中,研究者需要解决:1) 多种伪造技术(如整体面部合成、属性操纵和面部交换)的标准化集成;2) 文本语义多样性与图像篡改区域的精确标注之间的平衡问题;3) 保持图像-文本对在真实场景中的语义连贯性同时引入多样化篡改模式。
常用场景
经典使用场景
MFND数据集作为多模态假新闻检测领域的重要资源,其经典使用场景主要集中在深度伪造技术生成的图像与文本组合的新闻内容检测。该数据集通过整合11种先进的图像和文本操纵方法,为研究者提供了丰富的多模态假新闻样本。在学术研究中,MFND常被用于开发和评估新型的多任务学习模型,特别是在同时进行假新闻检测、伪造图像定位和篡改文本识别的复杂场景中。数据集包含的真实场景模拟和精细标注使其成为验证模型在真实世界应用中性能的理想选择。
实际应用
在实际应用层面,MFND数据集支撑的技术可广泛应用于社交媒体内容审核、新闻真实性验证平台和网络信息安全系统。基于该数据集训练的模型能够有效识别经过深度伪造处理的图像与AI生成文本组合的虚假新闻,为网络平台提供自动化的内容筛查能力。在新闻机构中,这类技术可用于辅助记者快速验证多媒体报道的真实性。此外,政府部门也可利用相关技术监测和遏制虚假信息的传播,维护网络空间秩序。MFND提供的精细定位能力还使得虚假内容的具体篡改部位可被可视化展示,增强了系统输出的可信度。
衍生相关工作
MFND数据集的发布催生了一系列重要的衍生研究工作。基于该数据集提出的浅层-深层多任务学习(SDML)框架已成为多模态假新闻检测的新范式,其创新的动量蒸馏对比学习和自适应跨模态融合方法被后续研究广泛借鉴。在数据集层面,MFND启发了更多包含精细标注的多模态假新闻数据集的构建,如扩展更多伪造类型的MFND+和针对特定领域的医疗假新闻数据集HealthFake。算法层面,研究者们开发了基于图神经网络的跨模态关系建模方法、结合物理不可克隆特征的增强检测技术等一系列创新方案,不断推动着该领域的技术边界。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作