MMFakeBench

Name: MMFakeBench
Creator: 北京邮电大学
Published: 2024-06-13 11:04:28
License: 暂无描述

arXiv2024-06-13 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.08772v1

下载链接

链接失效反馈

官方服务：

资源简介：

MMFakeBench是由北京邮电大学等机构创建的混合源多模态虚假信息检测基准数据集，包含11,000对数据，涵盖文本真实性扭曲、视觉真实性扭曲和跨模态一致性扭曲三大类。数据集通过高级AI工具如扩散生成器和ChatGPT生成，包含12种伪造类型，旨在模拟真实世界中多源虚假信息的复杂性。该数据集应用于检测和分析多模态虚假信息，特别是在社交媒体上的应用，以解决政治、金融和公共卫生领域的虚假信息问题。

MMFakeBench is a mixed-source multimodal disinformation detection benchmark dataset developed by institutions including Beijing University of Posts and Telecommunications. It consists of 11,000 data pairs, covering three categories: textual authenticity distortion, visual authenticity distortion, and cross-modal consistency distortion. The dataset is generated via advanced AI tools such as diffusion generators and ChatGPT, and includes 12 types of forgeries, aiming to simulate the complexity of multi-source disinformation in the real world. This benchmark is applied to the detection and analysis of multimodal disinformation, particularly in social media scenarios, to address disinformation-related issues in the fields of politics, finance, and public health.

提供机构：

北京邮电大学

创建时间：

2024-06-13

搜集汇总

数据集介绍

构建方式

在多媒体虚假信息检测领域，现有数据集多局限于单一伪造源，难以反映现实场景中多源伪造并存的复杂性。为突破这一局限，MMFakeBench通过协同先进生成模型与人工智能工具，系统构建了首个混合源多模态虚假信息检测基准。该数据集涵盖文本真实性扭曲、视觉真实性扭曲及跨模态一致性扭曲三大关键伪造源，并细分为12个子类别。具体构建过程中，文本真实性扭曲部分整合了自然谣言、人工谣言及GPT生成谣言，并辅以AI生成或精心筛选的真实图像作为支撑；视觉真实性扭曲则从现有数据集中手动筛选具有事实冲突的PS编辑图像，并利用自动化流程生成包含事实冲突描述的高质量AI图像；跨模态一致性扭曲融合了基于重定位和编辑的多种不一致类型，通过语义差异筛选与重组获得。整个数据集包含11,000个图文对，确保了数据多样性与现实挑战性。

使用方法

MMFakeBench为评估混合源多模态虚假信息检测方法提供了标准化测试平台。在使用该数据集时，研究者通常采用零样本设置，对各类检测模型进行多类别分类性能评估。基准评估涵盖6种主流检测方法及15个大视觉语言模型，以宏观F1分数、精确率、召回率及准确率作为核心指标。数据集中包含1,000个验证样本用于超参数选择，10,000个测试样本用于最终性能度量。为应对混合源检测的复杂性，论文提出了MMD-Agent框架，该框架将检测任务分解为文本真实性检查、视觉真实性检查及跨模态一致性推理三个子阶段，每个阶段集成多视角推理与外部知识检索，从而提升模型的检测精度与泛化能力。该数据集的使用不仅推动了更现实的虚假信息检测研究，也为未来方法提供了公平、全面的评估基准。

背景与挑战

背景概述

随着生成式模型在文本与图像领域的迅猛发展，制造多样化多模态虚假信息的门槛显著降低，对政治、金融与公共健康构成严峻威胁。为应对这一挑战，北京邮电大学、加州大学圣塔芭芭拉分校及中国科学院自动化研究所的研究团队于2024年共同提出了MMFakeBench，这是首个专注于混合来源多模态虚假信息检测的综合性基准数据集。该数据集旨在突破传统单源检测的局限，通过整合文本真实性扭曲、视觉真实性扭曲及跨模态一致性扭曲三大关键来源，构建了包含12种子类别、共计11,000个数据对的评估体系，为推进更贴近现实场景的虚假信息检测研究奠定了重要基础。

当前挑战

MMFakeBench所应对的核心领域挑战在于混合来源多模态虚假信息的精准识别。传统检测方法通常假设每个样本仅包含单一已知伪造来源，难以应对现实世界中多种伪造来源随机共存的复杂场景，导致检测模型泛化能力不足。在数据集构建过程中，研究团队面临多重技术挑战：首先，需协同多种生成模型与AI工具，在确保语义相关性的同时，生成高质量、多样化的虚假文本与图像对；其次，需从现有数据集中筛选并重构符合误导性标准的样本，例如从Fakeddit数据集中手动甄别具有事实冲突的PS编辑图像，并过滤DGM4数据集中与文本真实性扭曲重叠的样本，以维持类别间的清晰界限与数据纯净度。

常用场景

经典使用场景

在数字媒体与人工智能交叉领域，MMFakeBench数据集被广泛用于评估和提升多模态虚假信息检测模型的性能。该数据集通过整合文本真实性扭曲、视觉真实性扭曲以及跨模态一致性扭曲三大关键来源，构建了一个包含12种伪造类型的混合源多模态虚假信息基准。研究者通常利用该数据集在零样本设置下测试大型视觉语言模型（LVLMs）的泛化能力，探索模型在复杂现实场景中的检测鲁棒性。其经典应用场景包括设计分层检测框架，如MMD-Agent，将混合源检测分解为文本验证、视觉验证和跨模态推理三个子任务，从而系统化地评估模型对多源虚假信息的综合识别能力。

解决学术问题

MMFakeBench数据集主要解决了多模态虚假信息检测领域中的混合源挑战问题。传统研究通常假设每个样本仅包含单一伪造来源，这与现实世界中多源虚假信息共存的复杂情况不符。该数据集通过提供涵盖自然谣言、人工谣言、GPT生成谣言、PS编辑图像、AI生成图像以及多种跨模态不一致类型的多样化样本，打破了单一源假设的局限。其意义在于推动了检测方法从受限场景向真实环境过渡，促进了更全面、公平的模型评估标准建立，为开发通用性强、适应性高的检测算法奠定了数据基础，对提升网络信息生态安全具有重要学术价值。

实际应用

在实际应用层面，MMFakeBench数据集为社交媒体平台、新闻审核系统以及公共安全机构提供了关键的技术支持。该数据集能够训练和验证检测模型，以识别政治谣言、健康误导信息、娱乐假新闻等混合源多模态虚假内容，帮助平台及时过滤有害信息，减少公众误信风险。例如，在公共卫生事件中，模型可快速检测出搭配伪造图像的疫苗谣言，防止恐慌扩散。此外，该数据集还可用于开发自动化事实核查工具，辅助人工审核提升效率，为构建可信赖的数字信息环境提供实用化解决方案。

数据集最近研究