MMFR-Dataset

Hugging Face2025-08-18 更新2025-08-19 收录

下载链接：

https://huggingface.co/datasets/AnnaGao/MMFR-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

MMFR-Dataset的训练集包含来自DiffusionDB的假图像和LAION-Aesthetics的真图像。评估集包括Midjourney、PixArt-alpha、GPT-4o、StyleGAN-XL和GigaGAN等，每个都有不同的授权许可。此外，还使用了其他公开可用数据集，如DALL·E-3 Images、AntifakePrompt、Kandinsky、FLUX、UniFD和ImageNet。

创建时间：

2025-08-16

原始信息汇总

MMFR-Dataset 数据集概述

许可证

数据集整体许可证：CC BY-NC-SA 4.0

数据来源

训练集

伪造图像：来源于 DiffusionDB（https://huggingface.co/datasets/poloclub/diffusiondb），采用 CC0 1.0 公共领域贡献许可（https://creativecommons.org/publicdomain/zero/1.0/）
真实图像：来源于 LAION-Aesthetics（https://laion.ai/blog/laion-aesthetics/），采用 CC BY 4.0 许可（https://creativecommons.org/licenses/by/4.0/）

评估集

Midjourney：来源于 GenImage 数据集（https://github.com/GenImage-Dataset/GenImage），采用 CC BY-NC-SA 4.0 许可
PixArt-alpha：来源于 PixArt-alpha（https://huggingface.co/datasets/PixArt-alpha/PixArt-Eval30K），采用 OpenRail 许可
GPT-4o：来源于 ShareGPT-4o（https://huggingface.co/datasets/FreedomIntelligence/ShareGPT-4o-Image），采用 Apache-2.0 许可（https://huggingface.co/datasets/choosealicense/licenses/blob/main/markdown/apache-2.0.md）
StyleGAN-XL：来源于 AntifakePrompts（https://github.com/nctu-eva-lab/AntifakePrompt），采用 BSD 3-Clause 许可
GigaGAN：来源于 RAISE（https://github.com/grip-unina/ClipBased-SyntheticImageDetection），采用 Apache-2.0 许可

其他参考数据集

DALL·E-3 Images（https://huggingface.co/datasets/ehristoforu/dalle-3-images）
AntifakePrompt（https://github.com/nctu-eva-lab/AntifakePrompt）
Kandinsky（https://huggingface.co/datasets/diffusers-parti-prompts/kandinsky-2-2）
FLUX（https://huggingface.co/datasets/lehduong/flux_generated）
UniFD（https://github.com/WisconsinAIVision/UniversalFakeDetect）
ImageNet（http://www.image-net.org/）

搜集汇总

数据集介绍

构建方式

在多媒体伪造检测领域，MMFR-Dataset的构建体现了多源数据整合的科学思路。其训练集通过精选DiffusionDB生成的伪造图像与LAION-Aesthetics提供的真实图像构成，分别采用CC0 1.0公共领域授权和CC BY 4.0许可协议。评估集则汇聚了来自GenImage、PixArt-alpha、ShareGPT-4o等六个权威数据源的生成图像，涵盖Midjourney、GPT-4o等多种前沿生成模型输出，各子集均严格遵循原始数据集的许可协议，确保法律合规性。

特点

该数据集的核心特征在于其多模态和跨生成模型的覆盖广度。不仅包含传统GAN生成的图像，更整合了扩散模型、大语言模型辅助生成等最新技术产生的伪造样本，形成了时空跨度大、技术代表性强的数据集合。评估模块特别设计了针对不同生成架构的专项子集，如StyleGAN-XL和GigaGAN的对比样本，为研究生成模型特异性检测提供了结构化数据支撑，增强了数据集在伪造检测泛化性研究中的学术价值。

使用方法

研究者可通过分层采样策略充分利用该数据集的多维度特性。训练集适用于开发通用伪造检测模型，而模块化的评估子集允许对模型在特定生成技术上的性能进行基准测试。使用前需注意各子集不同的许可协议要求，特别是CC-BY-NC-SA 4.0许可的评估数据需遵守非商业使用条款。数据集支持端到端的检测 pipeline 构建，包括特征提取、跨模型泛化实验等研究流程，为多媒体取证领域提供标准化评估框架。

背景与挑战

背景概述

随着生成式人工智能技术的迅猛发展，深度伪造图像检测成为数字媒体安全领域的核心议题。MMFR-Dataset由研究团队于2024年构建，整合了DiffusionDB生成的伪造图像与LAION-Aesthetics的真实图像，旨在构建多模态伪造检测基准。该数据集通过融合多种先进生成模型（如Midjourney、GPT-4o、StyleGAN-XL等）的输出，为检测算法的泛化能力评估提供了标准化平台，对推动数字内容真实性认证技术具有重要学术价值。

当前挑战

该数据集首要解决生成图像与真实图像间细微特征差异的辨识难题，尤其在扩散模型生成的高保真图像中，纹理异常和语义不一致性难以捕捉。构建过程中面临多源数据协议兼容性挑战，需协调CC0、CC BY-NC-SA 4.0、Apache-2.0等六类许可协议的数据整合。此外，不同生成模型的输出存在分布偏移，需通过严格的样本平衡与质量控制确保数据集表征的全面性。

常用场景

经典使用场景

在数字媒体取证领域，MMFR-Dataset作为多模态伪造图像检测基准数据集，其经典应用场景集中于训练和评估深度伪造检测模型。该数据集通过整合DiffusionDB生成的伪造图像与LAION-Aesthetics的真实图像，构建了高质量的对比样本库，使研究者能够系统性地验证检测算法在不同生成模型（如Midjourney、GPT-4o等）输出上的泛化能力。

衍生相关工作

基于MMFR-Dataset的丰富样本生态，已衍生出多项标志性研究成果。包括跨模型伪造检测框架UniFD的精度验证、基于CLIP特征的通用检测器优化研究，以及针对AntifakePrompt对抗样本的防御机制探索。这些工作显著提升了检测模型对未知生成架构的适应性，推动了取证技术与生成技术的协同演进。

数据集最近研究