DFBench

Name: DFBench
Creator: 上海交通大学
Published: 2025-06-03 23:45:41
License: 暂无描述

arXiv2025-06-03 更新2025-06-05 收录

下载链接：

https://github.com/IntMeGroup/DFBench

下载链接

链接失效反馈

官方服务：

资源简介：

DFBench是一个大规模的深度伪造图像检测数据集，包含54万张真实、AI编辑和AI生成的图像，用于评估深度伪造检测模型的能力。数据集由8个来源收集了45k真实图像和15k AI编辑图像，并使用12个最先进的生成模型基于40k来自Flickr8k的提示生成了480k假图像。DFBench允许对检测模型和生成模型的检测准确性和规避能力进行双向评估。

DFBench is a large-scale deepfake image detection dataset containing 540,000 real, AI-edited and AI-generated images, which is used to evaluate the performance of deepfake detection models. The dataset collects 45k real images and 15k AI-edited images from 8 sources, and generates 480k fake images via 12 state-of-the-art generative models based on 40k prompts from Flickr8k. DFBench enables bidirectional evaluation of detection accuracy and evasion capabilities for both detection models and generative models.

提供机构：

上海交通大学

创建时间：

2025-06-03

原始信息汇总

DFBench 数据集概述

数据集简介

名称：DFBench
用途：评估大型多模态模型（LMMs）的深度伪造图像检测能力
核心方法：MoA-DF（多模型聚合检测框架）

数据集内容

数据类型：包含真实图像和AI生成/编辑的伪造图像
特征分布：
- 无失真真实图像
- 带失真的真实图像
- AI编辑图像
- AI生成图像
数据文件：
- img_train_shuffled.json
- img_test.json
- img_train_shuffled.jsonl
- img_test.jsonl

下载方式

Hugging Face地址：https://huggingface.co/datasets/IntMeGroup/DFBench/tree/main
下载命令： bash huggingface-cli download IntMeGroup/DFBench --repo-type dataset --local-dir ./DFBench

支持的模型

Qwen2.5-VL
- 模型权重下载： bash huggingface-cli download Qwen/Qwen2.5-VL-7B-Instruct --local_dir ./Qwen/Qwen2.5-VL-7B-Instruct
InternVL2.5
- 模型权重下载： bash huggingface-cli download OpenGVLab/InternVL2_5-8B --local_dir ./internvl25/OpenGVLab/InternVL2_5-8B
InternVL3
- 模型权重下载： bash huggingface-cli download OpenGVLab/InternVL3-9B --local_dir ./internvl3/OpenGVLab/InternVL3-9B

评估指标

提供logit概率计算和准确率评估脚本： bash python logit_calculation.py python process_results.py

可视化

特征分布可视化脚本： bash python feature_distribution.py python plot_features.py

引用信息

bibtex @misc{wang2025dfbenchbenchmarkingdeepfakeimage, title={DFBench: Benchmarking Deepfake Image Detection Capability of Large Multimodal Models}, author={Jiarui Wang and Huiyu Duan and Juntong Wang and Ziheng Jia and Woo Yi Yang and Xiaorong Zhu and Yu Zhao and Jiaying Qian and Yuke Xing and Guangtao Zhai and Xiongkuo Min}, year={2025}, eprint={2506.03007}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.03007}, }

联系方式

邮箱：wangjiarui@sjtu.edu.cn

搜集汇总

数据集介绍

构建方式

DFBench数据集的构建采用了多源数据整合与前沿生成模型相结合的策略。研究团队从8个公开自然图像数据库（包括LIVE、CSIQ等）收集了45,000张真实图像和15,000张AI编辑图像，并通过12种最新生成模型（如PixArt-sigma、Playground等）基于40,000条文本提示生成了480,000张伪造图像。构建过程特别注重内容多样性，既包含完整生成图像，也涵盖局部编辑样本，同时保留了真实图像中的自然失真特征，如压缩伪影和运动模糊等。这种构建方法通过分层抽样确保数据分布的均衡性，并采用标准化流程进行质量控制和标注验证。

使用方法

DFBench支持三种主要使用范式：作为基准测试平台时，研究者可通过标准化接口评估模型在真实、AI编辑和AI生成三个子集上的性能；用于方法开发时，建议采用分层交叉验证策略，利用其丰富的元数据（如图像来源、生成模型类型）进行细粒度分析；针对大语言模型（LMM）的零样本评估，数据集提供结构化提示模板和概率聚合接口。最佳实践包括使用提供的MoA-DF框架进行多模型知识融合，以及在微调时注意保持生成模型验证集的独立性以避免数据泄露。数据集还支持生成质量与检测鲁棒性的对抗性研究。

背景与挑战

背景概述

DFBench是由上海交通大学的研究团队于2025年推出的一个大规模深度伪造图像检测基准数据集。该数据集旨在解决生成模型快速发展带来的数字内容真实性验证挑战。随着生成对抗网络（GANs）、扩散模型和自回归模型等技术的进步，AI生成图像的逼真度显著提升，使得传统的伪造检测方法面临严峻考验。DFBench包含54万张图像，涵盖真实图像、AI编辑图像和AI生成图像三大类别，其中AI生成图像由12种最先进的生成模型基于4万条文本提示生成。该数据集不仅规模庞大，还特别注重内容的多样性，包括部分编辑图像和带有自然失真的真实图像，以更好地反映现实场景。DFBench的推出为评估深度伪造检测模型的泛化能力提供了重要工具，同时也为生成模型的逃避检测能力设定了新的基准。

当前挑战

DFBench面临的挑战主要体现在两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，随着生成模型技术的快速发展，AI生成图像的逼真度不断提高，使得传统的基于特定模型伪影的检测方法难以应对。现有数据集往往只包含少量生成模型产生的图像，导致检测模型容易过拟合到特定模型的伪影上，而无法泛化到新模型生成的图像。此外，大多数现有数据集仅关注面部图像，忽视了非面部伪造内容的检测需求。在构建过程方面，DFBench需要整合来自8个不同来源的真实图像，并确保其质量失真符合真实场景。同时，协调12种不同的生成模型生成48万张伪造图像，保持生成条件的一致性也是一项复杂任务。数据集还需要设计双向评估协议，既要评估检测模型的准确性，又要评估生成模型的逃避检测能力，这对数据集的标注和评估指标设计提出了更高要求。

常用场景

经典使用场景

在数字内容真实性验证领域，DFBench数据集凭借其大规模、高多样性的特点，成为评估深度伪造图像检测模型性能的黄金标准。该数据集整合了来自8个来源的45K真实图像和15K AI编辑图像，以及基于40K提示词生成的480K伪造图像，覆盖了12种最先进的生成模型。其经典应用场景包括为研究人员提供统一的测试平台，用于比较不同检测算法在真实、部分编辑和完全生成图像上的性能差异。特别是在跨模型泛化能力测试中，DFBench能有效揭示检测方法对新型生成技术的适应能力。

解决学术问题

DFBench针对性解决了深度伪造检测领域的三大核心问题：生成模型单一性、内容多样性不足和评估维度局限。通过整合扩散模型、自回归模型等12种前沿生成技术，该数据集打破了传统基准对特定生成痕迹的过拟合问题。包含自然失真和区域编辑的图像则提升了模型对真实场景的适应能力。其双向评估框架创新性地同时衡量检测模型的识别准确率和生成模型的逃避检测能力，为学术界提供了更全面的性能度量体系，推动了泛化性检测方法的发展。

实际应用

在实际应用层面，DFBench为社交媒体平台的内容审核系统提供了关键训练数据，帮助识别经过局部修饰的虚假信息图像。安全机构可利用该数据集开发针对政治虚假宣传、金融诈骗图像的检测工具。在影视行业，其包含的多种生成模型样本能有效识别AI辅助制作的版权侵权内容。特别值得关注的是，数据集中的自然失真样本使开发的检测系统能适应手机拍摄、网络传输等实际场景中的图像质量损失。

数据集最近研究