Deepfake Image Detection Datasets

github2024-05-18 更新2024-05-31 收录

下载链接：

https://github.com/secml-lab-vt/EvolvingThreat-DeepfakeImageDetect

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集用于论文An Analysis of Recent Advances in Deepfake Image Detection in an Evolving Threat Landscape中的深度伪造图像检测研究。数据集包含了用于训练和测试深度伪造检测模型的图像数据。

本数据集旨在支持论文《在日益演变的威胁环境中深度伪造图像检测的最新进展分析》中关于深度伪造图像检测的研究。该数据集收录了用于训练与验证深度伪造检测模型的图像数据。

创建时间：

2024-03-17

原始信息汇总

数据集和模型检查点

数据集和模型检查点可通过填写Google Form获取。

内容无关特征处理

去噪: 使用MM-BSN进行图像去噪。
- 命令: python test.py -c SIDD -g 0 --pretrained ./ckpt/SIDD_MMBSN_o_a45.pth --test_dir ./dataset/test_data --save_folder ./outputs/
提取噪声: 使用extractnoise.py从原始和去噪图像中提取噪声。
- 命令: python extractnoise.py --origpath <path to original images> --denpath <path to denoised images> --outputpath <path where image noise will be saved>
训练DCT + 噪声特征: 使用traindct_w_noise.py训练模型。
- 命令: python traindct_w_noise.py --image_root <path to train images> --noise_image_root <path to noise of train images> --output_path <path to save trained model>
推理: 使用testdct_w_noise.py进行推理。
- 命令: python testdct_w_noise.py --fake_root <path to test fake> --real_root <path to test real> --noise_fake_root <path to noise of test fake images> --noise_real_root <path to noise of test real images> --model_path <path to trained model> --path_to_mean_std <path to saved mean and std values during training>

对抗攻击

微调代理模型: 提供CLIP-ResNet、EfficientNet和ViT的微调和推理脚本。
对抗攻击脚本: 使用adversarialattack_clipresnet.py进行对抗攻击。
- 命令: python adversarialattack_clipresnet.py --inputpath ./dataset/ --savepath ./outputs/ --plosscoeff 1.0 --classifiercoeff 0.1 --alpha 9.0 --beta 0.12 --lr 1e-3

防御措施

UnivConv2B防御: 提供微调和推理脚本。
- 微调命令: python train_univconv.py --epochs 30 --lr 1e-3
- 推理命令: python infer_univconv.py --model_path <path to finetuned model> --input_path <path to test data>

评估指标

KID计算: 使用calcKID.py计算KID值。
- 命令: python calcKID.py --dir1 <path to first directory of images> --dir2 <path to second directory of images>
CLIP-Score: 遵循原始仓库的指导进行计算。

搜集汇总

数据集介绍

构建方式

在构建Deepfake Image Detection Datasets时，研究团队采用了多种先进的技术手段。首先，通过使用MM-BSN去噪器对图像进行预处理，以提取内容无关的特征。随后，通过提取噪声并结合离散余弦变换（DCT）特征，进一步增强了数据集的复杂性和多样性。此外，数据集还包含了对抗性攻击的样本，这些样本是通过对代理模型进行微调并应用对抗性攻击生成的，从而模拟了真实世界中不断演变的威胁环境。

特点

Deepfake Image Detection Datasets的一个显著特点是其高度复杂和多样化的数据结构。数据集不仅包含了真实的图像和经过处理的伪造图像，还引入了对抗性攻击样本，这些样本能够有效模拟当前深度伪造技术中的高级威胁。此外，数据集中的图像特征经过去噪处理和噪声提取，使得模型能够更好地学习到图像的细微差别，从而提高检测的准确性。

使用方法

使用Deepfake Image Detection Datasets时，用户首先需要通过提供的Google Form申请访问权限。获得权限后，可以通过克隆GitHub仓库并设置相应的conda环境来开始使用。数据集的使用涵盖了从图像去噪、特征提取到模型训练和推理的完整流程。用户可以根据提供的脚本进行操作，包括训练DCT + Noise特征模型、进行对抗性攻击的微调和推理等。此外，数据集还提供了多种防御机制的实现和评估指标的计算方法，如KID和CLIP-Score，以便用户全面评估模型的性能。

背景与挑战

背景概述

随着深度伪造（Deepfake）技术的迅速发展，其对社会、政治和安全领域的潜在威胁日益凸显。Deepfake Image Detection Datasets由Sifat Muhammad Abdullah等研究人员于2024年创建，旨在应对这一不断演变的威胁。该数据集作为IEEE S&P 2024会议论文《An Analysis of Recent Advances in Deepfake Image Detection in an Evolving Threat Landscape》的官方资源，提供了代码、数据集和模型检查点，以支持深度伪造图像检测的研究。该数据集的核心研究问题是如何在复杂的威胁环境中有效检测深度伪造图像，其影响力在于为学术界和工业界提供了一个标准化的基准，推动了深度伪造检测技术的进步。

当前挑战

深度伪造图像检测面临多重挑战。首先，伪造技术的不断演进使得检测模型需要持续更新以应对新的伪造手段。其次，伪造图像的质量日益提高，导致真实图像与伪造图像之间的差异愈发微妙，增加了检测的难度。此外，数据集的构建过程中，研究人员需要处理大量的高质量图像，并确保数据集的多样性和代表性，以避免模型过拟合。最后，对抗性攻击的引入进一步加剧了检测的复杂性，要求检测模型具备更强的鲁棒性和抗攻击能力。

常用场景

经典使用场景

在深度伪造（Deepfake）图像检测领域，Deepfake Image Detection Datasets 数据集被广泛应用于训练和评估深度学习模型，以识别和区分真实图像与伪造图像。该数据集通过提供大量真实和伪造的图像样本，使得研究人员能够开发和验证各种检测算法，从而提升模型在复杂威胁环境下的鲁棒性和准确性。

衍生相关工作

基于该数据集，研究者们开发了多种先进的深度伪造检测算法，如基于噪声特征提取的检测方法和对抗攻击防御策略。此外，该数据集还促进了相关领域的研究，如图像去噪技术和对抗样本生成技术，进一步推动了深度学习在图像处理和安全领域的应用和发展。

数据集最近研究