Deepfake-Detectors-in-the-Wild

Name: Deepfake-Detectors-in-the-Wild
Creator: Sumsub, Berlin, Germany
Published: 2025-07-29 23:17:00
License: 暂无描述

arXiv2025-07-29 更新2025-07-31 收录

下载链接：

https://github.com/messlav/Deepfake-Detectors-in-the-Wild

下载链接

链接失效反馈

官方服务：

资源简介：

Deepfake-Detectors-in-the-Wild数据集包含了超过50万个高质量的深度伪造图像，由Viacheslav Pirogov和Maksim Artemev创建。该数据集旨在用于评估深度伪造检测器的性能，数据集包含了由SimSwap和Inswapper生成的深度伪造图像。这些图像是通过将目标数据集中的图像进行性别、年龄和种族匹配后，使用SimSwap和Inswapper进行人脸交换生成的。数据集的创建过程采用了标准的前处理技术，如人脸裁剪和关键点估计。该数据集的应用领域是深度伪造检测，旨在解决深度伪造图像的检测问题。

The Deepfake-Detectors-in-the-Wild dataset contains over 500,000 high-quality deepfake images, created by Viacheslav Pirogov and Maksim Artemev. This dataset is designed to evaluate the performance of deepfake detectors, and includes deepfake images generated by SimSwap and Inswapper. These images are generated by first matching the gender, age and ethnicity of images from the target datasets, then conducting face swapping using SimSwap and Inswapper. Standard preprocessing techniques such as face cropping and keypoint estimation were employed during the creation of this dataset. The dataset is targeted at the field of deepfake detection, with the goal of addressing the challenge of detecting deepfake images.

提供机构：

Sumsub, Berlin, Germany

创建时间：

2025-07-29

原始信息汇总

数据集概述

基本信息

数据集名称: Swappir
数据集规模: 超过50万张高质量深度伪造图像
下载地址: https://huggingface.co/datasets/Sumsub/Swappir

数据集生成工具

主要工具:
- GPEN (Generative Prior Encoder Network)
- Roop
- SimSwap
- Self-Blended Images (SBI)

预训练模型

RetinaFace-R50: 用于面部检测
GPEN系列模型: 包括GPEN-BFR-512和GPEN-BFR-256
RealESRNet: 用于图像超分辨率
ParseNet: 用于面部解析
SBI模型: 用于深度伪造检测

使用说明

数据集生成: 提供完整的代码流程，从安装依赖到生成数据集
模型测试: 包含SBI模型的测试流程和预训练权重下载

许可声明

第三方许可: 项目中使用的第三方组件遵循各自原始许可协议

搜集汇总

数据集介绍

构建方式

Deepfake-Detectors-in-the-Wild数据集通过采用最先进的深度伪造生成技术构建，包含超过50万张高质量的伪造图像。该数据集利用SimSwap和Inswapper等现代生成模型，通过随机采样目标数据集中的图像进行面部交换，确保性别、年龄和种族的匹配，从而生成具有代表性的合成数据。此外，数据集还通过JPEG压缩和图像降尺度等增强技术模拟真实世界中的攻击手段，以评估检测器的鲁棒性。

特点

该数据集的特点在于其多样性和真实性，涵盖了多种深度伪造生成方法，包括全合成图像和面部交换图像。数据集中的图像经过多种增强处理，如JPEG压缩和降尺度，以模拟真实场景中的攻击手段。此外，数据集还包含了来自CelebA-HQ、LFW和FairFace等公开数据集的真实图像，确保了评估的全面性和公平性。

使用方法

Deepfake-Detectors-in-the-Wild数据集主要用于评估深度伪造检测器在真实场景中的性能。研究人员可以使用该数据集测试检测器对不同类型伪造图像的识别能力，以及其对图像增强和压缩等攻击手段的鲁棒性。数据集还提供了详细的实验流程和评估指标，如ROC-AUC和PR-AUC，帮助研究人员全面分析检测器的性能。所有代码和数据均已公开，便于社区进一步研究和应用。

背景与挑战

背景概述

Deepfake-Detectors-in-the-Wild数据集由Viacheslav Pirogov和Maksim Artemev等研究人员于2025年创建，旨在评估深度伪造检测器在真实场景中的性能。该数据集包含超过50万张高质量的深度伪造图像，采用了最先进的深度伪造生成方法，如SimSwap和Inswapper。数据集的核心研究问题是解决深度伪造技术在身份验证和数字媒体真实性方面带来的威胁，为相关领域的研究提供了重要的基准和测试平台。该数据集的影响力在于揭示了现有深度伪造检测器在真实场景中的局限性，推动了检测技术的进一步发展。

当前挑战

Deepfake-Detectors-in-the-Wild数据集面临的挑战主要包括两方面：1) 领域问题的挑战：深度伪造技术的快速演进使得检测器难以应对新型伪造方法，尤其是在面对JPEG压缩、图像增强等简单操作时，检测器的性能显著下降。2) 构建过程中的挑战：数据集的构建需要处理大规模高质量图像的生成和标注，同时确保数据多样性和真实性，以模拟真实世界的复杂场景。此外，数据集的公开性和可访问性也是构建过程中的重要考量，以促进广泛的研究和应用。

常用场景

经典使用场景

Deepfake-Detectors-in-the-Wild数据集广泛应用于评估深度伪造检测模型在真实场景中的性能。该数据集通过模拟现实世界中的深度伪造生成技术，包括高质量的人脸交换和合成图像，为研究者提供了一个全面的测试平台。其包含超过50万张高质量的深度伪造图像，涵盖了多种生成方法和后处理技术，如JPEG压缩和图像增强，使得该数据集成为评估检测模型鲁棒性的理想选择。

衍生相关工作

该数据集衍生了一系列经典的研究工作，包括基于多注意力机制的深度伪造检测模型（MAT）和自混合图像检测方法（SBI）。这些工作通过利用数据集的多样性和复杂性，提出了新的检测框架和优化策略。例如，MAT模型通过结合低层次纹理特征和高层次语义特征，显著提升了检测性能。此外，数据集的公开可用性也促进了社区对深度伪造检测技术的广泛研究和创新。

数据集最近研究