UADFV, EBV, Deepfake-TIMIT, DFFD, Wild Deepfake, Celeb-DF (v1), Celeb-DF (v2), DFDC, Deeper Forensic, FaceForensic++, DFGC, FFIW-10K, ForgeryNet

github2021-12-22 更新2024-05-31 收录

下载链接：

https://github.com/Daisy-Zhang/Awesome-Deepfakes

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含多个与Deepfakes相关的数据集列表，每个数据集都有其特定的用途和特点，如UADFV用于检测不一致的头部姿势，EBV用于通过检测眼睛眨动来揭露AI生成的假脸视频等。

This is a list of multiple datasets related to Deepfakes, each with its specific purpose and characteristics. For instance, UADFV is utilized for detecting inconsistent head poses, while EBV is designed to expose AI-generated fake face videos by detecting eye blinking.

创建时间：

2021-06-30

原始信息汇总

数据集概述

视频数据集

数据集名称	论文链接	下载链接	真实视频数量	伪造视频数量
UADFV	Paper	-	49	49
EBV	Paper	Download	-	-
Deepfake-TIMIT	Paper	Download	320	640
DFFD	Paper	Download	1000	3000
Wild Deepfake	Paper	Download	-	-
Celeb-DF (v1)	Paper	Download	-	-
Celeb-DF (v2)	Paper	Download	590	5639
DFDC	Paper	Download	23,564	104,500
Deeper Forensic	Paper	Download	50,000	10,000
FaceForensic++	Paper	Download	1000	5000
DFGC	Paper	Dowload	-	-
FFIW-10K	Paper	Download	-	-
ForgeryNet	Paper	Download	99,630	121,617

图像数据集

数据集名称	论文链接	下载链接	真实图像数量	伪造图像数量
DFFD	Paper	Download	58,703	240,336
FFHQ	Paper	Download	-	70,000 (GAN-based)
iFakeFaceDB	Paper	Download	-	87,000 (StyleGAN)
100k Faces	-	Download	-	100,000 (StyleGAN)
ForgeryNet	Paper	Download	1,438,201	1,457,861

搜集汇总

数据集介绍

构建方式

该数据集的构建方式主要基于深度伪造技术的应用，涵盖了从视频到图像的多种数据形式。通过使用生成对抗网络（GAN）等技术，研究人员生成了大量逼真的伪造视频和图像，并结合真实数据进行对比。每个子数据集如UADFV、Celeb-DF等，均通过特定的算法生成伪造内容，确保数据集的多样性和挑战性。此外，部分数据集还通过公开竞赛或合作研究的方式，进一步丰富了数据来源和质量。

特点

该数据集的特点在于其多样性和规模。涵盖了从低分辨率到高分辨率的视频和图像数据，且伪造内容涵盖了多种技术手段，如面部替换、表情合成等。数据集中的真实与伪造数据比例经过精心设计，确保了检测算法的鲁棒性。此外，部分数据集如DFDC和ForgeryNet，还提供了丰富的元数据，如伪造方法、时间戳等，为研究提供了更多的分析维度。

使用方法

该数据集的使用方法主要围绕深度伪造检测和生成技术的评估展开。研究人员可以通过下载数据集，使用提供的API或工具进行数据加载和预处理。数据集通常分为训练集和测试集，便于模型的训练和验证。此外，部分数据集还提供了基准测试和评估脚本，帮助研究人员快速评估算法的性能。通过结合公开的代码库和工具，用户可以进一步扩展数据集的应用场景，如实时检测、跨域迁移等。

背景与挑战

背景概述

随着深度学习技术的迅猛发展，Deepfake技术逐渐成为计算机视觉领域的研究热点。Deepfake技术通过生成对抗网络（GAN）等技术手段，能够生成高度逼真的虚假图像和视频，广泛应用于娱乐、影视制作等领域。然而，这一技术的滥用也带来了严重的社会问题，如虚假信息传播、隐私侵犯等。为了应对这些挑战，研究人员和机构开发了多个Deepfake数据集，如UADFV、Celeb-DF、DFDC等，旨在为Deepfake检测和生成技术提供高质量的数据支持。这些数据集不仅推动了Deepfake检测算法的进步，还为相关领域的研究提供了重要的实验平台。

当前挑战

Deepfake数据集在构建和应用过程中面临多重挑战。首先，Deepfake技术的不断演进使得虚假内容的生成质量越来越高，检测难度也随之增加。现有的数据集需要不断更新以应对新型Deepfake技术的挑战。其次，数据集的构建需要大量的真实和虚假数据，且数据的多样性和代表性至关重要，以确保检测算法的泛化能力。此外，数据集的标注和验证过程复杂，尤其是在大规模数据集中，确保数据的准确性和一致性是一个巨大的挑战。最后，隐私和伦理问题也是数据集构建过程中不可忽视的因素，如何在保护个人隐私的同时提供有效的数据支持，是研究人员需要权衡的重要问题。

常用场景

经典使用场景

在深度伪造技术的研究中，UADFV、Celeb-DF、DFDC等数据集被广泛应用于开发和测试深度伪造检测算法。这些数据集通过提供大量真实与伪造的视频和图像，帮助研究人员评估检测模型的性能，尤其是在处理高分辨率、复杂背景和多样化伪造技术时的表现。

实际应用

在实际应用中，这些数据集被用于开发社交媒体平台、新闻媒体和执法机构的深度伪造检测工具。例如，社交媒体平台可以利用这些数据集训练模型，自动识别并标记伪造内容，防止虚假信息的传播。执法机构则可以通过这些工具识别伪造证据，提升案件侦破的准确性。

衍生相关工作

基于这些数据集，衍生了许多经典的研究工作。例如，Celeb-DF数据集推动了基于深度学习的伪造检测算法的发展，而DFDC数据集则催生了多模态检测方法的研究。此外，FaceForensic++数据集为伪造视频的细粒度分析提供了重要支持，推动了伪造技术溯源和反制策略的研究。

以上内容由遇见数据集搜集并总结生成