five

WildDeepfake

收藏
arXiv2021-01-05 更新2024-06-21 收录
下载链接:
https://github.com/deepfakeinthewild/deepfake-in-the-wild
下载链接
链接失效反馈
官方服务:
资源简介:
WildDeepfake是一个用于深度伪造检测的挑战性真实世界数据集,由复旦大学上海智能信息处理重点实验室创建。该数据集包含7,314个面部序列,从707个互联网收集的深度伪造视频中提取。与现有数据集相比,WildDeepfake包含更多样化的场景、更多的人物和丰富的面部表情,反映了真实世界深度伪造的复杂性。数据集的创建过程涉及从互联网收集视频,使用Mtcnn面部检测器识别面部区域,并通过人工标注确保数据质量。WildDeepfake主要用于开发和测试深度伪造检测器,旨在提高对真实世界深度伪造视频的检测能力。

WildDeepfake is a challenging real-world dataset for deepfake detection, created by the Shanghai Key Laboratory of Intelligent Information Processing, Fudan University. This dataset contains 7,314 facial sequences extracted from 707 deepfake videos collected from the Internet. Compared with existing datasets, WildDeepfake features more diverse scenarios, a larger number of subjects, and richer facial expressions, which reflects the complexity of real-world deepfakes. The dataset creation process involves collecting videos from the Internet, using the MTCNN face detector to identify facial regions, and conducting manual annotations to ensure data quality. WildDeepfake is primarily used for developing and testing deepfake detectors, with the goal of improving detection performance on real-world deepfake videos.
提供机构:
上海智能信息处理重点实验室,计算机科学学院,复旦大学
创建时间:
2021-01-05
搜集汇总
数据集介绍
构建方式
WildDeepfake数据集的构建方式体现了对现实世界深度伪造视频的深刻理解。该数据集从互联网上收集了707个深度伪造视频,从中提取了7,314个人脸序列。首先,研究者通过搜索关键词“深度伪造”在视频分享网站上收集了超过1,200个视频。然后,他们手动检查每个视频,删除了那些使用传统人脸操纵技术而非深度伪造技术的视频,并确定了伪造技术的类型。接下来,研究者使用Mtcnn人脸检测器识别每个视频帧中的人脸区域,并使用ImageNet预训练的MobileNetV2网络提取人脸区域的特征。使用dlib人脸关键点检测器提取的人脸关键点对人脸序列进行对齐,以避免人脸方向对深度伪造检测器的训练产生负面影响。最后,研究者培训了三名人类标注员,他们根据视频标题、来源视频是否存在缺陷以及缺陷类型对人脸序列进行标注。该数据集最终包含了1,180,099张人脸图像,其中7,314个序列被用于训练,806个序列被用于测试。
特点
WildDeepfake数据集的特点在于其真实性和多样性。首先,该数据集完全从互联网上收集,因此包含了更真实、更丰富的场景、面孔和活动。其次,与现有的虚拟深度伪造数据集相比,WildDeepfake数据集中的深度伪造视频质量更高,这可能是由于使用了更多高质量的人脸图像进行长时间训练。此外,WildDeepfake数据集的视频内容也更加多样化,包括各种活动、场景、背景和光照条件,以及不同的压缩率、分辨率和格式。这些特点使得WildDeepfake数据集成为研究和测试更有效深度伪造检测器的重要资源。
使用方法
WildDeepfake数据集的使用方法主要涉及深度伪造检测。研究者首先在现有的深度伪造数据集(如DeepfakeDetection、Deepfake-TIMIT和FaceForensics++)上对一组基线检测网络进行了评估,以展示WildDeepfake数据集的挑战性。然后,他们提出了两种基于注意力的深度伪造检测网络(ADDNets),分别用于图像级和序列级深度伪造检测。ADDNets利用人脸关键点检测器提取的人脸关键点生成注意力掩码,以调整人脸的低级特征。然后,使用调整后的低级特征训练2D或3D CNN检测网络。在实验中,ADDNet-2D在现有数据集上表现与最先进的网络相当,在WildDeepfake数据集上表现更好。ADDNet-3D在DFD数据集上表现优于I3D,但在其他数据集上表现略逊一筹。这些结果表明,基于注意力的特征调整对于深度伪造检测具有重要意义。
背景与挑战
背景概述
随着深度学习技术的快速发展,人脸交换技术“deepfake”引发了公众的广泛关注。为了应对deepfake视频的滥用,研究人员提出了deepfake检测技术,并创建了多个deepfake数据集以支持检测器的训练和测试。然而,现有的数据集大多由有限的场景、演员和表情构成,且deepfake视频由研究人员使用少数流行软件制作,难以全面代表互联网上的真实deepfake视频。为了更好地支持对现实世界中deepfake视频的检测,Bojia Zi等人于2021年提出了一个新的deepfake数据集——WildDeepfake,该数据集完全从互联网上收集了707个deepfake视频,并从中提取了7,314个面部序列。WildDeepfake数据集的提出,为deepfake检测技术的发展提供了新的挑战和机遇。
当前挑战
WildDeepfake数据集的提出,带来了两个方面的挑战:一是解决领域问题,即如何有效地检测现实世界中的deepfake视频。现有的deepfake检测器在WildDeepfake数据集上的表现远不如在虚拟deepfake数据集上的表现,这表明现实世界中的deepfake视频更具挑战性。二是构建过程中所遇到的挑战。WildDeepfake数据集的构建是一个劳动密集和时间密集的过程,需要人工标注和检查每个视频。此外,由于deepfake视频的多样性,如何有效地提取deepfake视频中的关键特征也是一个挑战。为了应对这些挑战,研究人员提出了基于注意力的deepfake检测网络(ADDNets),通过利用注意力掩码来调整面部图像的低层特征,从而提高deepfake检测的准确性。
常用场景
经典使用场景
WildDeepfake数据集作为深度伪造检测领域的重要资源,其经典的使用场景在于训练和测试深度伪造检测模型。由于该数据集的视频均来自互联网,真实地反映了深度伪造视频的多样性、高质量和复杂性,因此基于WildDeepfake数据集训练的模型能够更好地识别和抵御现实世界中的深度伪造视频。此外,WildDeepfake数据集也可用于评估现有深度伪造检测模型的性能,帮助研究者发现现有模型的不足,从而推动深度伪造检测技术的发展。
衍生相关工作
WildDeepfake数据集的提出,激发了深度伪造检测领域一系列相关研究。例如,一些研究者基于WildDeepfake数据集提出了新的深度伪造检测模型,如基于注意力机制的深度伪造检测网络(ADDNets),以更好地应对现实世界中的深度伪造视频。此外,一些研究者还基于WildDeepfake数据集开展了深度伪造视频的生成和检测技术的研究,如基于生成对抗网络的深度伪造视频生成技术,以及基于深度学习的深度伪造视频检测技术。这些研究工作推动了深度伪造检测技术的发展,为应对深度伪造带来的挑战提供了新的思路和方法。
数据集最近研究
最新研究方向
WildDeepfake数据集针对深度伪造检测领域的前沿研究方向,主要集中在应对真实世界中深度伪造视频的多样性和高质量特点。该数据集收集了来自互联网的707个深度伪造视频,共计7,314个人脸序列,旨在为深度伪造检测提供更具挑战性的测试环境。研究结果表明,在WildDeepfake数据集上的检测性能明显低于现有数据集,这证明了真实世界深度伪造的检测难度。为了应对这一挑战,研究人员提出了两种基于注意力的深度伪造检测网络(ADDNets),分别是针对图像级别的2D ADDNet和针对序列级别的3D ADDNet。这些网络利用人脸特征点提取的注意力掩码来调整人脸图像的低级特征,并通过加权特征进行训练。实验结果表明,ADDNets在现有数据集和WildDeepfake数据集上都表现出色,验证了注意力机制在深度伪造检测中的有效性。
相关研究论文
  • 1
    WildDeepfake: A Challenging Real-World Dataset for Deepfake Detection上海智能信息处理重点实验室,计算机科学学院,复旦大学 · 2021年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作