DeeperForensics-1.0
收藏arXiv2020-12-11 更新2024-06-21 收录
下载链接:
https://github.com/EndlessSora/DeeperForensics-1.0
下载链接
链接失效反馈官方服务:
资源简介:
DeeperForensics-1.0是由南洋理工大学和商汤科技研究院共同创建的大型人脸伪造检测数据集,包含60,000个视频,总计1760万帧,是现有同类数据集中规模最大的。该数据集通过应用广泛的现实世界扰动,以更高的规模和多样性创建更具挑战性的基准。所有源视频都经过精心收集,并通过一种新的端到端人脸交换框架生成伪造视频。数据集的生成视频质量优于现有数据集,并通过用户研究得到验证。DeeperForensics-1.0还包含一个隐藏测试集,其中包含在人类评估中获得高分欺骗性的操纵视频。该数据集旨在推动人脸伪造检测技术的发展,特别是在检测视频操纵方面。
DeeperForensics-1.0 is a large-scale face forgery detection dataset co-created by Nanyang Technological University and SenseTime Research. It contains 60,000 videos totaling 17.6 million frames, making it the largest existing dataset of its kind. This dataset constructs a more challenging benchmark with greater scale and diversity by incorporating widespread real-world perturbations. All source videos are meticulously collected, and the forged videos are generated using a novel end-to-end face swapping framework. The quality of the videos generated by this dataset surpasses that of existing datasets, which has been validated via user studies. DeeperForensics-1.0 also includes a hidden test set containing manipulated videos that achieved high deception scores in human evaluation. This dataset is intended to advance the development of face forgery detection technologies, particularly in the area of video manipulation detection.
提供机构:
南洋理工大学
创建时间:
2020-01-09
搜集汇总
数据集介绍

构建方式
在数字媒体安全领域,面对日益严峻的人脸伪造威胁,DeeperForensics-1.0数据集通过系统化的构建流程应运而生。该数据集的构建始于对100名授权演员的高质量源视频采集,在专业室内环境中利用多角度高清摄像机捕捉涵盖丰富姿态、表情与光照条件的面部数据。随后,研究团队提出了一种新颖的端到端人脸交换框架DF-VAE,该框架通过解耦结构与外观表征,并引入掩码自适应实例归一化模块,显著提升了生成视频的视觉保真度与时间连贯性。在此基础上,对生成的伪造视频施加了七类真实世界扰动,包括色彩饱和度变化、局部块失真、高斯模糊等,并以五种强度级别进行组合,最终构建出包含6万视频、总计1760万帧的大规模数据集。
特点
DeeperForensics-1.0数据集在深度伪造检测领域展现出多维度优势。其规模远超现有同类数据集,视频数量达到现有数据集的十倍,为模型训练提供了充足的样本基础。数据质量通过精心设计的采集流程与DF-VAE生成框架得到保障,用户研究表明其伪造视频的真实性评分领先于其他数据集。多样性体现在身份、姿态、光照的广泛覆盖,以及系统化引入的多类型扰动,有效模拟了真实场景中可能遇到的压缩、传输误差等复杂情况。此外,数据集还包含一个隐藏测试集,该集合由人类评估中欺骗性较高的伪造视频构成,为模型在真实世界的泛化能力提供了严峻考验。
使用方法
该数据集为研究人员提供了系统化的评估框架。标准训练集包含未经扰动的原始伪造视频与真实视频,可按7:1:2的比例划分为训练、验证与测试子集,确保身份无重复以避免数据泄露。为提升模型在真实场景中的鲁棒性,建议在训练阶段引入施加了单级随机扰动、多级随机扰动及混合扰动的视频变体,以增强模型对分布变化的适应能力。评估时,除标准测试集外,应重点使用隐藏测试集进行性能验证,该集合模拟了未知生成方法与复杂扰动的真实分布。数据集支持视频级与图像级检测方法,包括C3D、I3D等时空特征提取网络,可通过官方提供的基准代码实现模型训练与性能对比,推动面向实际应用的伪造检测技术发展。
背景与挑战
背景概述
随着深度伪造技术的迅猛发展,人脸伪造检测成为计算机视觉领域亟待解决的关键问题。DeeperForensics-1.0数据集由南洋理工大学与商汤科技的研究团队于2020年共同构建,旨在为真实场景下的人脸伪造检测提供大规模、高质量的基准数据。该数据集包含6万个视频,总计1760万帧,规模达到同类数据集的十倍以上,其核心研究问题聚焦于提升伪造视频的检测鲁棒性与泛化能力。通过精心设计的数据采集流程与创新的深度伪造变分自编码器(DF-VAE)生成框架,DeeperForensics-1.0显著提升了生成视频的真实感与多样性,为人脸安全、数字取证等研究方向提供了重要支撑。
当前挑战
在解决人脸伪造检测这一领域问题时,DeeperForensics-1.0面临多重挑战:其一,真实场景中伪造视频的生成技术不断演进,检测模型需应对未知生成方法带来的分布偏移;其二,伪造视频常伴随压缩、模糊、传输噪声等复杂扰动,要求数据集具备高度的多样性与鲁棒性。在构建过程中,研究团队遭遇了高质量源视频匮乏的困境,公开视频往往存在光照不均、姿态极端、肖像权限制等问题。为此,团队通过邀请100位授权演员在受控环境下采集高分辨率视频,并引入DF-VAE框架以改善生成质量,同时系统性地施加七类扰动以模拟真实场景的复杂性,从而确保了数据集的实用价值与学术影响力。
常用场景
经典使用场景
在数字媒体取证领域,DeeperForensics-1.0数据集被广泛用于训练和评估人脸伪造检测模型。该数据集通过精心设计的端到端人脸交换框架生成高质量伪造视频,并引入多种真实世界扰动,模拟了网络环境中常见的压缩、模糊和传输误差等复杂场景。研究者利用其大规模视频样本和多样化扰动设置,能够系统性地探索模型在应对高欺骗性伪造内容时的鲁棒性与泛化能力,为开发下一代检测算法提供了关键数据支撑。
解决学术问题
DeeperForensics-1.0主要解决了人脸伪造检测研究中数据质量不足、规模有限和多样性缺失的学术难题。传统数据集往往因样本数量少、生成质量低或分布过于理想化,难以有效训练适用于真实场景的检测模型。该数据集通过采集高分辨率授权视频、提出DF-VAE生成框架以及引入多类型扰动,构建了更贴近现实分布的大规模基准,显著提升了模型对未知伪造方法和复杂环境扰动的适应能力,推动了取证技术向实用化迈进。
衍生相关工作
该数据集的发布催生了一系列人脸伪造检测领域的创新研究。例如,基于其多扰动特性,学者提出了增强时空一致性的检测网络,以应对复杂压缩伪影;部分工作借鉴其隐藏测试集设计思路,构建了更严格的跨域评估基准。同时,DF-VAE生成框架启发了后续高保真人脸合成方法的研究,促进了生成与检测技术的对抗性演进,形成了以数据驱动为核心的良性学术循环。
以上内容由遇见数据集搜集并总结生成



