Deepfake Detection Challenge (DFDC) Preview Dataset

Name: Deepfake Detection Challenge (DFDC) Preview Dataset
Creator: Facebook AI
Published: 2019-10-24 02:47:35
License: 暂无描述

arXiv2019-10-24 更新2024-07-25 收录

下载链接：

https://ai.meta.com/datasets/dfdc/

下载链接

链接失效反馈

官方服务：

资源简介：

Deepfake Detection Challenge (DFDC) Preview Dataset是由Facebook AI创建的一个包含5000多条视频的数据集，旨在促进深度伪造检测技术的研究。该数据集通过与演员签订协议，确保了数据使用的合法性，并考虑了性别、肤色、年龄等多维度的多样性。数据集中的视频内容丰富，包括不同背景和光照条件下的面部交换视频。创建过程中，采用了两种面部交换算法，确保了数据的真实性和挑战性。该数据集主要应用于检测和防止恶意使用的深度伪造视频，如用于骚扰、误导公众等，对于维护网络安全和社会稳定具有重要意义。

Deepfake Detection Challenge (DFDC) Preview Dataset is a dataset containing over 5,000 videos created by Facebook AI, aimed at advancing research in deepfake detection technologies. The dataset ensures the legality of data usage by signing agreements with participating actors, and incorporates multi-dimensional diversity covering gender, skin color, age and other attributes. The videos in the dataset feature diverse content, including face-swapped videos under various backgrounds and lighting conditions. Two face-swapping algorithms were adopted during the dataset's creation to guarantee its authenticity and challenging nature. This dataset is primarily applied to detect and prevent malicious deepfake videos, such as those used for harassment or public misinformation, and is of great significance for safeguarding cybersecurity and social stability.

提供机构：

Facebook AI

创建时间：

2019-10-20

搜集汇总

数据集介绍

构建方式

在深度伪造检测领域，数据集的构建需兼顾真实性与多样性。Deepfake Detection Challenge (DFDC) Preview Dataset 的构建过程体现了这一原则。通过众包方式招募演员，确保参与者在性别、肤色和年龄等维度上具有广泛代表性，所有参与者均签署协议，同意其肖像被用于数据集的创建与修改。视频录制在任意背景下进行，以增强视觉变异性。从66名演员中选取样本，划分为训练集和测试集，避免跨集面部交换。采用两种未公开的面部修改算法（方法A和方法B）生成伪造视频，其中方法A对近距离拍摄的视频效果有限，因此通过面部尺寸比率进行筛选。原始视频经裁剪去除前五秒，并提取多个15秒片段，训练集保持原始分辨率，测试集则应用帧率降低、分辨率缩减和编码质量下降等增强处理，以模拟真实场景中的视频退化。最终数据集包含4,464个训练片段和780个测试片段，所有元数据记录于dataset.json文件中。

特点

DFDC Preview Dataset 在深度伪造检测数据集中展现出独特优势。其核心特点在于伦理合规性，所有视频均基于演员的明确同意构建，避免了使用公开或社交媒体数据可能引发的隐私争议。数据集在多样性方面表现突出，涵盖了74%女性和26%男性，以及68%高加索人、20%非裔美国人、9%东亚人和3%南亚人的种族分布，增强了模型的泛化能力。视觉多样性通过演员在任意背景下录制视频得以实现，包括不同光照条件和头部姿态。此外，数据集提供了两种不同质量的面部交换算法，方法A生成较逼真的交换，而方法B模拟低质量伪造，共同覆盖了真实对抗空间。数据集还引入了加权精度（wP）等评估指标，以应对深度伪造在真实流量中极低出现率的挑战，确保检测模型在精确度和召回率之间取得平衡。

使用方法

DFDC Preview Dataset 为深度伪造检测研究提供了系统化的使用框架。研究人员可通过官方网站deepfakedetectionchallenge.ai下载数据集，其中包含原始视频和伪造视频，并附带详细的元数据文件dataset.json，标注了交换身份、目标身份、训练测试集划分及增强处理信息。数据集适用于模型训练、验证和测试，用户可利用训练集开发检测算法，并通过测试集评估性能。评估时建议采用论文中定义的加权精度（wP）和召回率（R）指标，特别关注log(wP)在召回率为0.1、0.5和0.9时的表现，以模拟真实场景中深度伪造的罕见性。数据集还提供了基于TamperNet和XceptionNet的基准模型结果，供研究者比较与改进。使用中需注意遵循数据使用协议，确保符合伦理规范，并鼓励通过数据增强技术提升模型鲁棒性，以应对视频质量退化等实际挑战。

背景与挑战

背景概述

随着深度伪造技术的迅猛发展，高保真面部篡改视频对社会信任与信息安全构成了严峻威胁。为应对这一挑战，Facebook AI于2019年联合学术界与产业界发起了深度伪造检测挑战赛（DFDC），并同步推出了DFDC预览数据集。该数据集由5000余个视频构成，涵盖两种面部篡改算法，其核心目标在于推动针对恶意深度伪造内容的检测技术研究。数据采集过程中，所有参与者均签署了肖像使用协议，确保了伦理合规性；同时，数据在性别、肤色、年龄及背景环境等多个维度上保持了多样性，旨在构建一个更具现实代表性的基准测试平台。DFDC预览数据集的发布，不仅为相关领域提供了宝贵的训练与评估资源，也显著促进了深度伪造检测算法在鲁棒性与泛化能力方面的进步。

当前挑战

深度伪造检测领域面临的核心挑战在于，篡改技术持续演进导致伪造内容在视觉保真度上愈发逼真，使得传统检测方法难以有效区分真实与伪造视频。具体而言，现有模型在应对未知篡改算法时泛化能力不足，且在高精度召回与低误报率之间难以取得平衡。在数据集构建层面，DFDC预览数据集虽在伦理合规与多样性方面取得进展，但仍面临多重挑战：一是需在保护参与者隐私的前提下，大规模采集高质量、多场景的面部视频数据；二是需模拟真实网络环境中视频的多种退化形式（如分辨率降低、编码质量损失等），以提升数据集的现实代表性；三是需设计能够准确反映有机流量中极低深度伪造比例的评估指标，如加权精度，以避免模型在失衡数据分布下性能评估失真。

常用场景

经典使用场景

在数字媒体取证领域，Deepfake Detection Challenge (DFDC) Preview Dataset 作为一项关键资源，被广泛用于训练和评估深度伪造检测模型。该数据集通过包含多种面部修改算法生成的视频，模拟了真实世界中的视觉变异性，为研究者提供了一个标准化的测试平台。其经典使用场景涉及利用机器学习技术，特别是深度学习模型，对视频中的面部篡改进行自动识别与分类，从而推动检测算法的性能优化与比较研究。

衍生相关工作

DFDC Preview Dataset 的发布催生了一系列相关经典工作，包括基于该数据集的检测算法改进与新型评估框架的开发。例如，研究者利用其多样化的数据训练了增强版的XceptionNet模型，提升了在复杂背景下的检测鲁棒性。同时，该数据集促进了跨数据集迁移学习的研究，如将Celeb-DF和FaceForensics++的模型适配到DFDC环境中，推动了深度伪造检测领域的标准化与协作创新。

数据集最近研究