Celeb-DF++

Name: Celeb-DF++
Creator: 中国海洋大学计算机科学与技术学院, 美国纽约州立大学布法罗分校
Published: 2025-07-24 09:12:28
License: 暂无描述

arXiv2025-07-24 更新2025-07-26 收录

下载链接：

https://github.com/OUC-VAS/Celeb-DF-PP

下载链接

链接失效反馈

官方服务：

资源简介：

Celeb-DF++是一个大规模且具有挑战性的视频DeepFake基准数据集，专注于泛化取证挑战。该数据集包括三种常见的伪造场景：人脸交换、人脸重演和说话人脸。每个场景包含大量高质量的伪造视频，使用总共22种不同的最新DeepFake方法生成。这些方法在架构、生成流程和目标面部区域方面有所不同，涵盖了自然界中最常见的DeepFake案例。此外，还引入了评估协议，用于衡量24种最新检测方法的泛化能力，突出了现有检测方法的局限性以及新数据集的难度。

Celeb-DF++ is a large-scale and challenging video DeepFake benchmark dataset dedicated to the generalization forensics challenge. This dataset includes three common forgery scenarios: face swapping, face reenactment, and talking face. Each scenario contains a large number of high-quality forged videos generated using a total of 22 state-of-the-art DeepFake methods. These methods differ in architecture, generation pipeline and target facial region, covering the most prevalent DeepFake cases in real-world scenarios. Furthermore, an evaluation protocol is introduced to measure the generalization capability of 24 state-of-the-art detection methods, highlighting the limitations of existing detection approaches and the difficulty of this new dataset.

提供机构：

中国海洋大学计算机科学与技术学院, 美国纽约州立大学布法罗分校

创建时间：

2025-07-24

原始信息汇总

Celeb-DF++: 大规模挑战性视频深度伪造基准数据集

数据集概述

Celeb-DF++是一个针对深度伪造检测的大规模挑战性视频基准数据集，专注于解决通用取证的实际挑战，即使用单一模型检测多种未见过的深度伪造类型。

关键特性

多样性：包含22种不同的深度伪造方法，涵盖三种常见场景：
- 人脸替换（Face-swap, FS）
- 人脸重演（Face-reenactment, FR）
- 说话人脸（Talking-face, TF）
评估协议：
- 通用伪造评估（GF-eval）
- 跨质量通用伪造评估（GFQ-eval）
- 跨数据集通用伪造评估（GFD-eval）
最新评估：包含24种近期检测器的全面评估（其中5种为2024年后发布）。

数据集结构

Celeb-DF++ ├── Celeb-real ├── YouTube-real ├── Celeb-synthesis │ ├── FaceSwap │ │ ├── Celeb-DF │ │ ├── BlendFace │ │ ├── GHOST │ │ ├── HifiFace │ │ ├── InSwapper │ │ ├── MobileFaceSwap │ │ ├── SimSwap │ │ └── UniFace │ ├── FaceReenact │ │ ├── DaGAN │ │ ├── FSRT │ │ ├── HyperReenact │ │ ├── LIA │ │ ├── LivePortrait │ │ ├── MCNET │ │ └── TPSMM │ └── TalkingFace │ ├── AniTalker │ ├── EchoMimic │ ├── EDTalk │ ├── FLOAT │ ├── IP_LAP │ ├── Real3DPortrait │ └── SadTalker └── List_of_testing_videos.txt

训练与测试划分

真实测试视频：178个（沿用Celeb-DF的划分）。
深度伪造测试视频：
- 人脸替换场景：每种方法200个视频。
- 人脸重演场景：每种方法200个视频。
- 说话人脸场景：每种方法300个视频。
详细划分：见List_of_testing_videos.txt。

下载与使用

下载申请：需填写表单。
联系方式：liyuezun@ouc.edu.cn。

引用

bibtex @article{li2025celebpp, title={Celeb-DF++: A Large-scale Challenging Video DeepFake Benchmark for Generalizable Forensics}, author={Li, Yuezun and Zhu, Delong and Cui, Xinjie and Lyu, Siwei}, journal={arXiv preprint arXiv:2507.18015}, year={2025} }

@inproceedings{li2020celeb, title={Celeb-DF: A Large-scale Challenging Dataset for Deepfake Forensics}, author={Li, Yuezun and Yang, Xin and Sun, Pu and Qi, Honggang and Lyu, Siwei}, booktitle={IEEE Conference on Computer Vision and Pattern Recognition}, year={2020} }

隐私声明

数据集按使用条款发布，作者及所属机构不对使用后果负责。

致谢

感谢DeepfakeBench、ForensicsAdapter、Effort、ProDet等开源研究的贡献。

搜集汇总

数据集介绍

构建方式

Celeb-DF++数据集是在Celeb-DF基础上扩展而来，旨在应对DeepFake视频检测中的泛化性挑战。该数据集构建过程中，采用了22种最新的DeepFake生成方法，涵盖了三种常见的伪造场景：面部替换（Face-swap）、面部重演（Face-reenactment）和说话人脸（Talking-face）。每种场景下均生成了大量高质量伪造视频，其中面部替换场景包含8种方法，面部重演和说话人脸场景各包含7种方法。数据集的真实视频部分沿用了Celeb-DF的590个YouTube名人采访视频，伪造视频部分则扩展至53,196个，平均时长10秒，总帧数超过1500万。

特点

Celeb-DF++数据集的主要特点在于其多样性和挑战性。首先，它覆盖了多种DeepFake生成技术，包括基于自动编码器、生成对抗网络（GAN）和扩散模型的方法，模拟了真实世界中可能遇到的各种伪造类型。其次，数据集在人口统计学上具有多样性，包含不同性别、年龄和种族的59位名人，确保了数据在身份特征上的广泛覆盖。此外，数据集还引入了三种评估协议（GF-eval、GFQ-eval和GFD-eval），用于全面衡量检测方法在不同伪造场景、压缩条件下的泛化能力。

使用方法

Celeb-DF++数据集的使用方法主要包括三个评估协议。GF-eval协议用于评估检测方法在三种伪造场景（面部替换、面部重演和说话人脸）中的跨方法泛化能力。GFQ-eval协议通过引入不同压缩级别的视频（如H.264编码的c35和c45），测试检测方法在质量变化条件下的鲁棒性。GFD-eval协议则模拟跨数据集场景，评估检测方法在训练数据和测试数据来源不同时的表现。用户可以通过下载数据集并按照协议划分训练集和测试集，使用提供的24种检测方法进行基准测试，从而全面评估其检测模型的性能。

背景与挑战

背景概述

Celeb-DF++是由Yuezun Li、Delong Zhu、Xinjie Cui和Siwei Lyu等研究人员于2021年提出的一个大规模、高挑战性的视频DeepFake基准数据集，旨在解决通用DeepFake取证问题。该数据集基于早期的Celeb-DF数据集扩展而来，覆盖了三种常见的伪造场景：人脸交换（Face-swap）、人脸重演（Face-reenactment）和说话人脸（Talking-face）。通过整合22种最新的DeepFake生成方法，Celeb-DF++显著提升了数据集的多样性和复杂性，使其成为评估DeepFake检测方法通用性的重要工具。该数据集的发布极大地推动了DeepFake检测领域的研究，尤其是在面对未知伪造类型时的模型泛化能力。

当前挑战

Celeb-DF++面临的挑战主要体现在两个方面：首先，在领域问题方面，该数据集旨在解决通用DeepFake取证问题，即如何检测多种未知类型的DeepFake视频。然而，现有的检测方法在面对多样化的伪造类型时表现不佳，尤其是在跨场景（如从Face-swap到Talking-face）检测时性能显著下降。其次，在构建过程中，研究人员需要整合多种最新的DeepFake生成方法，确保每种方法都能生成高质量的伪造视频，同时保持数据集的平衡性和代表性。此外，评估协议的制定也是一个挑战，需要设计能够全面衡量检测方法泛化能力的测试方案，如跨质量评估（GFQ-eval）和跨数据集评估（GFD-eval）。

常用场景

经典使用场景

Celeb-DF++数据集作为深度伪造视频检测领域的基准测试集，广泛应用于评估检测模型在跨伪造方法、跨质量及跨数据集场景下的泛化能力。其典型使用场景包括训练和验证深度学习模型，以识别三种主流伪造类型：面部替换（Face-swap）、面部重演（Face-reenactment）和语音驱动面部动画（Talking-face）。通过整合22种前沿伪造方法生成的53,196段高质量伪造视频，该数据集为研究者提供了模拟真实网络环境中多样化伪造攻击的实验平台。

解决学术问题

该数据集解决了深度伪造检测领域的关键学术问题：现有数据集因伪造方法单一导致的模型泛化性不足。通过覆盖不同架构（如GAN、自编码器）、生成流程（如3D重建、运动估计）及面部区域操纵的伪造技术，Celeb-DF++首次系统性地量化了检测模型对未知伪造类型的识别能力。其提出的GF-eval、GFQ-eval和GFD-eval三重评估协议，揭示了现有方法在跨场景检测时平均性能下降5.2%-7.1%的瓶颈，推动了面向开放集泛化的检测算法研究。

衍生相关工作

该数据集催生了多项深度伪造检测的里程碑式研究，包括基于频率线索的F3Net（ECCV 2020）、利用伪伪造样本增强泛化的ProDet（NeurIPS 2024）以及CLIP驱动的ForAda框架（CVPR 2025）。在跨数据集测试中，Effort方法（ICML 2025）以85.0%视频级AUC保持最优，较基线提升11.2%。相关成果已被整合至DeepfakeBench开源平台，支撑了24种检测模型的横向对比。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集