Celeb-DF

arXiv2025-09-30 收录

下载链接：

https://github.com/danmohaha/celeb-deepfakeforensics

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一组深度伪造取证数据，包含了来自名人的真实视频以及高质量的深度伪造视频。这些视频没有拼接边界、色彩不匹配或面部朝向不一致的问题。该数据集的规模包括590个真实视频和5639个深度伪造视频，其任务是进行深度伪造检测。

This dataset is a deepfake forensics collection containing real videos of celebrities and high-quality deepfake videos. All videos in this dataset are free of artifacts such as splicing boundaries, color mismatches, and inconsistent facial orientations. The dataset comprises 590 real video samples and 5,639 deepfake video samples, with the core task being deepfake detection.

搜集汇总

数据集介绍

构建方式

在深度伪造检测领域，现有数据集常因视觉质量不足而难以模拟真实网络环境中的伪造视频。Celeb-DF数据集的构建旨在弥合这一差距，其核心在于采用改进的合成流程。该数据集基于59位名人的公开YouTube访谈视频，涵盖多样化的性别、年龄与种族分布，确保了样本的代表性。合成过程中，研究团队对基础深度伪造生成算法进行了多项优化：将合成人脸分辨率提升至256×256像素，通过数据增强与色彩校正技术减少颜色失配，采用基于面部标志点的平滑掩模生成方法以消除边界伪影，并引入卡尔曼平滑算法处理时间序列上的面部标志点，从而有效降低了视频帧间的闪烁现象。这些改进显著提升了合成视频的视觉逼真度，使其更贴近实际传播的深度伪造内容。

特点

Celeb-DF数据集以其高质量与挑战性著称，在深度伪造检测研究中具有独特价值。该数据集包含590段真实视频与5,639段深度伪造视频，对应超过两百万帧图像，规模庞大且内容多样。其最突出的特点在于视觉质量的显著提升：通过改进合成算法，有效减少了低分辨率合成人脸、颜色不匹配、可见拼接边界及时间闪烁等常见伪影，使得伪造视频在视觉上更为自然。定量评估显示，其平均Mask-SSIM得分达到0.92，高于同期其他数据集，证实了其优越的视觉一致性。此外，数据集中名人视频的广泛覆盖增强了身份多样性，而真实视频背景、光照及面部姿态的变化进一步增加了检测难度，为算法评估提供了更贴近现实的测试环境。

使用方法

Celeb-DF数据集主要用于深度伪造检测算法的开发与性能评估，为研究者提供了高质量的基准测试平台。在使用时，通常将数据集划分为训练集、验证集与测试集，以支持监督学习框架下的模型训练与验证。研究者可基于该数据集的视频帧，提取空间或时空特征，利用卷积神经网络、胶囊网络等深度学习架构进行二分类（真实与伪造）训练。评估阶段常采用帧级别的AUC（曲线下面积）作为核心指标，以全面衡量模型在不同阈值下的检测效能。此外，数据集支持对算法鲁棒性的考察，例如通过H.264压缩等后处理操作，分析模型在视频重新编码后的性能变化。其高质量伪造样本有助于揭示依赖低级伪影的检测方法的局限性，推动更具泛化能力的新方法探索。

背景与挑战

背景概述

随着人工智能合成技术的迅猛发展，深度伪造视频作为一种新兴的威胁，正日益侵蚀着在线信息的可信度。在此背景下，Celeb-DF数据集于2019年11月由纽约州立大学奥尔巴尼分校与中国科学院大学的研究团队联合推出，旨在为深度伪造检测算法的研发与评估提供大规模、高质量的数据支持。该数据集聚焦于解决现有深度伪造数据集视觉质量低下、与网络流传的真实伪造视频差距显著的核心问题，通过采用改进的合成流程生成了5639个高质量的名人深度伪造视频。Celeb-DF的发布显著推动了数字取证领域的发展，为检测模型在真实场景中的泛化能力设立了新的基准，成为该领域的重要里程碑。

当前挑战

Celeb-DF数据集所应对的领域挑战在于深度伪造检测本身的高度复杂性：随着合成技术的不断优化，伪造视频的视觉逼真度大幅提升，使得基于传统视觉伪影（如低分辨率、颜色失配、拼接边界等）的检测方法效力锐减，要求检测算法必须挖掘更细微、更本质的伪造痕迹。在构建过程中，研究团队面临多重技术挑战：一是需大幅提升合成人脸的分辨率至256×256像素，以增强视觉真实感；二是必须克服颜色不匹配问题，通过数据增强与后处理技术实现肤色自然过渡；三是需设计更精准的面部掩码生成方法，避免原始面部残留或边界突兀；四是需减少时间维度上的闪烁现象，利用卡尔曼平滑算法稳定面部标志点序列，确保视频时序连贯性。这些挑战共同促使Celeb-DF成为当前最具挑战性的深度伪造检测基准之一。

常用场景

经典使用场景

在数字媒体取证领域，Celeb-DF数据集作为高质量深度伪造视频的基准，常被用于评估和比较各类深度伪造检测算法的性能。该数据集通过改进的合成技术生成逼真的换脸视频，模拟了互联网上流传的真实深度伪造内容，为研究人员提供了一个接近实际场景的测试平台。其经典使用场景包括在学术竞赛和基准测试中，作为衡量检测模型泛化能力和鲁棒性的关键工具，推动了检测技术向更高精度和实用性的方向发展。

实际应用

在实际应用中，Celeb-DF数据集被广泛用于训练和优化深度伪造检测系统，这些系统可部署于社交媒体平台、新闻验证机构和网络安全领域，以自动识别并过滤虚假视频内容。例如，在政治选举或公共事件中，该数据集支持的检测工具有助于遏制误导性信息的传播，保护个人声誉和社会稳定。其高质量样本确保了检测模型在真实世界复杂环境中的有效性，为应对日益增长的深度伪造威胁提供了技术支撑。

衍生相关工作

基于Celeb-DF数据集，衍生了一系列经典的深度伪造检测研究工作，如DSP-FWA方法通过空间金字塔池化改进面部扭曲伪影检测，Xception-c23和Xception-c40模型利用压缩视频训练增强鲁棒性。这些工作不仅提升了在Celeb-DF上的检测性能，还推动了多任务学习、胶囊网络等新架构的探索。此外，该数据集激发了跨领域合作，促进了物理不一致性分析和时序建模等创新方向的发展，成为推动深度伪造取证领域进步的核心资源。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集