Low-quality DeepFake Detection Dataset

github2025-04-12 更新2025-04-13 收录

下载链接：

https://github.com/n0b0dy-jpg/DeepFake_data

下载链接

链接失效反馈

官方服务：

资源简介：

一个高质量、多源的数据集，用于训练和评估DeepFake检测模型，特别是在低质量和压缩视频条件下。该数据集包含由各种尖端方法生成的短视频片段，如基于Open-Sora的多模态合成、FaceSwap和表情转移、StableDiffusion增强的DeepFake生成以及基于Transformer的FakeFormer。所有视频都经过不同设置的压缩，以模拟现实世界中的挑战（低比特率、分辨率下降、编解码器伪影等）。

A high-quality, multi-source dataset for training and evaluating DeepFake detection models, particularly under low-quality and compressed video conditions. This dataset contains short video clips generated by various cutting-edge methods, including Open-Sora-based multimodal synthesis, FaceSwap and expression transfer, StableDiffusion-enhanced DeepFake generation, and Transformer-based FakeFormer. All videos have been compressed under different settings to simulate real-world challenges such as low bitrate, resolution degradation, codec artifacts, and more.

创建时间：

2025-04-05

原始信息汇总

Low-quality DeepFake Detection Dataset 概述

数据集简介

目的：用于训练和评估DeepFake检测模型，特别针对低质量和压缩视频条件。
特点：高质量、多来源，包含多种先进方法生成的视频片段。

数据集构成

规模与格式

总视频数：5000+
视频时长：约15秒
视频格式：.mp4
分辨率：720p / 480p / 360p
大小范围：~1MB – 35MB
压缩类型：H.264，限比特率，有损

类别分布

真实视频：约1000个，主要来自Bilibili和YouTube。
伪造视频：约4000个，使用不同DeepFake流程生成并经过多种后处理。

压缩与质量设置

比特率限制：800kbps, 500kbps, 200kbps
分辨率降采样：如720p → 480p
编解码器伪影：使用FFMPEG生成

快速使用

下载链接：百度网盘提取码:qaf3
示例代码： python import cv2 cap = cv2.VideoCapture("sample_data/1570235900–1–30032.mp4") while cap.isOpened(): ret, frame = cap.read() if not ret: break # process the frame cap.release()

联系方式

邮箱：meiyi_w@126.com

搜集汇总

数据集介绍

构建方式

在数字媒体安全领域，Low-quality DeepFake Detection Dataset的构建采用了多源合成与真实场景模拟相结合的策略。该数据集汇集了由Open-Sora多模态合成、FaceSwap表情迁移、StableDiffusion增强生成以及FakeFormer等前沿技术生成的5000余条短视频片段。所有素材均经过系统化的压缩处理，通过H.264编码实现不同比特率（800kbps至200kbps）和分辨率（720p至360p）的降质，并引入FFMPEG编解码器模拟真实网络传输中的画质损失，从而构建出覆盖完整质量梯度的对抗样本库。

特点

该数据集最显著的特征在于其刻意构建的质量降级谱系，能够精确复现社交媒体平台常见的压缩伪影、分辨率劣化等真实场景挑战。数据构成包含1000条来自Bilibili和YouTube的真实视频与4000条多技术合成的伪造视频，形成1:4的样本配比。每个视频文件采用时间戳式唯一编码，并保留原始生成方法标记，支持研究者进行细粒度的算法鲁棒性测试。视觉对比素材清晰展示了未压缩样本、压缩伪影样本与低分辨率样本的典型特征差异。

使用方法

研究者可通过公开的百度云链接获取样本数据，建议使用OpenCV等标准视频处理库进行帧级解析。典型使用流程包括：通过cv2.VideoCapture加载MP4文件，逐帧提取图像矩阵后实施检测算法验证。数据集特别适用于评估模型在低质量输入条件下的性能表现，建议配合数据增强技术模拟更极端的传输环境。完整数据集需通过指定邮箱申请获取，压缩包内包含完整的元数据说明文件与技术白皮书。

背景与挑战

背景概述

随着深度伪造技术的迅猛发展，低质量DeepFake视频的检测成为数字媒体安全领域的重要课题。Low-quality DeepFake Detection Dataset应运而生，旨在为学术界和工业界提供一个高质量、多来源的数据集，专门用于训练和评估在低质量和压缩视频条件下的DeepFake检测模型。该数据集由多个前沿深度伪造方法生成，包括Open-Sora多模态合成、FaceSwap表情迁移、StableDiffusion增强的DeepFake生成以及基于Transformer的FakeFormer技术。通过模拟真实世界中的视频压缩和低质量条件，该数据集为研究人员提供了一个接近实际应用场景的测试平台，推动了DeepFake检测技术的发展和优化。

当前挑战

Low-quality DeepFake Detection Dataset面临的挑战主要集中在两个方面。首先，在领域问题方面，低质量和压缩视频条件下的DeepFake检测面临巨大挑战，包括视频压缩带来的信息损失、分辨率下降导致的细节模糊以及编解码器引入的伪影干扰，这些因素显著增加了检测算法的难度。其次，在数据集构建过程中，研究人员需要平衡数据的多样性和真实性，确保生成的DeepFake视频覆盖多种伪造技术，同时通过精确控制压缩参数模拟真实场景中的视频质量退化，这对数据集的构建提出了较高的技术要求。

常用场景

经典使用场景

在数字取证和多媒体安全领域，Low-quality DeepFake Detection Dataset为研究人员提供了一个标准化的测试平台，用于评估和比较不同DeepFake检测算法在低质量视频条件下的性能。该数据集通过模拟真实世界中的视频压缩和质量退化场景，使得研究人员能够更全面地验证模型的鲁棒性和泛化能力。

解决学术问题

该数据集解决了DeepFake检测领域中的关键挑战，即在低质量、高压缩视频中准确识别伪造内容的问题。通过提供多源生成、多样化压缩处理的样本，它帮助研究人员克服了传统检测方法在复杂现实场景中性能下降的瓶颈，推动了检测技术的边界。

衍生相关工作

基于该数据集，学术界已衍生出多项经典工作，包括基于Transformer的鲁棒检测框架、多模态融合的伪造内容识别方法，以及针对低质量视频优化的轻量级检测模型。这些工作显著提升了DeepFake检测技术在复杂场景下的实用性和可靠性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集