SynthForensics

Hugging Face2026-05-04 更新2026-05-05 收录

下载链接：

https://huggingface.co/datasets/SynthForensics/SynthForensics

下载链接

链接失效反馈

官方服务：

资源简介：

SynthForensics 是一个专注于人物中心合成视频深度伪造的基准数据集，旨在评估现代文本到视频（T2V）和图像到视频（I2V）生成器的真实性和检测方法的有效性。数据集包含来自 8 个 T2V 和 7 个 I2V 开源生成器的 20,445 个独特视频，这些视频与 1,363 个来自 FaceForensics++ (FF++) 和 DeepFakeDetection (DFD) 的真实视频配对，并经过两阶段人工验证。数据集提供四种压缩版本（raw、canonical、crf23、crf40）和完整的元数据。视频按生成器和压缩级别组织，分为 T2V 和 I2V 两个分支，每个分支包含视频文件和元数据。数据集还提供了训练、测试和验证的分割文件，确保与 FF++ 评估协议兼容。此外，数据集补充了 DFD 测试视频作为域外评估源。统计信息显示，数据集包含 81,780 个视频文件（四种压缩版本），总计约 27.2 小时的视频时长，分辨率范围从 640×384 到 1920×1088，帧率范围为 8-25 FPS。该数据集适用于视频分类、深度伪造检测和合成视频分析等任务。

SynthForensics is a benchmark dataset focused on person-centric synthetic video deepfakes, designed to evaluate the authenticity and detection efficacy of modern text-to-video (T2V) and image-to-video (I2V) generators. The dataset contains 20,445 unique videos generated by 8 open-source T2V and 7 open-source I2V generators, paired with 1,363 real videos sourced from FaceForensics++ (FF++) and DeepFakeDetection (DFD), and undergoes two-stage human validation. It provides four compressed versions (raw, canonical, crf23, crf40) along with complete metadata. The videos are organized by generator and compression level, split into two branches: T2V and I2V, each containing video files and metadata. The dataset also offers training, testing, and validation split files to ensure compatibility with the FF++ evaluation protocol. Additionally, the dataset supplements DFD test videos as an out-of-domain evaluation source. Statistical data shows that the dataset includes 81,780 video files across the four compressed versions, with a total duration of approximately 27.2 hours, resolutions ranging from 640×384 to 1920×1088, and frame rates between 8 and 25 FPS. This dataset is applicable to tasks such as video classification, deepfake detection, and synthetic video analysis.

创建时间：

2026-04-30

原始信息汇总

SynthForensics 数据集概述

基本信息

数据集名称：SynthForensics
语言：英语
许可证：MIT
任务类别：视频分类（深度伪造检测）
标签：deepfake、deepfake-detection、synthetic-video、forensics、video、face、text-to-video、 image-to-video
数据规模：100,000 < 样本数 < 1,000,000

数据集描述

SynthForensics 是一个用于评估和基准测试以人为中心的合成视频深度伪造检测的数据集。它包含来自 8 个 T2V（文本到视频）和 7 个 I2V（图像到视频）开源生成器的 20,445 个视频，这些视频与 1,363 个来自 FF++/DFD 的真实视频配对，经过两阶段人工验证，并提供四种压缩版本及完整元数据。

主要特点

覆盖 15 个主流开源视频生成器
视频分辨率和时长多样化
包含多种压缩级别（raw、canonical、crf23、crf40）
提供训练/验证/测试集的官方划分
继承并兼容 FaceForensics++ 评估协议

数据集结构

SynthForensics/ ├── T2V/ # 文本到视频分支 │ ├── videos/ │ │ ├── raw/ # 原始未压缩视频 │ │ ├── canonical/ # 标准压缩版本 │ │ ├── crf23/ # CRF23 压缩版本 │ │ └── crf40/ # CRF40 压缩版本 │ └── metadata/ # 每个生成器的元数据 ├── I2V/ # 图像到视频分支 │ ├── videos/ # 同上压缩级别结构 │ ├── i2v_frames/ # 参考帧（条件输入图像） │ └── metadata/ # 每个生成器的元数据 ├── captions/ # 密集字幕（FF++ 和 DFD 源视频） ├── train.json # 训练集划分 ├── test.json # 测试集划分 ├── val.json # 验证集划分 └── README.md

命名规则

FF++ 样本：<ID>_<generator>_t2v.mp4 / <ID>_<generator>_i2v.mp4（ID 为三位数字）
DFD 样本：<subject_id>__<scene>_<generator>_t2v.mp4 / <subject_id>__<scene>_<generator>_i2v.mp4

数据划分

训练/测试/验证集的划分继承自 FaceForensics++ 数据集
测试集补充：包含完整的 DeepFakeDetection（DFD）数据集作为域外评估来源
真实视频来自 FF++ 数据集，与伪造视频一一对应

生成器与数据统计

生成器列表（共15个）

分支	显示名称	目录名称	原始视频数
T2V	CogVideoX	cogvideox	1,363
T2V	DaVinci-MagiHuman	daVinci-MagiHuman	1,363
T2V	Helios	helios	1,363
T2V	LTX-2.3	ltx2-3	1,363
T2V	Magi-1	magi-1	1,363
T2V	Self-Forcing	self-forcing	1,363
T2V	SkyReels-V2	skyreels-v2	1,363
T2V	Wan2.1	wan2-1	1,363
I2V	CogVideoX	cogvideox	1,363
I2V	DaVinci-MagiHuman	daVinci-MagiHuman	1,363
I2V	Helios	helios	1,363
I2V	LTX-2.3	ltx2-3	1,363
I2V	Magi-1	magi-1	1,363
I2V	SkyReels-V2	skyreels-v2	1,363
I2V	Wan2.1	wan2-1	1,363

整体统计

指标	数值
唯一合成视频（T2V）	10,904
唯一合成视频（I2V）	9,541
唯一合成视频总数	20,445
视频文件总数（4种压缩）	81,780
唯一帧总数	1,934,097
总视频时长	~27.2 小时
横屏视频	16,349
竖屏视频	4,096
分辨率范围（宽×高）	640×384 – 1920×1088
帧率范围（FPS）	8 – 25
时长范围（秒）	4 – 6

搜集汇总

数据集介绍

构建方式

SynthForensics数据集源于对现代文本到视频与图像到视频生成技术所制造的高保真深度伪造内容的系统性构建需求。研究者从FaceForensics++与DeepFakeDetection两个经典真实视频数据集中精挑细选1,363段人像视频作为真实基底，并以此驱动8款文本驱动与7款图像驱动的开源生成模型，为每段真实视频合成一份对应的伪造样本，最终产出20,445段原始视频。为确保数据质量与真实性，数据集实施了严格的两阶段人工验证流程，剔除生成失败或存在明显瑕疵的样本。此外，所有视频均提供原始、标准及两种不同压缩等级的版本，总共包含81,780个视频文件，并为每段视频配套了详尽的元数据与密集字幕。

特点

该数据集的核心特质在于其聚焦于人像合成视频的深度伪造检测，弥补了现有基准在面向人物真实感评估上的空白。其独特之处在于覆盖了15种不同的开源生成架构，广泛囊括了从CogVideoX到Wan2.1等前沿模型，生成视频的分辨率横跨640×384至高至1920×1088，时长统一保持在4至6秒，总计超过27小时的视频素材与近两百万个独立帧。数据集的横向与纵向多种画面比例、全面的压缩版本配置，以及对真实与伪造视频间严格的一一对应配对，共同形成了一个跨越领域与压缩强健性的多层次评估框架。

使用方法

使用者可依据官方提供的训练、验证与测试划分文件操作。这些划分直接继承自FaceForensics++数据集的原始分配方案，保证了与此经典基准的无缝兼容。具体来说，研究者通过每个视频的数字ID选择对应的伪造与真实视频构建各自的子集，用于模型训练或评估。额外引入的DeepFakeDetection视频则被完整纳入测试集，作为衡量检测器跨域泛化能力的特别挑战。数据集结构设计清晰：按文本/图像生成分支、压缩等级及生成器名称层层嵌套组织视频文件，使用者可通过解析元数据文件夹下的JSON文件配合分割列表，高效地构建符合自身需求的深度伪造检测任务管线。

背景与挑战

背景概述

随着文本到视频（T2V）与图像到视频（I2V）生成技术的迅猛发展，合成人脸视频的视觉保真度已逼近真实拍摄内容，对数字取证领域构成了前所未有的挑战。然而，现有深度伪造检测基准多聚焦于传统操控手段，而近期大规模合成视频数据集又往往忽视以人为中心的真实性评估，导致检测模型在面对当代生成式伪造时泛化能力严重不足。在此背景下，由多所研究机构联合创建的SynthForensics数据集于近期发布，旨在填补这一关键空白。该数据集整合了8种T2V与7种I2V开源生成器，基于1,363段FF++与DFD真实视频生成20,445段合成视频，并经由两阶段人工验证，提供四种压缩版本及完整元数据。通过与九项现有合成视频基准的对比分析，SynthForensics在真实度评价指标上展现出显著优势，其虚假标记率仅约38%，远低于同类基准的约84%，同时在人脸质量与地标稳定性上达到真实视频基线水平，为深度伪造检测研究树立了新的评估标杆。

当前挑战

SynthForensics所应对的核心领域挑战在于，当前深度伪造检测器在零样本场景下面对生成式合成视频时表现急剧下降——基于人脸的检测方法在SF-FF++子集上性能骤降27个百分点，在CRF40强压缩条件下再降23个百分点，暴露出传统检测范式对生成式伪造特征空间认知的严重不足。即便通过微调缩小差距，视频级检测器仍面临逆向性能衰减的困境，且重新训练实验表明合成特征与操控特征空间高度不交叠，提示现有检测架构可能需根本性革新。在数据集构建过程中，团队遭遇多重挑战：需从15个不同生成器输出的分辨率与帧率各异（640×384至1920×1088，8至25 FPS）的海量视频中提取统一对齐的人脸区域，并确保跨压缩级别（raw、canonical、CRF23、CRF40）的评估一致性；同时需设计两阶段人工验证流程以剔除生成失败的样本，并建立与FF++/DFD严格一一对应的ID索引体系，以维系基准测试的公平性与可复现性。

常用场景

经典使用场景

在当前深度伪造视频检测的研究领域中，SynthForensics数据集作为一项开创性基准，被广泛用于评估和比较各类检测算法在以人为中心的合成视频上的表现。该数据集涵盖了来自15种最新文本到视频（T2V）和图像到视频（I2V）生成器的超过两万个高质量合成视频，并提供了原始、标准以及不同压缩等级（CRF23、CRF40）的多种版本。研究者通过在此数据集上进行零样本测试、微调以及重新训练等实验范式，系统性地考察检测器在面对生成细节远超传统操纵痕迹的现代合成视频时的鲁棒性与泛化能力，从而推动深度伪造检测技术从识别低级篡改向更高层次的语义鉴别演进。

衍生相关工作

SynthForensics的发布催生了多项具有影响力的衍生研究工作，包括针对特定生成器族系（如扩散模型、自回归模型）的视频溯源算法，以及跨模态（文本-视频、图像-视频）统一深度伪造检测框架的提出。后续工作进一步将该数据集作为核心评估平台，探索人眼不可见伪影的自动挖掘方法、时序一致性分析特征的学习，以及对抗性压缩环境下的检测鲁棒性提升策略。这些衍生工作不仅拓展了视频取证的边界，还为构建能够适应生成技术快速演进的自适应检测系统奠定了坚实的实验基础。

数据集最近研究