TikTok-DeepFake (TT-DF)

Name: TikTok-DeepFake (TT-DF)
Creator: 中国科学院自动化研究所模式识别国家重点实验室与智能科学与技术系，中国科学院大学人工智能学院，中国科学技术大学
Published: 2025-05-13 19:01:25
License: 暂无描述

arXiv2025-05-13 更新2025-05-20 收录

下载链接：

https://github.com/HashTAG00002/TT-DF

下载链接

链接失效反馈

官方服务：

资源简介：

TT-DF数据集是一个大型基于扩散模型的人体伪造检测数据集，包含6120个伪造视频和1378857个合成帧。该数据集专为人体伪造检测而设计，提供了多种伪造方法，并基于身份和姿态信息的解耦，以及不同的压缩版本。数据集旨在尽可能全面地模拟潜在的未知的伪造数据，并提供了基准测试。此外，还提出了一种适应性的身体伪造检测模型TOF-Net，该模型利用自然数据和伪造数据之间的时空不一致性和光流分布差异。

The TT-DF dataset is a large-scale diffusion model-based human forgery detection dataset that contains 6,120 forged videos and 1,378,857 synthetic frames. Specifically designed for human forgery detection tasks, this dataset offers multiple forgery generation methods, and is constructed based on the decoupling of identity and pose information alongside various compressed versions. It aims to comprehensively simulate potential unseen forged data to the fullest extent, and provides standard benchmark test sets. Additionally, an adaptive human body forgery detection model termed TOF-Net is proposed, which exploits the spatio-temporal inconsistency and optical flow distribution discrepancies between natural and forged data.

提供机构：

中国科学院自动化研究所模式识别国家重点实验室与智能科学与技术系，中国科学院大学人工智能学院，中国科学技术大学

创建时间：

2025-05-13

搜集汇总

数据集介绍

构建方式

TikTok-DeepFake (TT-DF) 数据集的构建基于扩散模型，通过三种先进的人体图像动画方法（MagicDance、MagicAnimate 和 AnimateAnyone）生成伪造视频。数据集包含 6,120 个伪造视频，共计 1,378,857 合成帧，并采用两种生成配置（Match 和 Mismatch）来模拟真实场景中的潜在伪造数据。此外，数据集还提供了两种压缩版本（CRF 23 和 40），以模拟社交平台上的视频传播效果。

特点

TT-DF 数据集具有三大显著特点：首先，它是首个专注于人体伪造检测的大规模数据集，填补了该领域的空白；其次，数据集规模庞大，涵盖多种生成模型和配置，能够全面模拟真实场景中的伪造数据；最后，数据集提供了多种压缩版本，增强了其在现实应用中的实用性。此外，数据集还附带了一个基准测试，为后续研究提供了参考。

使用方法

TT-DF 数据集的使用方法主要包括三个步骤：首先，研究人员可以通过下载数据集并解压获取原始视频和压缩版本；其次，利用提供的基准测试模型（如 Xception、TALL-Swin 和 BAR-Net）进行人体伪造检测实验；最后，研究人员可以基于数据集开发新的检测算法，并通过基准测试评估其性能。数据集还支持跨配置和跨生成模型的泛化能力测试，为算法在实际场景中的应用提供了有力支持。

背景与挑战

背景概述

TikTok-DeepFake (TT-DF) 数据集由中国科学院自动化研究所的研究团队于2025年提出，旨在解决人体伪造检测领域的数据匮乏问题。随着生成对抗网络（GANs）和扩散模型的快速发展，面部深度伪造技术已得到广泛研究，但人体伪造检测领域因技术复杂且起步较晚，长期缺乏专用数据集。TT-DF包含6,120个伪造视频和1,378,857帧合成图像，采用MagicDance、MagicAnimate和AnimateAnyone等先进生成模型构建，并通过身份与姿态信息的解耦生成Match和Mismatch两个子集。该数据集不仅填补了人体伪造检测领域的空白，还为相关算法开发提供了重要基准。

当前挑战

TT-DF数据集面临的挑战主要体现在两方面：领域问题层面，人体伪造检测需处理比面部更复杂的空间运动和更大幅度的姿态变化，现有方法往往依赖面部先验知识，难以直接迁移至人体检测；构建过程层面，数据集需平衡生成质量与多样性，例如MagicAnimate因依赖DensePose导致手指控制精度不足，而不同压缩版本（CRF 23/40）的引入进一步增加了数据分布的复杂性。此外，跨配置（CCE）和跨生成模型（CME）的泛化测试表明，检测模型对未知伪造方法的适应性仍是核心难点。

常用场景

经典使用场景

TikTok-DeepFake (TT-DF) 数据集在人体伪造检测领域具有广泛的应用场景。该数据集通过整合多种先进的潜在扩散模型（如MagicDance、MagicAnimate和AnimateAnyone），生成了大量高质量的人体伪造视频，涵盖了匹配和不匹配两种生成配置。这些视频不仅模拟了真实世界中的潜在伪造数据，还通过H.264压缩技术生成了不同质量的版本，为研究者提供了丰富的实验材料。TT-DF的经典使用场景包括开发新型人体伪造检测算法、评估现有检测模型的泛化能力以及探索跨模型和跨配置的检测性能。

解决学术问题

TT-DF数据集解决了人体伪造检测领域中的多个关键学术问题。首先，它填补了该领域大规模数据集的空白，为研究者提供了标准化的基准测试平台。其次，数据集通过多种生成模型和配置的组合，模拟了真实世界中的复杂伪造场景，有助于研究者开发更具鲁棒性的检测算法。此外，TT-DF还解决了跨模型和跨配置检测的挑战，通过引入匹配和不匹配子集，推动了检测模型在未知伪造方法上的泛化能力研究。这些贡献显著提升了人体伪造检测的学术研究水平。

衍生相关工作

TT-DF数据集的推出催生了多个人体伪造检测领域的经典工作。其中，Temporal Optical Flow Network (TOF-Net) 通过结合时空注意力和光流调制技术，显著提升了检测性能。此外，研究者还基于TT-DF开发了多种改进的检测模型，如Xception、TALL-Swin和BAR-Net的扩展版本，这些模型在跨配置和跨模型检测任务中表现出色。TT-DF还激发了关于人体伪造生成与检测对抗性研究的新方向，推动了该领域的整体进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集