TEDA

github2026-03-11 更新2026-03-25 收录

下载链接：

https://github.com/wfr429/Continual-Deepfake-Attribution

下载链接

链接失效反馈

官方服务：

资源简介：

TEDA是一个时间演变的深度伪造归因基准数据集，用于全面评估随时间演变的伪造内容的持续归因任务。

TEDA is a benchmark dataset for temporal deepfake attribution, designed to comprehensively evaluate the continuous attribution task of time-evolving deepfake content.

创建时间：

2026-03-06

原始信息汇总

数据集概述

数据集详情

数据集名称: Time-Evolving Deepfake Attribution (TEDA)
发布者: Boyang Gong, Yu Zheng, Fanye Kong, Jie Zhou, Jiwen Lu
所属机构: 清华大学自动化系
数据集地址: https://cloud.tsinghua.edu.cn/d/cdb67c07a71243ae881c/

数据集背景

该数据集是论文《Towards Continual Deepfake Attribution: A Time-Evolving Benchmark and Framework》中提出的一个时间演化的深度伪造溯源基准。
旨在为持续深度伪造溯源任务提供一个全面的评估测试平台，以应对随时间演变的新型伪造内容。

数据集内容与用途

主要用途: 用于评估持续深度伪造溯源方法的性能，即模型在遇到新型未见过的伪造内容时，能否有效识别其来源模型，同时避免对已学习伪造内容的灾难性遗忘。
核心挑战: 解决现有方法在面对新型伪造内容时，要么需要大量样本进行代价高昂的重新训练，要么会遭受对先前学习内容的灾难性遗忘的问题。

实验环境与训练

核心依赖: PyTorch (>= 1.1), tqdm。
训练脚本: 代码库中提供了针对TEDA及其他数据集的训练脚本，位于 scripts/ 目录下。

搜集汇总

数据集介绍

构建方式

在深度伪造溯源领域，TEDA数据集作为时间演化基准，其构建过程体现了对动态伪造技术的系统性追踪。该数据集通过整合多个时期生成的深度伪造内容，模拟了真实世界中伪造模型不断演化的场景。数据采集覆盖了多样化的生成模型与伪造手法，确保了时间维度上的连续性与技术多样性。每个样本均经过严格的来源标注，记录了对应的生成模型及创建时间戳，从而构建出一个层次分明、时序清晰的数据结构。这种构建方式不仅反映了伪造技术的演进轨迹，也为持续学习任务提供了可靠的数据基础。

特点

TEDA数据集的核心特点在于其时间演化属性，能够模拟深度伪造技术随时间的动态发展过程。数据集涵盖了多个阶段的伪造样本，呈现出技术从简单到复杂的演进趋势，为研究模型在持续学习环境下的适应能力提供了真实场景。样本来源的多样性确保了数据分布的广泛性，包括不同生成模型、不同参数设置以及不同伪造手法所产生的视觉内容。此外，数据集的结构设计支持增量学习任务，允许模型在面对新型伪造技术时进行知识更新，同时避免对已学知识的灾难性遗忘。这种时序性与多样性的结合，使TEDA成为评估深度伪造溯源方法鲁棒性的重要基准。

使用方法

使用TEDA数据集进行深度伪造溯源研究时，需遵循其时间演化的数据划分原则。研究人员可按照数据集提供的时序分割，将数据划分为基础任务与增量任务，以模拟模型在持续学习场景下的性能。训练过程中，建议采用如Slot-based Memory Allocation等专门设计的持续学习框架，以有效管理新旧知识之间的冲突与融合。评估阶段应重点关注模型在增量任务上的表现，特别是对新型伪造技术的识别能力以及对已学知识的保留程度。数据集的配套代码库提供了完整的训练与评估脚本，支持研究者快速复现实验并进行方法比较，从而推动深度伪造溯源技术的进一步发展。

背景与挑战

背景概述

随着人工智能生成内容技术的飞速发展，深度伪造内容的溯源问题日益凸显，即深度伪造归因任务。清华大学自动化系的研究团队于近期构建了时间演化深度伪造归因基准数据集TEDA，旨在应对持续学习场景下深度伪造源模型识别的前沿挑战。该数据集聚焦于动态演化的伪造内容，为核心研究问题——如何在不断涌现的新型伪造样本中持续、准确地追溯生成模型——提供了严谨的评估平台。TEDA的建立不仅推动了深度伪造检测领域向持续学习范式的演进，也为模型抗遗忘能力与知识迁移效率的研究奠定了关键的数据基础。

当前挑战

深度伪造归因领域面临的核心挑战在于模型对未知伪造内容的泛化能力不足，现有方法往往在遭遇新型伪造样本时，需依赖大量样本进行代价高昂的重新训练，或陷入对已学习伪造特征的灾难性遗忘困境。在数据集构建过程中，挑战同样显著：如何系统性地模拟时间演化过程中伪造技术的动态变迁，并确保数据序列能真实反映现实世界中生成模型的迭代与涌现，这要求构建者不仅需整合多源、异构的深度伪造数据，还需设计能够严格评估持续学习性能的任务划分与评估协议。

常用场景

经典使用场景

在深度伪造检测领域，TEDA数据集作为时间演化的基准测试平台，其经典使用场景聚焦于持续深度伪造溯源任务。该场景模拟了现实世界中伪造技术不断迭代更新的动态环境，要求模型能够在不遗忘已学习伪造特征的前提下，持续适应并识别新出现的深度伪造内容。通过构建时序演进的伪造样本序列，TEDA为评估模型在开放世界环境下的增量学习能力提供了标准化实验框架，推动了持续学习与伪造检测的交叉研究。

解决学术问题

TEDA数据集主要解决了深度伪造溯源中的两个核心学术问题：一是模型面对未知伪造技术时的泛化能力不足，二是持续学习过程中的灾难性遗忘现象。通过提供时间演化的伪造数据流，该数据集使研究者能够系统评估模型在动态环境下的适应性与稳定性，为设计抗遗忘的增量学习算法提供了实证基础。其意义在于将深度伪造检测从静态封闭场景拓展至开放动态场景，促进了人工智能安全领域向更贴近实际应用需求的方向演进。

衍生相关工作

围绕TEDA数据集衍生的经典研究工作主要包括基于记忆保留的增量学习框架与开放世界深度伪造检测方法。例如，与其配套提出的SMA（Slot-based Memory Allocation）框架通过显式建模知识保留与召回机制，有效缓解了持续学习中的灾难性遗忘问题。此外，该数据集也促进了开放世界深度伪造溯源基准OW-DFA与OSMA等数据集的交叉验证研究，推动了领域内对模型泛化能力与可扩展性的系统性评估范式形成。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集