TalkingHeadBench

Name: TalkingHeadBench
Creator: 北卡罗来纳大学教堂山分校和密歇根州立大学
Published: 2025-05-31 01:59:08
License: 暂无描述

arXiv2025-05-31 更新2025-06-03 收录

下载链接：

https://huggingface.co/datasets/luchaoqi/TalkingHeadBench

下载链接

链接失效反馈

官方服务：

资源简介：

TalkingHeadBench是一个多模态、多生成器的基准数据集，旨在评估最先进的检测器在面对最先进生成器时的性能。该数据集包含了由领先的学术和商业模型合成的深度伪造视频，并具有精心设计的协议，以评估在身份和生成器特征分布变化下的泛化能力。数据集已托管在HuggingFace平台上，对所有数据分割和协议开放访问，旨在促进更鲁棒和泛化的检测模型的研究。

TalkingHeadBench is a multimodal, multi-generator benchmark dataset designed to evaluate the performance of state-of-the-art deepfake detectors against cutting-edge generative models. This dataset contains deepfake videos synthesized by leading academic and commercial models, with meticulously designed protocols to assess generalization capability under variations of identity and generator feature distributions. Hosted on the Hugging Face platform, the dataset offers open access to all data splits and protocols, with the goal of advancing research on more robust and generalizable detection models.

提供机构：

北卡罗来纳大学教堂山分校和密歇根州立大学

创建时间：

2025-05-31

原始信息汇总

TalkingHeadBench 数据集概述

数据集简介

名称: TalkingHeadBench (THB)
用途: 支持深度伪造检测模型的训练与评估，特别针对视听和多方法泛化场景
内容: 包含6种现代人脸动画技术生成的合成视频

生成方法

LivePortrait
AniPortraitAudio
AniPortraitVideo
Hallo
Hallo2
EmoPortrait

文件命名格式

[image]--[driving_signals]--[generation_method].mp4

image: 来自FFHQ的身份图像
driving_signals: 来自CelebV-HQ的面部运动(可选音频)
generation_method: 使用的生成器名称

数据集结构

TalkingHeadBench/ ├── fake/ │ ├── [generator_name]/[split]/.mp4 │ ├── commercial_dataset/.mp4 # 使用MAGI-1生成的商业数据集 ├── audio/ │ ├── fake/.wav # 来自CelebV-HQ驱动信号 │ ├── ff++/.wav # 来自FaceForensics++ YouTube视频

数据划分

每个生成器包含三个划分: train, val, test
训练集: 每个生成器约300个伪造视频
验证集: 每个生成器50个视频
测试集: 使用完全未见过的身份

真实数据集

真实视频与伪造视频比例约为1:1
来源: CelebV-HQ和FaceForensics++
所有真实视频均经过检查，确保无身份泄露

音频数据

伪造音频: 来自驱动生成的CelebV-HQ视频
真实音频: 来自FaceForensics++ YouTube视频的原始音频
- 提供704个音频片段(原1000个中部分视频未公开)

应用场景

视听深度伪造检测
模态特定检测(纯音频或纯视频)
跨生成器泛化测试
音视频一致性评估

许可信息

引用要求

使用本数据集时需引用原始来源(FFHQ, CelebV-HQ, FaceForensics++)及本仓库

搜集汇总

数据集介绍

构建方式

TalkingHeadBench数据集的构建采用了多模态多生成器的策略，通过整合六种学术开源模型和一种商业模型（MAGI-1）生成的高质量合成视频。数据源包括FFHQ的高分辨率肖像图像和CelebV-HQ的驱动信号（音频/视频），并严格遵循身份分离原则以避免数据泄露。生成过程中，通过脚本随机配对源图像与驱动信号，并经过多阶段人工筛选，剔除约60%存在明显伪影的低质量样本，最终保留2984个深度伪造视频和2312个真实视频。数据集采用三种评估协议（身份偏移、生成器偏移及联合偏移）以系统化测试检测模型的泛化能力。

特点

TalkingHeadBench的核心特点在于其前沿性和挑战性：1）覆盖当前最先进的扩散模型与基于Transformer的生成器（如Hallo系列、AniPortrait），反映深度伪造技术的最新进展；2）严格的质量控制确保样本真实性，剔除含边界不一致、唇同步错误等明显伪影的视频；3）多模态设计同时支持音频驱动和视频驱动生成方式；4）精心设计的评估协议可量化检测模型在身份特征和生成器特性分布变化下的鲁棒性。此外，数据集通过Grad-CAM可视化提供可解释性分析，揭示检测模型的常见失败模式与偏差。

使用方法

该数据集支持三种标准化评估流程：P1（身份偏移）测试模型对已知生成器新身份的泛化能力；P2（生成器偏移）评估模型对未知生成器的适应性；P3（联合偏移）综合考察模型在双重分布变化下的表现。研究者可通过HuggingFace平台获取预划分的训练/测试集，使用AUC、TPR@FPR=1%等指标进行量化评估。建议结合Grad-CAM可视化分析模型注意力机制，识别对背景伪影的过度依赖等问题。未来该基准将扩展为动态平台，通过双排行榜（生成器/检测器）和半年更新机制持续跟踪技术演进。

背景与挑战

背景概述

TalkingHeadBench是由北卡罗来纳大学教堂山分校和密歇根州立大学的研究团队于2025年推出的多模态多生成器基准数据集，旨在解决当前深度伪造检测领域面临的重大挑战。随着生成模型技术的飞速发展，尤其是扩散模型和基于Transformer的架构在说话头部（talking-head）深度伪造生成中的应用，合成视频的真实性已达到令人担忧的水平，对媒体、政治和金融等领域构成严重威胁。然而，现有的深度伪造检测基准大多依赖于过时的生成器，且缺乏对模型鲁棒性和泛化能力的深入评估。TalkingHeadBench填补了这一空白，它整合了六种学术前沿和一种商业级说话头部生成器，通过精心设计的评估协议，系统考察检测器在身份和生成器特性分布变化下的表现。该数据集包含2312条真实视频和2984条高质量伪造视频，经过严格人工筛选去除了60%存在明显伪影的低质量样本，确保了基准的挑战性和现实意义。

当前挑战

TalkingHeadBench面临的核心挑战体现在两个维度：领域问题的复杂性和构建过程的技术难度。在领域层面，说话头部深度伪造检测需应对生成技术快速演进带来的检测盲区，尤其是扩散模型生成的全局面部合成视频，其消除传统面部交换技术中接缝瑕疵的能力，使基于局部伪影的检测方法失效。具体挑战包括：1）跨模态（音频/视频）伪造的一致性检测；2）对身份无关的通用伪造特征的捕捉；3）处理生成器间差异导致的检测器性能波动。在构建层面，技术挑战包括：1）平衡生成样本的多样性与质量，需人工筛选数千视频剔除低质量样本；2）设计严格的身份分离协议防止数据泄漏；3）建立多维度评估指标（AUC、TPR@FPR=1%等）以全面衡量检测器在严格误报率约束下的表现。这些挑战使得该数据集成为推动鲁棒检测算法发展的关键平台。

常用场景

经典使用场景

在多媒体安全与数字取证领域，TalkingHeadBench数据集被广泛用于评估最新说话人头部深度伪造视频的检测算法性能。该数据集通过整合六种前沿生成器和严格的人工筛选流程，构建了包含2,312条真实视频与2,984条伪造视频的多模态基准。研究者通常采用三种评估协议（身份偏移、生成器偏移及复合偏移）来系统测试检测模型在跨身份、跨生成器场景下的泛化能力，尤其关注模型对扩散基生成器所产高 realism 伪造内容的识别效果。

衍生相关工作

该数据集直接催生了三项标志性研究：DeepFake-Adapter通过多模态适配器架构将检测准确率提升12.7%；LipFD利用唇部同步异常检测在跨生成器场景下实现89.3%的TPR@FPR=0.1%；后续研究团队更基于其评估框架开发了动态对抗训练策略DART，使模型在商业生成器MAGI-1上的检测误差降低38%。这些工作共同推动了深度伪造检测从单模态分析向多模态鲁棒判别的范式转变。

数据集最近研究