AV-Deepfake1M++

Name: AV-Deepfake1M++
Creator: 澳大利亚阿布扎比的MBZUAI, 澳大利亚珀斯的科廷大学, 澳大利亚墨尔本的莫纳什大学, 印度罗帕尔的IIT Ropar, 阿联酋沙迦的美国大学
Published: 2025-07-28 15:27:42
License: 暂无描述

arXiv2025-07-28 更新2025-07-30 收录

下载链接：

https://deepfakes1m.github.io/2025

下载链接

链接失效反馈

官方服务：

资源简介：

AV-Deepfake1M++是一个包含200万视频片段的大型数据集，用于音频-视觉深度伪造检测和定位任务。该数据集从VoxCeleb2、LRS3和EngageNet三个不同的源数据集中获取，并包含了多样化的操纵策略和音频-视觉扰动。数据集的创建过程包括使用九种最先进的模型进行深度伪造生成，并集成了15种视频级和11种音频级的失真。该数据集在2025年ACM多媒体会议上举办了1M-Deepfakes Detection Challenge。

AV-Deepfake1M++ is a large-scale dataset containing 2 million video clips, designed for audio-visual deepfake detection and localization tasks. This dataset is sourced from three distinct datasets: VoxCeleb2, LRS3, and EngageNet, and encompasses diverse manipulation strategies and audio-visual perturbations. The dataset creation process involves generating deepfakes using nine state-of-the-art models, and integrates 15 video-level and 11 audio-level distortions. This dataset supported the 1M-Deepfakes Detection Challenge held at the 2025 ACM International Conference on Multimedia (ACM MM).

提供机构：

澳大利亚阿布扎比的MBZUAI, 澳大利亚珀斯的科廷大学, 澳大利亚墨尔本的莫纳什大学, 印度罗帕尔的IIT Ropar, 阿联酋沙迦的美国大学

创建时间：

2025-07-28

原始信息汇总

2025 1M-Deepfakes Detection Challenge 数据集概述

数据集基本信息

名称：2025 1M-Deepfakes Detection Challenge
主办方：ACM Multimedia 2025
数据集版本：AV-Deepfake1M++
样本数量：超过200万

挑战任务

任务1：视频级深度伪造检测

任务描述：给定包含单个说话者的视听样本，判断视频是深度伪造还是真实的。

任务2：深度伪造时间定位

任务描述：给定包含单个说话者的视听样本，找出进行篡改的时间戳[start, end]。
任务假设：从传播错误信息的角度出发。

相关资源

GitHub：https://github.com/deepfakes1m
Hugging Face：https://huggingface.co/deepfakes1m
联系邮箱：deepfakes1mchallenge@gmail.com

搜集汇总

数据集介绍

构建方式

AV-Deepfake1M++数据集的构建采用了多源数据整合与先进生成技术相结合的策略。研究团队从VoxCeleb2、LRS3和EngageNet三个互补数据源获取原始视频素材，通过大型语言模型（GPT-4o mini等）进行语义级操作规划，生成包含替换、插入和删除三种操作类型的篡改方案。音频伪造方面采用Demucs噪声分离技术，结合VITS、F5TTS等五种TTS模型生成逼真语音；视觉伪造则运用TalkLip、Diff2Lip等三种唇同步模型生成面部动作。为增强现实性，数据集还系统性地引入了36种音视频扰动，包括高斯模糊、多普勒效应等真实场景常见失真。

特点

作为当前规模最大的多模态深度伪造基准，AV-Deepfake1M++包含205万条视频片段（约4,600小时），覆盖7,109个不同主体。其核心优势体现在三重维度：多源数据融合（访谈、演讲等多样化场景）、九种前沿生成模型的组合应用（实现单模态与跨模态伪造）、以及系统化的扰动模拟体系（26种视频扰动+10种音频扰动）。特别设计的测试集testA/testB采用身份隔离策略，有效评估模型的跨域泛化能力。与同类数据集相比，其在生成方法多样性（3.6倍于前代）和现实扰动覆盖度（新增15类视频失真）方面具有显著突破。

使用方法

该数据集支持端到端的音视频深度伪造检测与时间定位研究。研究者可通过官方划分的训练集（109万样本）开发模型，在保持身份独立的验证集（7.7万样本）进行调优，最终在testA（82.8万样本）和testB（4.6万样本）评估跨域性能。基准任务包含视频级分类（AUC指标）和时序定位（AP/AR指标），其中测试集特有的混合扰动策略可有效检验模型鲁棒性。配套提供的评估脚本支持帧级、片段级多粒度分析，挑战赛优胜方案显示当前最佳分类AUC达97.83%，但时序定位任务仍存在显著提升空间（最优分数67.20）。

背景与挑战

背景概述

AV-Deepfake1M++是由Monash University、MBZUAI、Curtin University和IIT Ropar等机构的研究团队于2025年共同推出的大规模音视频深度伪造检测基准数据集。作为AV-Deepfake1M数据集的扩展版本，该数据集包含约200万视频片段（总时长4,600小时），源自VoxCeleb2、LRS3和EngageNet三个多样化来源，覆盖访谈、TED演讲和自然对话等多种场景。其核心创新在于整合了9种前沿生成模型（如Diff2Lip、XTTSv2等）和26种真实世界扰动（包括视频压缩、音频多普勒效应等），旨在解决现有基准在生成方法多样性、数据源覆盖度和现实扰动模拟方面的三大关键缺陷。该数据集通过2025年ACM Multimedia会议举办的检测挑战赛，推动了音视频伪造检测与时间定位技术的进步，成为该领域最具代表性的基准之一。

当前挑战

AV-Deepfake1M++针对音视频深度伪造检测领域面临的核心挑战：首先，跨模态伪造内容的语义一致性难题，要求模型同时捕捉唇部运动与语音内容的微妙异常；其次，现实扰动（如网络传输造成的帧丢失、音频抖动）会掩盖伪造痕迹，需区分真实压缩伪影与伪造特征。在构建过程中，研究团队需平衡三大矛盾：多源数据（VoxCeleb2/LRS3/EngageNet）的异质性整合与标注一致性、26种扰动参数的逼真度与计算可行性、以及9种生成模型（含4种TTS和3种唇同步模型）的多样性带来的特征漂移问题。测试集特别设计的混合扰动策略（如帧率抖动与音频断奏组合）进一步提升了检测模型的鲁棒性要求。

常用场景

经典使用场景

在生成式人工智能技术迅猛发展的背景下，AV-Deepfake1M++数据集为音视频深度伪造检测领域提供了大规模、多样化的基准测试平台。该数据集通过整合三种不同来源的真实视频数据（VoxCeleb2、LRS3和EngageNet），覆盖了演播室访谈、TED演讲和自然对话会议等多种场景，同时采用九种先进的生成模型（如视觉唇同步模型LatentSync、Diff2Lip和音频合成模型XTTSv2、F5TTS等）构建单模态及跨模态伪造样本。其核心价值在于模拟真实网络环境中的36种音视频扰动（如高斯噪声、帧率抖动、多普勒效应等），为研究者提供了接近实际应用的测试环境。

解决学术问题

AV-Deepfake1M++致力于解决当前深度伪造检测领域的三大关键挑战：数据规模与来源单一性、生成方法多样性不足以及真实扰动缺失问题。通过扩展至200万视频片段（约4600小时）并引入多源数据，该数据集显著提升了人口覆盖度和语言丰富性；集成前沿的LLM驱动语义编辑与多模态生成技术，有效避免了检测模型对特定伪造痕迹的过拟合；特别设计的混合扰动策略（如音频卡顿与帧率抖动的组合）则填补了现有基准在模拟网络传输失真方面的空白，为开发鲁棒性更强的检测算法提供了重要支撑。

衍生相关工作

AV-Deepfake1M++的发布催生了一系列创新性研究：基于该数据集训练的MFMS模型（Zhang et al., 2024）通过融合模态特异性特征，在伪造定位任务中取得突破；Vigo系统（Pérez-Vieites et al., 2024）则利用其多扰动特性开发了端到端的音视频联合检测框架。数据集还推动了检测范式的理论演进，如Wang等人（2024）提出的局部-全局交互机制，以及Narang团队（2025）针对模型可解释性开发的LayLens系统。这些衍生工作共同构成了新一代深度伪造防御体系的技术基石。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集