five

AV-Deepfake1M++

收藏
arXiv2025-07-28 更新2025-07-30 收录
下载链接:
https://deepfakes1m.github.io/2025
下载链接
链接失效反馈
官方服务:
资源简介:
AV-Deepfake1M++是一个包含200万视频片段的大型数据集,用于音频-视觉深度伪造检测和定位任务。该数据集从VoxCeleb2、LRS3和EngageNet三个不同的源数据集中获取,并包含了多样化的操纵策略和音频-视觉扰动。数据集的创建过程包括使用九种最先进的模型进行深度伪造生成,并集成了15种视频级和11种音频级的失真。该数据集在2025年ACM多媒体会议上举办了1M-Deepfakes Detection Challenge。

AV-Deepfake1M++ is a large-scale dataset containing 2 million video clips, designed for audio-visual deepfake detection and localization tasks. This dataset is sourced from three distinct datasets: VoxCeleb2, LRS3, and EngageNet, and encompasses diverse manipulation strategies and audio-visual perturbations. The dataset creation process involves generating deepfakes using nine state-of-the-art models, and integrates 15 video-level and 11 audio-level distortions. This dataset supported the 1M-Deepfakes Detection Challenge held at the 2025 ACM International Conference on Multimedia (ACM MM).
提供机构:
澳大利亚阿布扎比的MBZUAI, 澳大利亚珀斯的科廷大学, 澳大利亚墨尔本的莫纳什大学, 印度罗帕尔的IIT Ropar, 阿联酋沙迦的美国大学
创建时间:
2025-07-28
原始信息汇总

2025 1M-Deepfakes Detection Challenge 数据集概述

数据集基本信息

  • 名称:2025 1M-Deepfakes Detection Challenge
  • 主办方:ACM Multimedia 2025
  • 数据集版本:AV-Deepfake1M++
  • 样本数量:超过200万

挑战任务

任务1:视频级深度伪造检测

  • 任务描述:给定包含单个说话者的视听样本,判断视频是深度伪造还是真实的。

任务2:深度伪造时间定位

  • 任务描述:给定包含单个说话者的视听样本,找出进行篡改的时间戳[start, end]。
  • 任务假设:从传播错误信息的角度出发。

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
AV-Deepfake1M++数据集的构建采用了多源数据整合与先进生成技术相结合的策略。研究团队从VoxCeleb2、LRS3和EngageNet三个互补数据源获取原始视频素材,通过大型语言模型(GPT-4o mini等)进行语义级操作规划,生成包含替换、插入和删除三种操作类型的篡改方案。音频伪造方面采用Demucs噪声分离技术,结合VITS、F5TTS等五种TTS模型生成逼真语音;视觉伪造则运用TalkLip、Diff2Lip等三种唇同步模型生成面部动作。为增强现实性,数据集还系统性地引入了36种音视频扰动,包括高斯模糊、多普勒效应等真实场景常见失真。
特点
作为当前规模最大的多模态深度伪造基准,AV-Deepfake1M++包含205万条视频片段(约4,600小时),覆盖7,109个不同主体。其核心优势体现在三重维度:多源数据融合(访谈、演讲等多样化场景)、九种前沿生成模型的组合应用(实现单模态与跨模态伪造)、以及系统化的扰动模拟体系(26种视频扰动+10种音频扰动)。特别设计的测试集testA/testB采用身份隔离策略,有效评估模型的跨域泛化能力。与同类数据集相比,其在生成方法多样性(3.6倍于前代)和现实扰动覆盖度(新增15类视频失真)方面具有显著突破。
使用方法
该数据集支持端到端的音视频深度伪造检测与时间定位研究。研究者可通过官方划分的训练集(109万样本)开发模型,在保持身份独立的验证集(7.7万样本)进行调优,最终在testA(82.8万样本)和testB(4.6万样本)评估跨域性能。基准任务包含视频级分类(AUC指标)和时序定位(AP/AR指标),其中测试集特有的混合扰动策略可有效检验模型鲁棒性。配套提供的评估脚本支持帧级、片段级多粒度分析,挑战赛优胜方案显示当前最佳分类AUC达97.83%,但时序定位任务仍存在显著提升空间(最优分数67.20)。
背景与挑战
背景概述
AV-Deepfake1M++是由Monash University、MBZUAI、Curtin University和IIT Ropar等机构的研究团队于2025年共同推出的大规模音视频深度伪造检测基准数据集。作为AV-Deepfake1M数据集的扩展版本,该数据集包含约200万视频片段(总时长4,600小时),源自VoxCeleb2、LRS3和EngageNet三个多样化来源,覆盖访谈、TED演讲和自然对话等多种场景。其核心创新在于整合了9种前沿生成模型(如Diff2Lip、XTTSv2等)和26种真实世界扰动(包括视频压缩、音频多普勒效应等),旨在解决现有基准在生成方法多样性、数据源覆盖度和现实扰动模拟方面的三大关键缺陷。该数据集通过2025年ACM Multimedia会议举办的检测挑战赛,推动了音视频伪造检测与时间定位技术的进步,成为该领域最具代表性的基准之一。
当前挑战
AV-Deepfake1M++针对音视频深度伪造检测领域面临的核心挑战:首先,跨模态伪造内容的语义一致性难题,要求模型同时捕捉唇部运动与语音内容的微妙异常;其次,现实扰动(如网络传输造成的帧丢失、音频抖动)会掩盖伪造痕迹,需区分真实压缩伪影与伪造特征。在构建过程中,研究团队需平衡三大矛盾:多源数据(VoxCeleb2/LRS3/EngageNet)的异质性整合与标注一致性、26种扰动参数的逼真度与计算可行性、以及9种生成模型(含4种TTS和3种唇同步模型)的多样性带来的特征漂移问题。测试集特别设计的混合扰动策略(如帧率抖动与音频断奏组合)进一步提升了检测模型的鲁棒性要求。
常用场景
经典使用场景
在生成式人工智能技术迅猛发展的背景下,AV-Deepfake1M++数据集为音视频深度伪造检测领域提供了大规模、多样化的基准测试平台。该数据集通过整合三种不同来源的真实视频数据(VoxCeleb2、LRS3和EngageNet),覆盖了演播室访谈、TED演讲和自然对话会议等多种场景,同时采用九种先进的生成模型(如视觉唇同步模型LatentSync、Diff2Lip和音频合成模型XTTSv2、F5TTS等)构建单模态及跨模态伪造样本。其核心价值在于模拟真实网络环境中的36种音视频扰动(如高斯噪声、帧率抖动、多普勒效应等),为研究者提供了接近实际应用的测试环境。
解决学术问题
AV-Deepfake1M++致力于解决当前深度伪造检测领域的三大关键挑战:数据规模与来源单一性、生成方法多样性不足以及真实扰动缺失问题。通过扩展至200万视频片段(约4600小时)并引入多源数据,该数据集显著提升了人口覆盖度和语言丰富性;集成前沿的LLM驱动语义编辑与多模态生成技术,有效避免了检测模型对特定伪造痕迹的过拟合;特别设计的混合扰动策略(如音频卡顿与帧率抖动的组合)则填补了现有基准在模拟网络传输失真方面的空白,为开发鲁棒性更强的检测算法提供了重要支撑。
衍生相关工作
AV-Deepfake1M++的发布催生了一系列创新性研究:基于该数据集训练的MFMS模型(Zhang et al., 2024)通过融合模态特异性特征,在伪造定位任务中取得突破;Vigo系统(Pérez-Vieites et al., 2024)则利用其多扰动特性开发了端到端的音视频联合检测框架。数据集还推动了检测范式的理论演进,如Wang等人(2024)提出的局部-全局交互机制,以及Narang团队(2025)针对模型可解释性开发的LayLens系统。这些衍生工作共同构成了新一代深度伪造防御体系的技术基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作