AV-Deepfake1M
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/controlnet/av-deepfake1m
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一项大规模的科研项目,旨在推动强健的深度伪造检测和定位技术的发展。它包含了2000多个对象,涵盖了音频、视觉以及音视频混合操作的多种操纵形式。该数据集的规模超过了一百万个视频,任务重点在于深度伪造的检测与定位技术。
This dataset is part of a large-scale research project aimed at advancing robust deepfake detection and localization technologies. It contains over 2,000 subjects, covering diverse manipulation modalities including audio, visual, and audio-visual hybrid manipulations. The dataset comprises more than one million videos, with its core task focusing on deepfake detection and localization technologies.
提供机构:
Research Group
搜集汇总
数据集介绍

构建方式
随着深度伪造技术的迅猛发展,现有数据集多聚焦于全片段的真伪判别,难以应对真实视频中嵌入小段篡改内容的挑战。为弥补这一空白,AV-Deepfake1M数据集应运而生。其构建采用三阶段流水线:首先,利用ChatGPT大语言模型对真实视频的转录文本进行词级替换、删除与插入操作,生成语义反转的伪造文本;其次,通过身份依赖的VITS与身份无关的YourTTS方法,依据修改后的文本生成高质量语音,并保留原始背景噪声以增强真实性;最后,借助零样本唇同步生成模型TalkLip,基于伪造音频与原始姿态生成唇部同步的视觉帧,确保视频背景与身份的一致性。整个流程覆盖了音频、视觉及音视频联合三种篡改模态,共生成超过100万条视频,包含2000余位人物。
特点
AV-Deepfake1M数据集在规模、多样性与真实性上均显著超越现有同类基准。其包含超过2000位人物与逾百万条视频,总时长近1900小时,是当前最大的音视频深度伪造时序定位数据集。得益于大语言模型的驱动,转录文本的修改不再局限于简单的反义词替换,而是生成了27.7倍于先前数据集的独特新词,极大丰富了伪造内容的多样性。数据集的伪造视频在视觉质量上达到了39.49的PSNR与0.977的SSIM,音频质量上实现了0.991的说话人相似度与0.088的FAD,均优于FakeAVCeleb与LAV-DF等数据集。此外,数据集包含替换、删除与插入三种操作,且伪造片段时长与比例分布广泛,为时序定位任务提供了更具挑战性的测试环境。
使用方法
AV-Deepfake1M专为音视频深度伪造的时序定位与检测任务设计,研究者可根据需求灵活使用。数据集已划分为训练集、验证集与测试集,其中测试集仅包含身份依赖的VITS生成音频,确保评估的公平性。为便于单模态方法评估,还提供了仅含视觉篡改与仅含音频篡改的子集。使用时,研究者可基于帧级、片段级或视频级标签进行训练,并通过最大投票等策略聚合预测结果。基准实验表明,当前最先进的定位方法如UMMAFormer在该数据集上AP@0.5仅为51.64,远低于在LAV-DF上的表现,凸显了该数据集在推动下一代深度伪造检测方法发展中的关键作用。数据集与相关代码已开源发布。
背景与挑战
背景概述
随着生成式人工智能技术的迅猛发展,高度逼真的音频与视觉内容合成已成为现实,这为虚假信息传播与欺诈行为提供了新的途径。在此背景下,深伪检测与定位技术的研究愈发重要,而高质量、大规模的数据集是推动该领域进步的关键基石。2023年,来自莫纳什大学、科廷大学与印度理工学院罗巴尔分校的研究团队联合推出了AV-Deepfake1M数据集。该数据集旨在解决现有深伪数据集普遍存在的局限性,即仅关注整段内容的真伪判别,而忽视了真实视频中嵌入细微操控片段所带来的挑战。通过引入大规模语言模型ChatGPT驱动的内容生成流水线,AV-Deepfake1M实现了对超过2000名受试者的音频、视觉及音视频联合操控,生成了超过100万条深伪视频,成为迄今为止规模最大、内容最丰富的音视频深伪时序定位基准数据集。
当前挑战
AV-Deepfake1M数据集所应对的核心挑战在于,现有深伪检测与定位方法在面对内容驱动的、嵌入于真实视频中的微小操控片段时性能急剧下降。具体而言,该数据集引入了三种精细化的操控策略:单词级别的替换、删除与插入,使得伪造内容在语义层面发生反转,却难以被肉眼或传统算法察觉。在数据集构建过程中,研究团队面临了多重技术挑战:如何利用大语言模型生成语义一致且多样化的文本操控,而非简单的反义词替换;如何实现高质量、说话人风格一致的音频合成,并确保其与背景噪声的自然融合;以及如何在零样本条件下生成与伪造音频精确唇形同步的视频帧,同时保持原始姿态与身份特征的不变性。这些挑战使得AV-Deepfake1M成为检验下一代深伪定位方法鲁棒性的重要试金石。
常用场景
经典使用场景
在深度伪造检测领域,AV-Deepfake1M数据集被广泛用于音频-视觉时序伪造定位任务。该数据集通过引入大语言模型驱动的文本操控策略(替换、删除、插入),生成了高度逼真的内容驱动型伪造视频,涵盖超过2,000名受试者和逾百万条样本。研究者常利用该数据集训练和评估模型在细粒度时间维度上定位伪造片段的能力,例如通过BA-TFD、UMMAFormer等前沿方法,在音频、视觉及跨模态场景中验证算法对局部操控的敏感性。其独特之处在于强调对嵌入真实视频中的短时伪造片段的精准检测,弥补了传统二分类数据集的不足。
实际应用
在实际应用中,AV-Deepfake1M为社交媒体审核、司法取证和新闻真实性验证提供了关键支撑。例如,平台可利用基于该数据集训练的模型自动检测视频中篡改的语音或画面,识别通过词语替换、插入或删除制造的虚假陈述或误导性内容。此外,在视频会议安全、数字身份验证等场景中,该数据集助力开发能够实时定位伪造片段的系统,防止诈骗或信息操纵。其高质量、大规模的特性也使其成为评估商业检测工具鲁棒性的标准基准,推动从学术研究到产业部署的转化。
衍生相关工作
该数据集衍生了一系列经典工作,包括BA-TFD+和UMMAFormer等专门针对音频-视觉时序伪造定位的改进方法。BA-TFD+在原始BA-TFD基础上引入多模态融合策略,利用跨帧注意力机制提升对替换、删除等操控类型的敏感性;UMMAFormer则提出通用多模态自适应Transformer,通过联合建模音频与视觉特征的时序依赖关系,在AV-Deepfake1M上取得了当时最优的定位性能。此外,基于该数据集的挑战赛和开源代码库(如GitHub仓库)进一步催生了特征提取、聚合策略优化等方向的研究,如利用InternVideo视频特征与BYOL-A音频特征提升检测精度,形成了以该数据集为核心的学术生态圈。
以上内容由遇见数据集搜集并总结生成



