Localized Audio Visual DeepFake (LAV-DF)

arXiv2023-05-04 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2204.06228v2

下载链接

链接失效反馈

官方服务：

资源简介：

Localized Audio Visual DeepFake (LAV-DF)是一个大规模的音视频深度伪造数据集，专门设计用于学习时间伪造定位。该数据集通过战略性地进行音视频内容驱动操作，改变整个视频的情感极性。数据集的创建过程包括从VoxCeleb2数据集中获取真实视频，处理这些视频以操纵其转录本，并进行音频和视频合成。LAV-DF数据集的应用领域主要集中在检测和定位视频中的内容改变伪造段，旨在解决深度伪造技术对社会信息真实性的威胁问题。

Localized Audio Visual DeepFake (LAV-DF) is a large-scale audio-visual deepfake dataset specifically designed for learning temporal forgery localization. This dataset strategically performs content-driven audio-visual manipulations to alter the emotional polarity of entire videos. The creation process of the LAV-DF dataset involves acquiring authentic videos from the VoxCeleb2 dataset, processing these videos to manipulate their transcripts, and conducting audio and video synthesis. The application scenarios of the LAV-DF dataset mainly focus on detecting and localizing content-altered forgery segments in videos, aiming to address the threat of deepfake technologies to the authenticity of social information.

提供机构：

蒙纳士大学, 澳大利亚印度理工学院罗巴尔分校, 印度

创建时间：

2022-04-13

搜集汇总

数据集介绍

构建方式

在多媒体伪造检测领域，针对内容驱动的音频-视觉深度伪造数据稀缺的现状，LAV-DF数据集通过一套精心设计的流程构建而成。其基础真实视频来源于VoxCeleb2数据集，并经过人脸检测与裁剪处理。核心构建策略在于对视频转录文本进行内容驱动的情感导向篡改：通过自然语言处理工具分析文本，选取关键词语（如形容词、动词、名词）并将其替换为反义词，旨在最大化改变语句的感知情感。随后，利用SV2TTS模型生成与说话者风格匹配的伪造音频段，并通过Wav2Lip模型进行唇形同步的面部重演以生成对应视觉帧。最终，数据集包含三类篡改样本：伪造音频与伪造视觉、伪造音频与真实视觉、真实音频与伪造视觉，确保了篡改片段在时间轴上的精准定位与多模态组合的多样性。

特点

LAV-DF数据集作为首个大规模内容驱动的音频-视觉深度伪造定位基准，其显著特点在于篡改的针对性与局部性。与以往将整段视频标记为伪造的数据集不同，LAV-DF中的伪造仅局限于视频中短暂的关键片段（平均长度0.65秒），这些片段通过替换特定词语彻底改变原句语义，模拟了现实中有意误导公众的精细伪造场景。数据集规模庞大，包含超过13.6万个视频，涵盖153位不同说话者，并在身份独立的训练、验证和测试集上进行了划分。其多模态篡改类型均衡，涵盖了纯视觉、纯音频及音视频联合篡改，为开发能够捕捉跨模态不一致性的检测模型提供了丰富而真实的挑战。

使用方法

LAV-DF数据集主要用于推动时序伪造定位与深度伪造检测任务的研究。研究者可利用其提供的精确时间戳标注，开发模型以定位视频中篡改片段的起始与结束边界，而非仅进行二分类的真伪判断。数据集支持端到端的多模态模型训练，例如论文中提出的BA-TFD+架构，该模型融合视觉与音频编码器，并利用对比学习、帧分类、边界匹配等多任务损失进行优化。评估时，可采用平均精度（AP）与平均召回率（AR）等指标衡量定位准确性，同时也可用于评估模型在整体视频级深度伪造检测任务上的性能。数据集的划分确保了评估的公正性，使其成为验证模型在复杂、局部化多模态伪造场景下泛化能力的可靠基准。

背景与挑战

背景概述

随着深度学习技术的飞速发展，音频-视觉深度伪造内容生成技术日益成熟，对信息安全与社会信任构成严峻挑战。在此背景下，由莫纳什大学、科廷大学及印度理工学院罗巴尔分校的研究团队于2022年联合创建了Localized Audio Visual DeepFake (LAV-DF)数据集。该数据集旨在填补现有基准数据集中在内容驱动、多模态伪造检测与定位方面的空白，核心研究问题聚焦于精准识别视频中局部音频、视觉或音视频联合篡改片段，而非传统的整体视频真伪二分类任务。LAV-DF基于VoxCeleb2源数据，通过语义驱动的反义词替换策略生成篡改内容，推动了多模态深度伪造检测向细粒度、时序定位方向演进，为相关领域提供了关键的研究基础与评估标准。

当前挑战

LAV-DF数据集所针对的领域挑战在于，现有深度伪造检测方法多局限于整体视频的二分类判断，难以应对仅局部片段遭篡改且内容语义被恶意扭曲的复杂场景。这类篡改虽规模微小，却能彻底改变原视频含义，对舆论引导与公共安全构成潜在威胁。在数据集构建过程中，研究团队面临多重技术挑战：首先，需设计自动化流程实现语义驱动的篡改内容生成，确保篡改片段在音频与视觉模态间保持自然同步；其次，需克服音视频重演技术中的风格一致性、边界平滑度与分辨率限制等问题，以保障生成数据的真实性与多样性；此外，构建大规模、身份独立且模态平衡的数据划分，亦对数据质量控制与基准评估提出了更高要求。

常用场景

经典使用场景

在多媒体内容安全领域，LAV-DF数据集为研究者提供了探索音视频联合伪造检测与定位的基准平台。该数据集通过内容驱动的策略，在真实视频中嵌入音频、视觉或音视频混合的伪造片段，模拟了现实中通过篡改关键词语以改变语义的深度伪造场景。其经典应用在于训练和评估多模态深度学习模型，如基于边界感知的时序伪造检测方法，以精准识别并定位视频中的篡改区域，推动了伪造检测从二分类任务向细粒度时序定位的范式转变。

实际应用

在实际应用中，LAV-DF数据集为社交媒体平台、新闻验证机构及网络安全部门提供了检测局部深度伪造内容的技术基础。例如，在公共舆论监控中，该数据集训练的模型可识别出名人演讲视频中被篡改的关键词句，防止虚假信息传播。其多模态定位能力还能应用于司法取证，帮助鉴定视听证据中可能存在的局部篡改痕迹，提升数字证据的可信度。这些应用强化了网络空间的内容真实性保障，对抗了日益猖獗的深度伪造滥用行为。

衍生相关工作

LAV-DF数据集催生了一系列围绕多模态伪造定位的创新研究。基于该数据集提出的BA-TFD+方法，融合了多尺度视觉Transformer与对比学习损失，成为时序伪造检测的基准模型。后续工作如AVFusion等进一步探索了音视频特征的跨模态融合策略，而TriDet、ActionFormer等时序动作定位模型也被适配用于伪造片段检测任务。这些衍生研究不仅提升了定位精度，还推动了多模态表示学习与边界感知网络在内容安全领域的交叉应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集