AV-Deepfake1M
收藏arXiv2023-11-26 更新2024-06-21 收录
下载链接:
https://github.com/ControlNet/AV-Deepfake1M
下载链接
链接失效反馈官方服务:
资源简介:
AV-Deepfake1M是由莫纳什大学等机构创建的大型音频-视觉深度伪造数据集,包含超过114万个视频,涉及2068个独特主题。该数据集通过大型语言模型生成,采用多种音频-视觉内容操纵策略,旨在推动时间深度伪造定位技术的研究。数据集内容包括视频操纵、音频操纵和音频-视觉操纵,适用于开发下一代深度伪造定位方法,以应对高度真实的深度伪造内容检测和定位挑战。
AV-Deepfake1M is a large-scale audio-visual deepfake dataset developed by Monash University and other institutions, which contains over 1.14 million videos covering 2068 unique subjects. Generated using large language models and leveraging multiple audio-visual content manipulation strategies, this dataset aims to advance research on temporal deepfake localization technology. The dataset covers video manipulation, audio manipulation, and audio-visual manipulation scenarios, and is suitable for developing next-generation deepfake localization methods to tackle the challenges of detecting and localizing highly realistic deepfake content.
提供机构:
莫纳什大学
创建时间:
2023-11-26
搜集汇总
数据集介绍

构建方式
AV-Deepfake1M 数据集通过利用大型语言模型(LLM)生成大规模的音频-视觉深度伪造数据集。该数据集包含超过 2000 个主题和 100 万段深度伪造视频,这些视频通过不同的音频-视觉内容操作策略生成。数据集的构建过程包括三个主要阶段:转录本操作、音频生成和视频生成。在转录本操作阶段,使用 ChatGPT 对真实转录本进行修改,通过插入、删除和替换单词来改变其含义。在音频生成阶段,利用 VITS 和 YourTTS 等高质量音频生成方法,根据修改后的转录本生成新的音频。最后,在视频生成阶段,使用 TalkLip 生成与新音频同步的假视频帧,确保口型同步和其他相关属性的平滑过渡。
使用方法
AV-Deepfake1M 数据集主要用于时间深度伪造定位任务。研究人员可以使用该数据集来训练和评估深度伪造检测和定位方法。数据集提供了详细的标签信息,包括帧级、段级和视频级标签,便于不同层次的模型训练和评估。此外,数据集还提供了全面的基准测试协议和评估指标,如平均精度(AP)和平均召回率(AR),以帮助研究人员比较和分析不同方法的性能。数据集和相关代码可在 https://github.com/ControlNet/AV-Deepfake1M 获取。
背景与挑战
背景概述
AV-Deepfake1M是由Monash University、Curtin University和Indian Institute of Technology Ropar的研究人员共同创建的一个大规模音频-视觉深度伪造数据集。该数据集的核心研究问题是如何检测和定位高度逼真的音频-视觉深度伪造内容。AV-Deepfake1M包含超过2000个主题和100万段深度伪造视频,通过利用大型语言模型生成,采用了不同的音频-视觉内容操作策略。该数据集的创建旨在填补现有数据集在处理小型音频-视觉篡改片段方面的不足,推动下一代深度伪造定位方法的发展。
当前挑战
AV-Deepfake1M数据集面临的挑战主要集中在两个方面:一是解决领域问题,即如何有效检测和定位嵌入在真实视频中的小型音频-视觉篡改片段;二是在构建过程中遇到的挑战,包括如何提高生成内容的逼真度和多样性,以及如何确保数据集的规模和质量。此外,数据集的创建还面临着技术实现上的复杂性,如音频和视频生成的高质量要求,以及如何通过大型语言模型实现内容驱动的篡改策略。
常用场景
经典使用场景
AV-Deepfake1M数据集的经典使用场景主要集中在音频-视觉深度伪造检测和定位任务上。该数据集通过大规模的音频-视觉内容操纵策略生成了超过100万条深度伪造视频,涵盖了视频、音频和音频-视觉三种模态的修改。这些数据被广泛用于训练和评估深度伪造检测算法,特别是在需要高精度定位小段篡改内容的场景中。
解决学术问题
AV-Deepfake1M数据集解决了当前深度伪造检测领域中的一个关键学术问题,即如何有效检测和定位嵌入在真实视频中的小段篡改内容。传统的深度伪造检测方法通常假设整个内容(音频、视频或音频-视觉)要么完全真实,要么完全伪造,而AV-Deepfake1M通过引入内容驱动的修改策略,填补了这一研究空白,推动了下一代深度伪造定位方法的发展。
实际应用
在实际应用中,AV-Deepfake1M数据集为开发和验证音频-视觉深度伪造检测系统提供了宝贵的资源。这些系统可以应用于社交媒体监控、新闻验证、法律取证等多个领域,帮助识别和防止虚假信息的传播,保护个人隐私和公共安全。
数据集最近研究
最新研究方向
在音频-视觉深度伪造检测领域,AV-Deepfake1M数据集的最新研究方向主要集中在提高深度伪造内容的检测和定位精度。该数据集通过大规模语言模型驱动,生成了包含超过2000个主体和100万条深度伪造视频的庞大数据集,涵盖了视频、音频和音视频的多模态操作。前沿研究致力于开发能够准确识别和定位这些高度逼真伪造内容的方法,特别是在真实视频中嵌入的小段伪造内容。相关研究不仅关注于提升检测算法的性能,还强调了数据集在推动下一代深度伪造定位技术发展中的关键作用。
相关研究论文
- 1AV-Deepfake1M: A Large-Scale LLM-Driven Audio-Visual Deepfake Dataset莫纳什大学 · 2023年
以上内容由遇见数据集搜集并总结生成



