AV-Deepfake1M

Name: AV-Deepfake1M
Creator: 莫纳什大学
Published: 2023-11-26 22:17:51
License: 暂无描述

arXiv2023-11-26 更新2024-06-21 收录

下载链接：

https://github.com/ControlNet/AV-Deepfake1M

下载链接

链接失效反馈

官方服务：

资源简介：

AV-Deepfake1M是由莫纳什大学等机构创建的大型音频-视觉深度伪造数据集，包含超过114万个视频，涉及2068个独特主题。该数据集通过大型语言模型生成，采用多种音频-视觉内容操纵策略，旨在推动时间深度伪造定位技术的研究。数据集内容包括视频操纵、音频操纵和音频-视觉操纵，适用于开发下一代深度伪造定位方法，以应对高度真实的深度伪造内容检测和定位挑战。

AV-Deepfake1M is a large-scale audio-visual deepfake dataset developed by Monash University and other institutions, which contains over 1.14 million videos covering 2068 unique subjects. Generated using large language models and leveraging multiple audio-visual content manipulation strategies, this dataset aims to advance research on temporal deepfake localization technology. The dataset covers video manipulation, audio manipulation, and audio-visual manipulation scenarios, and is suitable for developing next-generation deepfake localization methods to tackle the challenges of detecting and localizing highly realistic deepfake content.

提供机构：

莫纳什大学

创建时间：

2023-11-26

搜集汇总

数据集介绍

构建方式

AV-Deepfake1M 数据集通过利用大型语言模型（LLM）生成大规模的音频-视觉深度伪造数据集。该数据集包含超过 2000 个主题和 100 万段深度伪造视频，这些视频通过不同的音频-视觉内容操作策略生成。数据集的构建过程包括三个主要阶段：转录本操作、音频生成和视频生成。在转录本操作阶段，使用 ChatGPT 对真实转录本进行修改，通过插入、删除和替换单词来改变其含义。在音频生成阶段，利用 VITS 和 YourTTS 等高质量音频生成方法，根据修改后的转录本生成新的音频。最后，在视频生成阶段，使用 TalkLip 生成与新音频同步的假视频帧，确保口型同步和其他相关属性的平滑过渡。

使用方法

AV-Deepfake1M 数据集主要用于时间深度伪造定位任务。研究人员可以使用该数据集来训练和评估深度伪造检测和定位方法。数据集提供了详细的标签信息，包括帧级、段级和视频级标签，便于不同层次的模型训练和评估。此外，数据集还提供了全面的基准测试协议和评估指标，如平均精度（AP）和平均召回率（AR），以帮助研究人员比较和分析不同方法的性能。数据集和相关代码可在 https://github.com/ControlNet/AV-Deepfake1M 获取。

背景与挑战

背景概述

AV-Deepfake1M是由Monash University、Curtin University和Indian Institute of Technology Ropar的研究人员共同创建的一个大规模音频-视觉深度伪造数据集。该数据集的核心研究问题是如何检测和定位高度逼真的音频-视觉深度伪造内容。AV-Deepfake1M包含超过2000个主题和100万段深度伪造视频，通过利用大型语言模型生成，采用了不同的音频-视觉内容操作策略。该数据集的创建旨在填补现有数据集在处理小型音频-视觉篡改片段方面的不足，推动下一代深度伪造定位方法的发展。

当前挑战

AV-Deepfake1M数据集面临的挑战主要集中在两个方面：一是解决领域问题，即如何有效检测和定位嵌入在真实视频中的小型音频-视觉篡改片段；二是在构建过程中遇到的挑战，包括如何提高生成内容的逼真度和多样性，以及如何确保数据集的规模和质量。此外，数据集的创建还面临着技术实现上的复杂性，如音频和视频生成的高质量要求，以及如何通过大型语言模型实现内容驱动的篡改策略。

常用场景

经典使用场景

AV-Deepfake1M数据集的经典使用场景主要集中在音频-视觉深度伪造检测和定位任务上。该数据集通过大规模的音频-视觉内容操纵策略生成了超过100万条深度伪造视频，涵盖了视频、音频和音频-视觉三种模态的修改。这些数据被广泛用于训练和评估深度伪造检测算法，特别是在需要高精度定位小段篡改内容的场景中。

解决学术问题

AV-Deepfake1M数据集解决了当前深度伪造检测领域中的一个关键学术问题，即如何有效检测和定位嵌入在真实视频中的小段篡改内容。传统的深度伪造检测方法通常假设整个内容（音频、视频或音频-视觉）要么完全真实，要么完全伪造，而AV-Deepfake1M通过引入内容驱动的修改策略，填补了这一研究空白，推动了下一代深度伪造定位方法的发展。

实际应用

在实际应用中，AV-Deepfake1M数据集为开发和验证音频-视觉深度伪造检测系统提供了宝贵的资源。这些系统可以应用于社交媒体监控、新闻验证、法律取证等多个领域，帮助识别和防止虚假信息的传播，保护个人隐私和公共安全。

数据集最近研究