VCapAV

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/WailyWang/VCapAV

下载链接

链接失效反馈

官方服务：

资源简介：

VCapAV是一个大型的音频-视觉深度伪造检测数据集，专注于非言语环境声音。它通过文本到音频(TTA)、视频到音频(V2A)和文本到视频(TTV)管道，引入了新的多模态深度伪造场景。数据集包含90,990个视频片段，总时长为252.75小时，支持音频、视觉以及音频-视觉联合的深度伪造检测任务。

创建时间：

2025-11-27

原始信息汇总

VCapAV 数据集概述

数据集基本信息

名称：VCapAV
类型：音频-视觉深度伪造检测数据集
规模：90,990个片段，总计252.75小时
语言：英语（字幕）
许可证：MIT License

核心特征

专注于非语音环境声音
引入多模态深度伪造场景：
- 文本到音频（TTA）
- 视频到音频（V2A）
- 文本到视频（TTV）合成
支持音频单独、视觉单独和音频-视觉联合检测任务

开发背景

开发机构：杜克昆山大学、山梨大学、武汉大学
资助项目：DKU基金会项目"自然语言处理新兴人工智能技术"
数据来源：基于VGGSound子集（15,446个视频）
目标：填补环境声音多模态深度伪造数据空白

主要用途

音频反欺骗研究
音频-视觉深度伪造检测
通用音频生成方法评估
视觉与声音模态一致性研究
多模态同步、场景感知生成和跨模态对齐研究

资源链接

代码仓库：https://github.com/wailywang/VCapAV/
论文链接：https://www.isca-archive.org/interspeech_2025/wang25q_interspeech.html
演示页面：https://vcapav.github.io/

引用格式

bibtex @inproceedings{wang2025vcapav, title={VCapAV: A Video-Caption Based Audio-Visual Deepfake Detection Dataset}, author={Wang, Yuxi and Wang, Yikang and Zhang, Qishan and Nishizaki, Hiromitsu and Li, Ming}, booktitle={Interspeech}, year={2025} }

搜集汇总

数据集介绍

构建方式

在环境音效深度伪造检测领域，VCapAV数据集的构建采用了多模态合成技术。该数据集基于VGGSound的15,446个原始视频，通过文本到音频和视频到音频的生成管道，结合文本到视频合成技术，系统性地创建了包含环境声的伪造样本。构建过程注重音视频模态的一致性验证，最终形成包含90,990个片段、总时长252.75小时的大规模数据集。

特点

作为专注于非语音环境声的深度伪造检测数据集，VCapAV具有鲜明的跨模态特性。其创新性地融合了文本到音频、视频到音频与文本到视频三种生成路径，覆盖了从室内生活场景到户外自然环境的多类声学环境。数据集同时提供音频、视觉和音视频联合三种检测模式，为研究多模态一致性提供了丰富素材。

使用方法

该数据集适用于多模态深度学习模型的训练与验证，研究者可通过音视频同步分析实现环境声伪造检测。具体应用时，可分别采用音频流、视频流或双模态融合输入进行模型训练，特别适合研究跨模态对齐、场景感知生成等前沿课题。数据以标准音视频格式存储，支持端到端的深度学习管道构建。

背景与挑战

背景概述

随着人工智能生成技术的快速发展，多媒体伪造检测已成为信息安全领域的关键研究方向。VCapAV数据集由杜克昆山大学、山梨大学及武汉大学联合构建，并于2025年正式发布，其核心目标在于解决环境声音场景下的多模态深度伪造检测难题。该数据集突破传统语音或人脸伪造数据的局限，聚焦非语音环境声的跨模态一致性分析，通过集成文本生成音频与视频生成音频等新型伪造范式，为音频反欺骗研究提供了252.75小时的多模态基准数据。

当前挑战

在环境声音深度伪造检测领域，模型需应对跨模态语义对齐与时空同步的双重挑战，包括生成音频与真实场景的声学特征差异、视觉动态与声波信号的时序失配等问题。数据集构建过程中，研究团队面临环境声样本多样性不足、多模态数据对齐精度控制等困难，需通过VGGSound视频子集的精细筛选与跨模态生成管线的协同优化来保障数据质量。

常用场景

经典使用场景

在多媒体安全研究领域，VCapAV数据集通过融合文本生成音频与视频生成音频的合成技术，为环境声音的深度伪造检测提供了关键实验平台。该数据集支持音频单模态、视觉单模态及音视频多模态的检测任务，使研究者能够系统评估生成内容在非语音场景下的真实性，尤其在环境声与视觉场景的时序一致性分析中展现出独特价值。

衍生相关工作

基于该数据集衍生的研究已推动多模态伪造检测技术发展。相关经典工作聚焦于跨模态注意力机制设计、场景感知生成模型验证等领域，部分研究进一步扩展了音视频时序对齐算法，为构建更鲁棒的深度伪造检测框架提供了理论范式与方法论参考。

数据集最近研究