five

VCapAV

收藏
Hugging Face2025-11-28 更新2025-11-29 收录
下载链接:
https://huggingface.co/datasets/WailyWang/VCapAV
下载链接
链接失效反馈
官方服务:
资源简介:
VCapAV是一个大型的音频-视觉深度伪造检测数据集,专注于非言语环境声音。它通过文本到音频(TTA)、视频到音频(V2A)和文本到视频(TTV)管道,引入了新的多模态深度伪造场景。数据集包含90,990个视频片段,总时长为252.75小时,支持音频、视觉以及音频-视觉联合的深度伪造检测任务。
创建时间:
2025-11-27
原始信息汇总

VCapAV 数据集概述

数据集基本信息

  • 名称:VCapAV
  • 类型:音频-视觉深度伪造检测数据集
  • 规模:90,990个片段,总计252.75小时
  • 语言:英语(字幕)
  • 许可证:MIT License

核心特征

  • 专注于非语音环境声音
  • 引入多模态深度伪造场景:
    • 文本到音频(TTA)
    • 视频到音频(V2A)
    • 文本到视频(TTV)合成
  • 支持音频单独、视觉单独和音频-视觉联合检测任务

开发背景

  • 开发机构:杜克昆山大学、山梨大学、武汉大学
  • 资助项目:DKU基金会项目"自然语言处理新兴人工智能技术"
  • 数据来源:基于VGGSound子集(15,446个视频)
  • 目标:填补环境声音多模态深度伪造数据空白

主要用途

  • 音频反欺骗研究
  • 音频-视觉深度伪造检测
  • 通用音频生成方法评估
  • 视觉与声音模态一致性研究
  • 多模态同步、场景感知生成和跨模态对齐研究

资源链接

  • 代码仓库:https://github.com/wailywang/VCapAV/
  • 论文链接:https://www.isca-archive.org/interspeech_2025/wang25q_interspeech.html
  • 演示页面:https://vcapav.github.io/

引用格式

bibtex @inproceedings{wang2025vcapav, title={VCapAV: A Video-Caption Based Audio-Visual Deepfake Detection Dataset}, author={Wang, Yuxi and Wang, Yikang and Zhang, Qishan and Nishizaki, Hiromitsu and Li, Ming}, booktitle={Interspeech}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在环境音效深度伪造检测领域,VCapAV数据集的构建采用了多模态合成技术。该数据集基于VGGSound的15,446个原始视频,通过文本到音频和视频到音频的生成管道,结合文本到视频合成技术,系统性地创建了包含环境声的伪造样本。构建过程注重音视频模态的一致性验证,最终形成包含90,990个片段、总时长252.75小时的大规模数据集。
特点
作为专注于非语音环境声的深度伪造检测数据集,VCapAV具有鲜明的跨模态特性。其创新性地融合了文本到音频、视频到音频与文本到视频三种生成路径,覆盖了从室内生活场景到户外自然环境的多类声学环境。数据集同时提供音频、视觉和音视频联合三种检测模式,为研究多模态一致性提供了丰富素材。
使用方法
该数据集适用于多模态深度学习模型的训练与验证,研究者可通过音视频同步分析实现环境声伪造检测。具体应用时,可分别采用音频流、视频流或双模态融合输入进行模型训练,特别适合研究跨模态对齐、场景感知生成等前沿课题。数据以标准音视频格式存储,支持端到端的深度学习管道构建。
背景与挑战
背景概述
随着人工智能生成技术的快速发展,多媒体伪造检测已成为信息安全领域的关键研究方向。VCapAV数据集由杜克昆山大学、山梨大学及武汉大学联合构建,并于2025年正式发布,其核心目标在于解决环境声音场景下的多模态深度伪造检测难题。该数据集突破传统语音或人脸伪造数据的局限,聚焦非语音环境声的跨模态一致性分析,通过集成文本生成音频与视频生成音频等新型伪造范式,为音频反欺骗研究提供了252.75小时的多模态基准数据。
当前挑战
在环境声音深度伪造检测领域,模型需应对跨模态语义对齐与时空同步的双重挑战,包括生成音频与真实场景的声学特征差异、视觉动态与声波信号的时序失配等问题。数据集构建过程中,研究团队面临环境声样本多样性不足、多模态数据对齐精度控制等困难,需通过VGGSound视频子集的精细筛选与跨模态生成管线的协同优化来保障数据质量。
常用场景
经典使用场景
在多媒体安全研究领域,VCapAV数据集通过融合文本生成音频与视频生成音频的合成技术,为环境声音的深度伪造检测提供了关键实验平台。该数据集支持音频单模态、视觉单模态及音视频多模态的检测任务,使研究者能够系统评估生成内容在非语音场景下的真实性,尤其在环境声与视觉场景的时序一致性分析中展现出独特价值。
衍生相关工作
基于该数据集衍生的研究已推动多模态伪造检测技术发展。相关经典工作聚焦于跨模态注意力机制设计、场景感知生成模型验证等领域,部分研究进一步扩展了音视频时序对齐算法,为构建更鲁棒的深度伪造检测框架提供了理论范式与方法论参考。
数据集最近研究
最新研究方向
随着人工智能生成内容的迅猛发展,VCapAV数据集在环境音频深度伪造检测领域开辟了新的研究路径。该数据集聚焦非语音环境声音,通过整合文本到音频与视频到音频的生成技术,推动多模态伪造检测的前沿探索。当前研究重点集中于跨模态一致性分析、场景感知生成验证以及音视频同步机制,为应对日益复杂的深度伪造威胁提供了关键实验平台。其在环境声学安全领域的应用,正逐步重塑多媒体内容鉴定的技术范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作