MAVOS-DD

Hugging Face2025-05-19 更新2025-05-20 收录

下载链接：

https://huggingface.co/datasets/unibuc-cs/MAVOS-DD

下载链接

链接失效反馈

官方服务：

资源简介：

MAVOS-DD是一个多语言音视频深度伪造检测的开集基准数据集。它包含了多种语言的视频样本，用于训练、验证以及开集模型和开集语言的测试。数据集遵循知识共享署名-非商业性使用-相同方式共享4.0国际许可证发布。

MAVOS-DD is an open-set benchmark dataset for multilingual audio-visual deepfake detection. It includes video samples in multiple languages, which are utilized for training, validation, and testing of open-set models as well as testing across open-set languages. This dataset is released under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

创建时间：

2025-05-08

原始信息汇总

MAVOS-DD 数据集概述

基本信息

语言: 阿拉伯语 (ar)、罗马尼亚语 (ro)、英语 (en)、德语 (de)、印地语 (hi)、西班牙语 (es)、俄语 (ru)
任务类别: 视频分类 (video-classification)
许可证: CC BY-NC-SA 4.0

数据集内容

用途: 多语言音频-视频深度伪造检测的开集基准测试
子集:
- 训练集 (train)
- 验证集 (validation)
- 开集模型 (open-set model)
- 开集语言 (open-set language)
- 开集完整 (open-set full)

数据获取与处理

代码示例: 提供Python代码示例用于加载和过滤数据集子集
依赖库: 需安装datasets包 (pip install datasets)
脚本:
- metadata_generation.py: 生成元数据
- dataset.py: 读取和过滤元数据

元数据示例

python Sample: { video_path: arabic/inswapper/02690.png_Po82BhllEjA_340_1.mp4.mp4, label: fake, split: train, open_set_model: False, open_set_language: False, language: arabic, generative_method: inswapper }

注意事项

数据来源: 公开的YouTube视频
内容移除: 如涉及个人内容需移除，请联系 alincroitoru97@gmail.com

引用

bash @misc{Croitoru-ArXiv-2025, title={MAVOS-DD: Multilingual Audio-Video Open-Set Deepfake Detection Benchmark}, author={Florinel-Alin Croitoru and Vlad Hondru and Marius Popescu and Radu Tudor Ionescu and Fahad Shahbaz Khan and Mubarak Shah}, year={2025}, eprint={2505.11109}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2505.11109}, }

搜集汇总

数据集介绍

构建方式

在多媒体伪造检测领域，MAVOS-DD数据集通过系统化采集公开YouTube视频构建而成，涵盖阿拉伯语、罗马尼亚语、英语、德语、印地语、西班牙语及俄语等多种语言资源。其构建过程采用严谨的元数据生成机制，为每个样本标注视频路径、真伪标签、数据划分及生成方法等关键属性，并通过动态过滤策略区分训练集、验证集及多种开放集测试场景，确保了数据来源的多样性与结构规范性。

特点

该数据集的核心特点在于其多模态与开放集设计的深度融合，不仅整合了音频与视频双通道信息，还创新性地引入了生成模型与语言类型两类开放集评估维度。其多语言覆盖范围广泛，囊括七种差异显著的语种，且通过精细的元数据标注明确标识生成方法与语言归属，为研究跨语言与跨模型的深度伪造泛化能力提供了高度结构化的实验基础。

使用方法

研究者可借助HuggingFace的datasets库直接加载并操作该数据集，利用内置的过滤函数灵活提取训练、验证或特定开放集子集。通过解析元数据中的split、open_set_model及open_set_language等字段，用户能够快速构建定制化评估任务，或结合提供的基线代码复现多模态检测实验，从而系统验证模型在复杂伪造场景下的鲁棒性与适应性。

背景与挑战

背景概述

随着深度伪造技术的快速发展，多媒体内容真实性验证成为数字安全领域的关键议题。MAVOS-DD数据集由Florinel-Alin Croitoru等研究人员于2025年构建，作为首个专注于多语言音视频深度伪造检测的开集基准，该数据集涵盖阿拉伯语、罗马尼亚语、英语等七种语言，通过整合公开YouTube视频资源，为跨模态伪造内容识别研究提供了标准化评估框架。其创新性开集设计显著推动了多媒体取证技术在多语言场景下的适用性，对维护数字社会信息完整性具有重要价值。

当前挑战

多语言深度伪造检测面临模型泛化能力不足的核心难题，需同时应对未知生成算法与跨语言分布差异的双重挑战。在数据集构建过程中，研究人员需克服多源视频数据采集的复杂性，包括不同语言文化背景下的内容合规性审查，以及音视频模态对齐的技术障碍。此外，开集场景要求检测模型具备对未见伪造方法的识别能力，这进一步增加了标注策略设计与评估标准制定的难度。

常用场景

经典使用场景

在多媒体安全研究领域，MAVOS-DD数据集作为多语言音视频深度伪造检测的基准工具，其经典应用场景聚焦于评估模型在跨语言环境下的泛化能力。该数据集通过整合阿拉伯语、罗马尼亚语、英语等七种语言的真实与伪造视频，为研究者提供了模拟现实世界多语言欺诈场景的试验平台。在典型实验设置中，研究人员利用其划分的训练集、验证集及开放集子集，系统性地测试检测模型对未知伪造生成方法和陌生语言的识别鲁棒性，尤其擅长揭示模型在面临新兴伪造技术时的性能边界。

衍生相关工作

基于该数据集衍生的经典研究呈现出多维度拓展态势。在模型架构层面，Croitoru等人开发的基准检测系统开创了多模态特征融合的新范式，后续研究则进一步探索了图神经网络在跨语言伪造模式挖掘中的应用。评估方法论方面，研究者受其开放集设计启发，提出了动态阈值调整算法以应对持续演进的伪造技术。此外，该数据集还催生了跨语种迁移学习的研究分支，诸多工作通过分析其多语言子集间的特征共享机制，推动了轻量级检测模型在资源受限场景的落地。

数据集最近研究