ExDDV

Name: ExDDV
Creator: 罗马尼亚布加勒斯特大学, 西罗马尼亚蒂米什瓦拉大学
Published: 2025-03-19 00:55:07
License: 暂无描述

arXiv2025-03-19 更新2025-03-20 收录

下载链接：

https://github.com/vladhondru25/ExDDV

下载链接

链接失效反馈

官方服务：

资源简介：

ExDDV是一个 Explainable Deepfake Detection in Video 的数据集，由罗马尼亚布加勒斯特大学和西罗马尼亚蒂米什瓦拉大学共同创建。该数据集包含约5.4K个真实和深伪视频，这些视频经过人工标注，带有文本描述和点击标记，以解释和定位视频中的异常。数据集从多个现有数据集中收集视频，以增强多样性。ExDDV官方分为训练集、验证集和测试集，方便结果复现和未来比较，可应用于视频深伪检测的可解释性研究。

ExDDV is a dataset for Explainable Deepfake Detection in Video, co-developed by the University of Bucharest in Romania and West University of Timișoara. This dataset contains approximately 5.4K real and deepfake videos, which are manually annotated with textual descriptions and clickable markers to explain and localize anomalies present in the videos. It aggregates videos from multiple existing datasets to enhance its diversity. Officially, ExDDV is partitioned into training, validation and test subsets to facilitate result reproducibility and cross-study comparisons, and can be applied to explainable research for video deepfake detection.

提供机构：

罗马尼亚布加勒斯特大学, 西罗马尼亚蒂米什瓦拉大学

创建时间：

2025-03-19

搜集汇总

数据集介绍

构建方式

ExDDV数据集的构建过程涉及从多个现有深度伪造检测数据集中收集视频样本，包括DeeperForensics、FaceForensics++、DeepFake Detection Challenge和BioDeepAV。这些视频经过人工标注，添加了文本描述和点击注释，用于解释视频中的伪造痕迹。标注过程通过一个自定义的图形用户界面（GUI）进行，确保标注的一致性和高质量。数据集最终包含约5.4K个视频，分为训练集、验证集和测试集，以促进结果的可重复性和未来比较。

特点

ExDDV数据集的主要特点在于其丰富的标注信息，包括文本描述、点击注释和难度级别。文本描述详细解释了视频中的伪造痕迹，而点击注释则精确定位了这些痕迹的位置。此外，数据集涵盖了多种生成方法和视频分辨率，确保了样本的多样性。这些特点使得ExDDV成为首个为深度伪造视频检测提供解释性标注的数据集，为开发可解释的深度伪造检测模型提供了重要支持。

使用方法

ExDDV数据集的使用方法主要包括训练和评估视觉-语言模型（VLMs），以生成对深度伪造视频的解释。研究人员可以通过微调或上下文学习策略来训练模型，利用数据集中的文本描述和点击注释作为监督信号。实验结果表明，结合文本和点击监督信号能够显著提高模型的解释能力，使其能够准确定位并描述视频中的伪造痕迹。此外，数据集还提供了官方的训练、验证和测试集划分，便于结果的复现和比较。

背景与挑战

背景概述

ExDDV数据集由罗马尼亚布加勒斯特大学和蒂米什瓦拉西部大学的研究团队于2025年推出，旨在解决深度伪造视频检测中的可解释性问题。随着生成式AI技术的快速发展，深度伪造视频的逼真度显著提升，传统检测方法难以应对新型生成模型的挑战。ExDDV包含约5,400个真实与伪造视频，每个视频均通过人工标注了文本描述和点击标记，以解释视频中的伪造痕迹。该数据集的推出填补了深度伪造检测领域缺乏可解释性标注的空白，为开发可解释的深度伪造检测模型提供了重要资源。

当前挑战

ExDDV数据集面临的挑战主要体现在两个方面。首先，深度伪造视频的检测本身具有极高的复杂性，尤其是随着生成模型不断进化，伪造视频的视觉质量与真实视频的差异逐渐缩小，导致检测模型难以准确区分。其次，数据集的构建过程中，人工标注的准确性和一致性是关键挑战。尽管通过多轮标注和一致性验证确保了标注质量，但不同标注者之间的语义差异和点击位置的微小偏差仍可能影响模型的训练效果。此外，如何有效利用文本描述和点击标记来训练可解释的深度伪造检测模型，也是未来研究需要解决的核心问题。

常用场景

经典使用场景

ExDDV数据集在深度伪造检测领域具有广泛的应用，尤其是在视频内容的真实性验证中。该数据集通过提供详细的文本描述和点击标注，帮助研究人员开发能够解释其决策的深度伪造检测模型。这些模型不仅能够识别视频中的伪造内容，还能通过文本和点击标注精确定位伪造的视觉伪影，从而增强模型的可解释性和可信度。

解决学术问题

ExDDV数据集解决了深度伪造检测领域中的两个关键问题：一是现有检测模型缺乏解释性，难以提供决策的依据；二是模型在面对新型生成模型时泛化能力不足。通过提供带有文本和点击标注的视频数据，ExDDV使得研究人员能够训练出既能检测伪造内容又能解释其决策的模型，从而提升模型的鲁棒性和可解释性。

衍生相关工作

ExDDV数据集的发布推动了多个相关研究领域的发展，尤其是在可解释人工智能（XAI）和深度伪造检测的结合方面。基于ExDDV，研究人员开发了多种视觉-语言模型（VLMs），如BLIP-2、Phi-3-Vision和LLaVA-1.5，这些模型通过结合文本和点击标注，显著提升了深度伪造检测的准确性和解释性。此外，ExDDV还激发了更多关于深度伪造检测中伪影定位和描述的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集