DAVE
收藏arXiv2025-03-12 更新2025-03-14 收录
下载链接:
https://github.com/gorjanradevski/dave
下载链接
链接失效反馈官方服务:
资源简介:
DAVE(Diagnostic Audio Visual Evaluation)是一个新颖的基准数据集,由KU Leuven的ESAT-PSI研究机构创建,旨在系统地评估音频视觉模型的性能。该数据集包含2426个样本,通过半自动数据生成方法,利用Epic Kitchens和Ego4D两个数据集生成多选问题和答案。DAVE特别设计的问题需要同时利用音频和视觉模态的信息,以确保单一模态无法正确回答问题。数据集覆盖了多种日常活动和声音事件,通过精确控制视觉动作与合成音频事件的时间对齐,以严格评估音频视觉集成能力。
DAVE (Diagnostic Audio Visual Evaluation) is a novel benchmark dataset developed by the ESAT-PSI research group at KU Leuven, designed to systematically evaluate the performance of audio-visual models. It contains 2426 samples generated via a semi-automatic data generation pipeline that leverages the Epic Kitchens and Ego4D datasets to create multiple-choice questions and their corresponding answers. The bespoke questions tailored for DAVE require joint utilization of both audio and visual modalities, ensuring that no single modality can correctly answer the questions. The dataset covers a wide range of daily activities and sound events, with precise temporal alignment between visual actions and synthesized audio events to enable rigorous assessment of audio-visual integration capabilities.
提供机构:
KU Leuven
创建时间:
2025-03-12
搜集汇总
数据集介绍

构建方式
DAVE数据集的构建基于两个大规模的(自我中心)视频理解数据集:Epic Kitchens和Ego4D。这两个数据集提供了丰富的自然人类动作和详细的时序标注,为音频视觉对齐任务提供了理想的基石。为了确保音频事件与Epic Kitchens和Ego4D中的事件无关,研究人员使用了ESC50数据集,其中包含了2,000个环境声音记录,跨越50个类别。DAVE通过半自动数据生成范式,利用这些数据集生成了多选题和答案。每个事件组包含四个连续的事件,形成一个连贯的活动序列。研究人员通过在事件组中随机选择超过最小持续时间的音频事件,并使用精确的音频处理技术来创建自然过渡,从而确保了视觉动作和合成音频事件之间的时间对齐。
特点
DAVE数据集的主要特点在于它要求模型同时从音频和视觉模态获取信息来正确回答问题,确保了任何一个模态单独都不足以回答问题。此外,DAVE将音频视觉推理分解为三个不同的子任务,包括多模态同步、声音缺失检测和声音识别。这种分解方法使得对模型的评估更加精细,能够更准确地识别模型在多模态推理方面的优势和劣势。DAVE的数据生成过程采用了两阶段的过滤流程,以确保样本的高质量和多样性,并减少可能导致性能分析混淆的歧义。
使用方法
使用DAVE数据集时,研究人员首先定义了一个事件,即一个包含叙述动作的时序定位片段。然后,他们将事件组织成事件组,并对这些事件组进行视频处理和音频叠加,以确保视觉动作和听觉提示之间的时间对齐。为了确保样本的高质量,他们还实施了两阶段的过滤流程,包括叙述增强和相似性过滤,以及视觉质量验证。最后,他们设计了三种不同类型的题目来评估模型的多模态同步、声音缺失检测和声音识别能力。这些题目采用多选题的形式,要求模型在多个选项中选择一个正确的答案。
背景与挑战
背景概述
随着人工智能领域的快速发展,音频-视觉理解已成为一个关键的研究方向。DAVE(Diagnostic Audio Visual Evaluation)数据集由Gorjan Radevski、Teodora Popordanoska、Matthew B. Blaschko和Tinne Tuytelaars等研究人员于2025年创建,旨在解决现有音频-视觉数据集存在的视觉偏差问题。DAVE数据集通过确保回答问题需要同时依赖音频和视觉信息,以及将评估分解为原子子类别,克服了现有数据集的局限性。该数据集的引入为音频-视觉模型评估提供了标准化框架,有助于推动音频-视觉模型更稳健的发展。
当前挑战
DAVE数据集所解决的领域问题是音频-视觉同步和真正的多模态推理。构建过程中遇到的挑战包括:1) 确保每个问题都需要同时依赖音频和视觉信息,以避免单一模态的偏差;2) 将音频-视觉推理分解为原子子类别,以便更精细地分析模型性能;3) 通过半自动数据生成方法生成多选题和答案,确保数据质量和多样性。
常用场景
经典使用场景
在音频-视觉理解领域,DAVE数据集被广泛应用于评估和训练音频-视觉模型的同步和真正的多模态推理能力。其独特的多选题设计,确保了模型必须同时从听觉和视觉模态中获取信息才能正确回答问题,从而避免了单模态推理的偏差。DAVE数据集包含多种类型的音频-视觉推理挑战,如多模态同步、声音缺失检测和声音辨别等,使得模型在处理复杂的多模态信息时能够得到全面的评估。
解决学术问题
DAVE数据集解决了现有音频-视觉基准测试中的视觉偏差问题。现有的基准测试往往存在视觉偏差,即答案可以从视觉数据本身推断出来,这导致性能指标的有效性受到质疑。DAVE通过确保每个问题都需要来自两个模态的信息,从而避免了这种偏差。此外,DAVE将音频-视觉推理分解为基本的子任务,使得模型性能的评估更加细致,有助于发现模型的弱点并针对性地进行改进。
衍生相关工作
DAVE数据集的引入,推动了音频-视觉模型在多模态学习领域的发展。基于DAVE的数据集,研究者们可以更加深入地理解音频-视觉同步和真正的多模态推理的挑战和机遇。此外,DAVE的引入也促进了相关模型架构和训练策略的研究,如Gemini、PandaGPT和Video-LLaMA-2等,这些模型在DAVE数据集上的表现揭示了它们在多模态理解方面的优势和局限性,为未来的模型开发提供了宝贵的经验和启示。
以上内容由遇见数据集搜集并总结生成



