FortisAVQA

Name: FortisAVQA
Creator: 西安交通大学
Published: 2025-04-02 17:19:00
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://github.com/reml-group/fortisavqa

下载链接

链接失效反馈

官方服务：

资源简介：

FortisAVQA是一个专为评估音频视觉问答模型鲁棒性而设计的数据集。该数据集通过两个阶段构建：首先，对MUSIC-AVQA公开数据集的测试部分问题进行重写，以增强多样性；其次，引入基于答案分布的问题分布偏移，以实现精细的鲁棒性评估。该数据集保留了MUSIC-AVQA训练和验证集的固有偏置，并对测试集问题进行人工重写，以提供多样化和自然的问题形式。数据集的问题数量从9129增加到211572，词汇量也从93增加到465，更好地反映现实世界的语言变异性。FortisAVQA旨在诊断和改进音频视觉问答模型的鲁棒性，特别是在处理分布内和分布外样本时的表现。

FortisAVQA is a dataset specifically designed to evaluate the robustness of audio-visual question answering (AVQA) models. It is constructed through two stages: first, rewriting the test split questions from the publicly released MUSIC-AVQA dataset to enhance diversity; second, introducing question distribution shifts based on answer distributions to enable fine-grained robustness evaluation. This dataset retains the inherent biases of the training and validation splits of the original MUSIC-AVQA dataset, and manually rewrites the test split questions to provide diverse and natural question formats. The number of questions in the dataset has increased from 9129 to 211572, and the vocabulary size has also grown from 93 to 465, which better reflects real-world linguistic variability. FortisAVQA aims to diagnose and improve the robustness of audio-visual question answering models, particularly their performance when handling in-distribution and out-of-distribution samples.

提供机构：

西安交通大学

创建时间：

2025-04-01

搜集汇总

数据集介绍

构建方式

FortisAVQA数据集的构建采用两阶段策略，首先对公开数据集MUSIC-AVQA的测试集问题进行语义重构，通过人机协同机制生成多样化自然语言表达，将问题数量从9,129扩展至211,572；其次基于问题类型的答案分布引入分布偏移，将问题划分为高频（头部）和低频（尾部）子集，实现模型在分布内与分布外场景下的鲁棒性评估。这一过程保留了原始训练集和验证集的固有偏差，通过熵值归一化（¯H(A) = H(A)/log(N)）筛选不平衡问题组，并采用类共形预测的动态优化方法自动划分头尾边界。

使用方法

使用FortisAVQA需遵循多模态联合推理范式：1）输入处理阶段，将视频分割为1秒间隔的视听片段，分别通过InternViT-300M视觉编码器和Mel滤波器组+Transformer的音频编码器提取特征；2）模型训练阶段，采用MAVEN框架的多模态认知网络，通过四种指令提示（整体融合/单模态偏置学习）实现跨模态表征对齐；3）评估阶段，需同步报告Head（μ(a)=1.2×平均样本量）、Tail及Overall准确率。针对大模型可选用1%采样子集（2,123条）降低计算开销，小模型建议使用全量测试集。

背景与挑战

背景概述

FortisAVQA是由西安交通大学马杰教授团队于2025年提出的新型多模态问答基准数据集，旨在解决现有音频-视觉问答（AVQA）系统中存在的模型过拟合和鲁棒性不足问题。作为MUSIC-AVQA数据集的扩展版本，该数据集通过两阶段构建策略：首先对原始测试集的9,129个问题进行语义重构，生成21万余个表达形式更自然的问句；其次引入基于问题类型的分布偏移机制，将问题划分为高频（头部）和低频（尾部）子集。这种创新设计使得FortisAVQA能同时评估模型在分布内和分布外场景下的推理能力，为多模态大模型的鲁棒性评估提供了首个专门化的测试平台。数据集通过人类-机器协作的验证机制确保语义一致性，其词汇量达到465个，是原数据集的5倍，更贴近真实场景的语言多样性。

当前挑战

FortisAVQA主要应对两大核心挑战：在领域问题层面，现有AVQA系统容易学习到问题关键词与答案间的统计规律（如'Is-Playing-Yes'的虚假关联），导致在罕见问题组合上表现骤降。实验显示某些模型仅凭问题文本就能达到54%准确率，暴露出多模态融合的失效。在构建过程层面，数据集需平衡模板化问题重构的自然性与语义忠实度，为此采用三人投票机制确保92.4%的重构通过率（Fleiss Kappa=0.839）。分布偏移的量化引入则面临覆盖度与紧凑性的权衡，研究者创新性地采用基于信息熵的类平衡度量（标准化熵阈值0.9）和受保形预测启发的动态优化算法，实现头部/尾部问题的自适应划分。

常用场景

经典使用场景

FortisAVQA数据集在音频-视觉问答（AVQA）领域中被广泛用于评估和提升多模态推理模型的鲁棒性。通过重新表述问题和引入分布偏移，该数据集能够有效模拟真实场景中的多样性和复杂性，为研究者提供了一个全面的测试平台。经典使用场景包括模型在分布内和分布外问题上的性能评估，以及针对不同问题类型（如存在性、位置、计数等）的细粒度分析。

解决学术问题

FortisAVQA数据集解决了现有AVQA方法在数据集偏差和鲁棒性评估方面的关键问题。通过扩展测试集的多样性和引入分布偏移，该数据集能够更准确地诊断模型对统计规律的依赖程度，从而推动无偏多模态推理模型的发展。其意义在于为学术界提供了一个标准化的评估框架，促进了模型在复杂真实场景中的泛化能力研究。

实际应用

在实际应用中，FortisAVQA数据集可服务于智能教育、多媒体内容理解和人机交互系统。例如，在智能教育领域，基于该数据集训练的模型能够准确回答学生对教学视频的多样化提问；在视频平台中，可辅助生成精准的音频-视觉内容摘要。其分布偏移设计尤其适用于需应对长尾问题的工业场景。

数据集最近研究