FRAMES-VQA

Name: FRAMES-VQA
Creator: 乔治亚理工学院
Published: 2025-05-28 04:44:44
License: 暂无描述

arXiv2025-05-28 更新2025-05-30 收录

下载链接：

https://github.com/chengyuehuang511/FRAMES-VQA

下载链接

链接失效反馈

官方服务：

资源简介：

FRAMES-VQA是一个用于评估视觉问答系统在多模态数据分布变化下的鲁棒性微调的新基准。该数据集利用了现有的十个VQA基准数据集，包括VQAv2、IV-VQA、VQACP、OK-VQA等，并将它们分类为ID、近和远OOD数据集，涵盖了单模态、多模态和对立分布变化。数据集通过计算使用不同模型提取的单模态和多模态嵌入的Mahalanobis距离来量化分布变化。

FRAMES-VQA is a novel benchmark for evaluating the robust fine-tuning of visual question answering (VQA) systems under distribution shifts in multimodal data. This dataset leverages ten existing VQA benchmark datasets, including VQAv2, IV-VQA, VQACP, OK-VQA, etc., and categorizes them into in-distribution (ID), near out-of-distribution (OOD) and far OOD datasets, covering unimodal, multimodal and adversarial distribution shifts. The dataset quantifies distribution shifts by calculating the Mahalanobis distances between unimodal and multimodal embeddings extracted using different models.

提供机构：

乔治亚理工学院

创建时间：

2025-05-28

原始信息汇总

FRAMES-VQA数据集概述

基本信息

数据集名称: FRAMES-VQA
相关论文: "FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering" (CVPR25)
官方实现: 由chengyuehuang511团队提供

研究背景

专注于视觉问答(VQA)领域
研究多模态转换下的微调鲁棒性基准测试

数据特点

多模态数据集(视觉+文本)
用于评估模型在多种模态转换场景下的鲁棒性

搜集汇总

数据集介绍

构建方式

FRAMES-VQA数据集通过整合十个现有的视觉问答（VQA）基准数据集构建而成，包括VQAv2、IV-VQA、VQACP、OK-VQA等。这些数据集被系统地分类为同分布（ID）、近分布外（near OOD）和远分布外（far OOD）三类，涵盖了单模态（图像、问题、答案）和多模态（图像与文本联合）的分布偏移。通过计算马氏距离（Mahalanobis distance）来量化不同模态间的分布偏移，该数据集为评估VQA模型在复杂多模态环境下的鲁棒性提供了全面的基准。

特点

FRAMES-VQA数据集的特点在于其多模态分布偏移的多样性和系统性。它不仅包含传统的视觉分布偏移（如IV-VQA和CV-VQA），还涵盖了问题重述（VQA-Rephrasings）、答案模式变化（VQA-CP）以及对抗性样本（AdVQA）等多种偏移类型。此外，数据集还区分了近分布外和远分布外样本，进一步扩展了评估范围。通过提取单模态和多模态嵌入特征，该数据集能够量化不同模态对模型鲁棒性的影响，为研究多模态分布偏移提供了丰富的数据支持。

使用方法

FRAMES-VQA数据集的使用方法包括三个主要步骤：首先，使用VQAv2作为同分布训练集对预训练模型进行微调；其次，在近分布外和远分布外测试集上评估模型的性能；最后，通过计算马氏距离和模态重要性指标（如注意力权重）分析模型在不同分布偏移下的表现。研究人员可以利用该数据集比较不同鲁棒微调方法（如FTP、SPD等）的效果，并探索多模态分布偏移对模型泛化能力的影响。数据集的代码和预训练模型已公开，便于复现和进一步研究。

背景与挑战

背景概述

FRAMES-VQA是由佐治亚理工学院的研究团队于2025年提出的视觉问答（VQA）领域基准数据集，旨在系统评估多模态分布偏移下模型微调的鲁棒性。该研究由Chengyue Huang、Brisa Maneechotesuwan等学者主导，整合了VQAv2、IV-VQA等10个现有VQA数据集，创新性地将分布偏移划分为单模态（视觉/问题/答案）和多模态类型，并引入马氏距离量化模态间偏移程度。该数据集填补了传统评估方法仅关注单模态偏移的空白，为研究视觉-语言联合表征在复杂现实场景中的适应性提供了重要实验平台，对推动跨模态泛化研究具有里程碑意义。

当前挑战

FRAMES-VQA面临的核心挑战体现在两个维度：在领域问题层面，需解决多模态联合偏移带来的模型退化问题，包括视觉域差异（如IV-VQA中的对象移除）、语言域变异（如VQA-Rephrasings的句式重构）以及跨模态对抗样本（如AdVQA）的协同影响；在构建过程中，需克服多源数据集对齐难题，包括样本量不均衡（CV-VQA仅4141样本）、标注标准差异（如OK-VQA需外部知识），以及跨模态偏移的量化问题——研究团队通过设计分层马氏距离度量，首次实现了对视觉-文本联合表征偏移的精确计算。

常用场景

经典使用场景

FRAMES-VQA数据集在视觉问答（VQA）领域中被广泛用于评估模型在多模态分布偏移下的鲁棒性。该数据集整合了十个现有的VQA基准数据集，涵盖了图像、问题、答案以及多模态和对抗性分布偏移，为研究者提供了一个全面的评估平台。通过计算Mahalanobis距离，FRAMES-VQA能够量化不同模态的分布偏移程度，从而帮助研究者深入理解模型在ID（分布内）和OOD（分布外）场景下的表现。

衍生相关工作

FRAMES-VQA数据集衍生了一系列经典工作，包括鲁棒微调方法如FTP和SPD。这些方法在FRAMES-VQA上表现出色，尤其是在处理远OOD数据时。此外，该数据集还启发了对多模态分布偏移的深入研究，例如通过分析模态重要性来优化模型性能。相关研究进一步推动了视觉与语言模型的鲁棒性和泛化能力的提升。

数据集最近研究