five

FRAMES-VQA|视觉问答数据集|模型评估数据集

收藏
arXiv2025-05-28 更新2025-05-30 收录
视觉问答
模型评估
下载链接:
https://github.com/chengyuehuang511/FRAMES-VQA
下载链接
链接失效反馈
资源简介:
FRAMES-VQA是一个用于评估视觉问答系统在多模态数据分布变化下的鲁棒性微调的新基准。该数据集利用了现有的十个VQA基准数据集,包括VQAv2、IV-VQA、VQACP、OK-VQA等,并将它们分类为ID、近和远OOD数据集,涵盖了单模态、多模态和对立分布变化。数据集通过计算使用不同模型提取的单模态和多模态嵌入的Mahalanobis距离来量化分布变化。
提供机构:
乔治亚理工学院
创建时间:
2025-05-28
原始信息汇总

FRAMES-VQA数据集概述

基本信息

  • 数据集名称: FRAMES-VQA
  • 相关论文: "FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering" (CVPR25)
  • 官方实现: 由chengyuehuang511团队提供

研究背景

  • 专注于视觉问答(VQA)领域
  • 研究多模态转换下的微调鲁棒性基准测试

数据特点

  • 多模态数据集(视觉+文本)
  • 用于评估模型在多种模态转换场景下的鲁棒性
AI搜集汇总
数据集介绍
main_image_url
构建方式
FRAMES-VQA数据集通过整合十个现有的视觉问答(VQA)基准数据集构建而成,包括VQAv2、IV-VQA、VQACP、OK-VQA等。这些数据集被系统地分类为同分布(ID)、近分布外(near OOD)和远分布外(far OOD)三类,涵盖了单模态(图像、问题、答案)和多模态(图像与文本联合)的分布偏移。通过计算马氏距离(Mahalanobis distance)来量化不同模态间的分布偏移,该数据集为评估VQA模型在复杂多模态环境下的鲁棒性提供了全面的基准。
特点
FRAMES-VQA数据集的特点在于其多模态分布偏移的多样性和系统性。它不仅包含传统的视觉分布偏移(如IV-VQA和CV-VQA),还涵盖了问题重述(VQA-Rephrasings)、答案模式变化(VQA-CP)以及对抗性样本(AdVQA)等多种偏移类型。此外,数据集还区分了近分布外和远分布外样本,进一步扩展了评估范围。通过提取单模态和多模态嵌入特征,该数据集能够量化不同模态对模型鲁棒性的影响,为研究多模态分布偏移提供了丰富的数据支持。
使用方法
FRAMES-VQA数据集的使用方法包括三个主要步骤:首先,使用VQAv2作为同分布训练集对预训练模型进行微调;其次,在近分布外和远分布外测试集上评估模型的性能;最后,通过计算马氏距离和模态重要性指标(如注意力权重)分析模型在不同分布偏移下的表现。研究人员可以利用该数据集比较不同鲁棒微调方法(如FTP、SPD等)的效果,并探索多模态分布偏移对模型泛化能力的影响。数据集的代码和预训练模型已公开,便于复现和进一步研究。
背景与挑战
背景概述
FRAMES-VQA是由佐治亚理工学院的研究团队于2025年提出的视觉问答(VQA)领域基准数据集,旨在系统评估多模态分布偏移下模型微调的鲁棒性。该研究由Chengyue Huang、Brisa Maneechotesuwan等学者主导,整合了VQAv2、IV-VQA等10个现有VQA数据集,创新性地将分布偏移划分为单模态(视觉/问题/答案)和多模态类型,并引入马氏距离量化模态间偏移程度。该数据集填补了传统评估方法仅关注单模态偏移的空白,为研究视觉-语言联合表征在复杂现实场景中的适应性提供了重要实验平台,对推动跨模态泛化研究具有里程碑意义。
当前挑战
FRAMES-VQA面临的核心挑战体现在两个维度:在领域问题层面,需解决多模态联合偏移带来的模型退化问题,包括视觉域差异(如IV-VQA中的对象移除)、语言域变异(如VQA-Rephrasings的句式重构)以及跨模态对抗样本(如AdVQA)的协同影响;在构建过程中,需克服多源数据集对齐难题,包括样本量不均衡(CV-VQA仅4141样本)、标注标准差异(如OK-VQA需外部知识),以及跨模态偏移的量化问题——研究团队通过设计分层马氏距离度量,首次实现了对视觉-文本联合表征偏移的精确计算。
常用场景
经典使用场景
FRAMES-VQA数据集在视觉问答(VQA)领域中被广泛用于评估模型在多模态分布偏移下的鲁棒性。该数据集整合了十个现有的VQA基准数据集,涵盖了图像、问题、答案以及多模态和对抗性分布偏移,为研究者提供了一个全面的评估平台。通过计算Mahalanobis距离,FRAMES-VQA能够量化不同模态的分布偏移程度,从而帮助研究者深入理解模型在ID(分布内)和OOD(分布外)场景下的表现。
衍生相关工作
FRAMES-VQA数据集衍生了一系列经典工作,包括鲁棒微调方法如FTP和SPD。这些方法在FRAMES-VQA上表现出色,尤其是在处理远OOD数据时。此外,该数据集还启发了对多模态分布偏移的深入研究,例如通过分析模态重要性来优化模型性能。相关研究进一步推动了视觉与语言模型的鲁棒性和泛化能力的提升。
数据集最近研究
最新研究方向
在视觉问答(VQA)领域,多模态分布偏移的鲁棒性研究正成为前沿热点。FRAMES-VQA数据集的提出,填补了现有评估方法在多模态环境下鲁棒性研究的空白。该数据集通过整合十个现有的VQA基准测试,系统性地将分布偏移分类为单模态和多模态类型,并利用马氏距离量化了不同模态间的分布差异。研究揭示了在分布偏移下,问题模态对多模态表示的显著影响,以及鲁棒微调方法在跨模态注意力机制中的关键作用。这些发现不仅为开发更鲁棒的微调方法提供了理论依据,也为应对现实世界中复杂的多模态数据偏移问题指明了方向。
相关研究论文
  • 1
    FRAMES-VQA: Benchmarking Fine-Tuning Robustness across Multi-Modal Shifts in Visual Question Answering乔治亚理工学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录