I-ScienceQA
收藏arXiv2025-02-14 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.09818v1
下载链接
链接失效反馈官方服务:
资源简介:
I-ScienceQA是一个基于ScienceQA数据集构建的全新基准,由爱荷华州立大学等机构的研究人员开发。该数据集引入了视觉和文本干扰,旨在评估视觉语言模型在真实场景中的鲁棒性。数据集包含8100个样本,涵盖了四种干扰场景,数据来源包括稳定扩散模型、GPT-3.5等,旨在为评估视觉语言模型对干扰的鲁棒性提供全面的基准。
I-ScienceQA is a novel benchmark constructed based on the ScienceQA dataset, developed by researchers from institutions including Iowa State University. This dataset introduces visual and textual distractions, aiming to evaluate the robustness of vision-language models in real-world scenarios. It contains 8,100 samples covering four distraction scenarios, with data sources including Stable Diffusion, GPT-3.5 and other models, and is designed to provide a comprehensive benchmark for assessing the robustness of vision-language models against distractions.
提供机构:
爱荷华州立大学, 卡内基梅隆大学, 威廉与玛丽学院, 爱荷华州立大学
创建时间:
2025-02-14
搜集汇总
数据集介绍

构建方式
I-ScienceQA数据集是在ScienceQA数据集的基础上构建的,旨在评估视觉语言模型(VLMs)在科学问答场景下对视觉和文本干扰的鲁棒性。该数据集通过引入不同类型的干扰,模拟真实世界中的噪声和无关信息,以此来测试VLMs在干扰情况下的推理能力。为了构建这个数据集,研究者使用了GPT-3.5-turbo生成文本干扰,以及稳定扩散模型生成视觉干扰,包括中性背景、通用景观、抽象艺术和日常物品等。数据集包含了8,100个样本,分为四种干扰场景:添加图像、插入图像、添加提示和插入提示。
特点
I-ScienceQA数据集的特点在于它系统地引入了多种类型的视觉和文本干扰,以评估VLMs在不同模态下的鲁棒性。该数据集涵盖了从简单到复杂的干扰情况,包括无关的视觉背景和误导性的文本信息。此外,数据集还包含了不同大小的模型,从1B到34B参数,以研究模型规模对鲁棒性的影响。I-ScienceQA数据集的构建旨在提供一种评估VLMs在现实世界应用中面对干扰时的性能的方法,从而帮助改进模型设计和训练方法。
使用方法
使用I-ScienceQA数据集的方法包括以下几个方面:首先,数据集可以用于评估VLMs在不同干扰场景下的性能,包括添加图像、插入图像、添加提示和插入提示。其次,数据集可以用于研究模型规模对鲁棒性的影响。此外,数据集还可以用于探索各种缓解干扰影响的技术,如提示工程和鲁棒的视觉编码器。最后,数据集可以用于研究双模态干扰对模型性能的影响。通过使用I-ScienceQA数据集,研究者可以更好地理解VLMs在面对干扰时的行为,并探索改进模型鲁棒性的方法。
背景与挑战
背景概述
视觉语言模型(VLMs)在视觉问答等应用中取得了显著的成功,但它们在面对提示干扰时的鲁棒性仍是一个未被充分探索的领域。理解干扰如何影响VLMs对于提高其在现实世界的适用性至关重要,因为在许多实际场景中,输入可能包含噪声和不相关信息。为了评估VLMs在科学问答背景下对视觉和文本干扰的鲁棒性,本文构建了一个新的基准,该基准在视觉和文本上下文中引入了干扰。通过分析十种最先进的VLMs(包括GPT-4o)在面对这些干扰时的推理能力,我们发现大多数VLMs对各种类型的干扰都容易受到损害,当面对干扰时,它们的推理能力会明显下降。值得注意的是,像InternVL2这样的模型对这些干扰表现出更高的鲁棒性。我们还发现,模型对文本干扰比视觉干扰更为敏感。此外,我们还探索了各种缓解策略,如提示工程,以对抗干扰的影响。尽管这些策略提高了模型的鲁棒性,但我们的分析表明,仍有很大的改进空间。
当前挑战
I-ScienceQA数据集旨在评估VLMs在现实世界场景中的鲁棒性,特别是面对噪声和不相关信息时的表现。数据集构建过程中遇到的挑战包括:1) 如何确保引入的干扰既具有多样性又与上下文相关;2) 如何在注入干扰的同时保持原始问题的语义完整性;3) 如何评估模型在干扰情况下的推理能力。此外,数据集也面临一些局限性,例如干扰范围的有限性、模型评估的局限性、双模态干扰的复杂性以及防御技术的局限性等。
常用场景
经典使用场景
I-ScienceQA 数据集主要用于评估视觉语言模型(VLMs)在面对视觉和文本干扰时的鲁棒性。通过对现有 ScienceQA 数据集进行增强,引入了视觉和文本干扰,该数据集旨在模拟现实世界中数据输入可能存在的噪声和无关信息。通过分析十种最先进的 VLMs 在不同干扰场景下的表现,揭示了模型在面对干扰时的性能下降情况,为 VLMs 的改进和优化提供了重要依据。
实际应用
I-ScienceQA 数据集在实际应用中可用于评估和改进 VLMs 的鲁棒性。通过对模型在面对干扰时的表现进行分析,可以帮助研究人员和开发者更好地理解模型在现实世界环境下的局限性,并针对性地进行优化。此外,该数据集还可以用于开发新的防御策略,例如提示工程,以提高模型在面对干扰时的性能。
衍生相关工作
I-ScienceQA 数据集的提出促进了 VLMs 鲁棒性研究的发展。该数据集不仅为评估 VLMs 的鲁棒性提供了一个重要的基准,还为后续研究提供了参考和启示。例如,研究人员可以基于 I-ScienceQA 数据集进一步研究不同类型干扰对模型性能的影响,以及如何通过改进模型设计、训练方法和防御策略来提高模型的鲁棒性。
以上内容由遇见数据集搜集并总结生成



