five

I-ScienceQA|视觉语言模型数据集|鲁棒性评估数据集

收藏
arXiv2025-02-14 更新2025-02-27 收录
视觉语言模型
鲁棒性评估
下载链接:
http://arxiv.org/abs/2502.09818v1
下载链接
链接失效反馈
资源简介:
I-ScienceQA是一个基于ScienceQA数据集构建的全新基准,由爱荷华州立大学等机构的研究人员开发。该数据集引入了视觉和文本干扰,旨在评估视觉语言模型在真实场景中的鲁棒性。数据集包含8100个样本,涵盖了四种干扰场景,数据来源包括稳定扩散模型、GPT-3.5等,旨在为评估视觉语言模型对干扰的鲁棒性提供全面的基准。
提供机构:
爱荷华州立大学, 卡内基梅隆大学, 威廉与玛丽学院, 爱荷华州立大学
创建时间:
2025-02-14
AI搜集汇总
数据集介绍
main_image_url
构建方式
I-ScienceQA数据集是在ScienceQA数据集的基础上构建的,旨在评估视觉语言模型(VLMs)在科学问答场景下对视觉和文本干扰的鲁棒性。该数据集通过引入不同类型的干扰,模拟真实世界中的噪声和无关信息,以此来测试VLMs在干扰情况下的推理能力。为了构建这个数据集,研究者使用了GPT-3.5-turbo生成文本干扰,以及稳定扩散模型生成视觉干扰,包括中性背景、通用景观、抽象艺术和日常物品等。数据集包含了8,100个样本,分为四种干扰场景:添加图像、插入图像、添加提示和插入提示。
特点
I-ScienceQA数据集的特点在于它系统地引入了多种类型的视觉和文本干扰,以评估VLMs在不同模态下的鲁棒性。该数据集涵盖了从简单到复杂的干扰情况,包括无关的视觉背景和误导性的文本信息。此外,数据集还包含了不同大小的模型,从1B到34B参数,以研究模型规模对鲁棒性的影响。I-ScienceQA数据集的构建旨在提供一种评估VLMs在现实世界应用中面对干扰时的性能的方法,从而帮助改进模型设计和训练方法。
使用方法
使用I-ScienceQA数据集的方法包括以下几个方面:首先,数据集可以用于评估VLMs在不同干扰场景下的性能,包括添加图像、插入图像、添加提示和插入提示。其次,数据集可以用于研究模型规模对鲁棒性的影响。此外,数据集还可以用于探索各种缓解干扰影响的技术,如提示工程和鲁棒的视觉编码器。最后,数据集可以用于研究双模态干扰对模型性能的影响。通过使用I-ScienceQA数据集,研究者可以更好地理解VLMs在面对干扰时的行为,并探索改进模型鲁棒性的方法。
背景与挑战
背景概述
视觉语言模型(VLMs)在视觉问答等应用中取得了显著的成功,但它们在面对提示干扰时的鲁棒性仍是一个未被充分探索的领域。理解干扰如何影响VLMs对于提高其在现实世界的适用性至关重要,因为在许多实际场景中,输入可能包含噪声和不相关信息。为了评估VLMs在科学问答背景下对视觉和文本干扰的鲁棒性,本文构建了一个新的基准,该基准在视觉和文本上下文中引入了干扰。通过分析十种最先进的VLMs(包括GPT-4o)在面对这些干扰时的推理能力,我们发现大多数VLMs对各种类型的干扰都容易受到损害,当面对干扰时,它们的推理能力会明显下降。值得注意的是,像InternVL2这样的模型对这些干扰表现出更高的鲁棒性。我们还发现,模型对文本干扰比视觉干扰更为敏感。此外,我们还探索了各种缓解策略,如提示工程,以对抗干扰的影响。尽管这些策略提高了模型的鲁棒性,但我们的分析表明,仍有很大的改进空间。
当前挑战
I-ScienceQA数据集旨在评估VLMs在现实世界场景中的鲁棒性,特别是面对噪声和不相关信息时的表现。数据集构建过程中遇到的挑战包括:1) 如何确保引入的干扰既具有多样性又与上下文相关;2) 如何在注入干扰的同时保持原始问题的语义完整性;3) 如何评估模型在干扰情况下的推理能力。此外,数据集也面临一些局限性,例如干扰范围的有限性、模型评估的局限性、双模态干扰的复杂性以及防御技术的局限性等。
常用场景
经典使用场景
I-ScienceQA 数据集主要用于评估视觉语言模型(VLMs)在面对视觉和文本干扰时的鲁棒性。通过对现有 ScienceQA 数据集进行增强,引入了视觉和文本干扰,该数据集旨在模拟现实世界中数据输入可能存在的噪声和无关信息。通过分析十种最先进的 VLMs 在不同干扰场景下的表现,揭示了模型在面对干扰时的性能下降情况,为 VLMs 的改进和优化提供了重要依据。
实际应用
I-ScienceQA 数据集在实际应用中可用于评估和改进 VLMs 的鲁棒性。通过对模型在面对干扰时的表现进行分析,可以帮助研究人员和开发者更好地理解模型在现实世界环境下的局限性,并针对性地进行优化。此外,该数据集还可以用于开发新的防御策略,例如提示工程,以提高模型在面对干扰时的性能。
衍生相关工作
I-ScienceQA 数据集的提出促进了 VLMs 鲁棒性研究的发展。该数据集不仅为评估 VLMs 的鲁棒性提供了一个重要的基准,还为后续研究提供了参考和启示。例如,研究人员可以基于 I-ScienceQA 数据集进一步研究不同类型干扰对模型性能的影响,以及如何通过改进模型设计、训练方法和防御策略来提高模型的鲁棒性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

猫狗图像数据集

该数据集包含猫和狗的图像,每类各12500张。训练集和测试集分别包含10000张和2500张图像,用于模型的训练和评估。

github 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

Traditional-Chinese-Medicine-Dataset-SFT

该数据集是一个高质量的中医数据集,主要由非网络来源的内部数据构成,包含约1GB的中医各个领域临床案例、名家典籍、医学百科、名词解释等优质内容。数据集99%为简体中文内容,质量优异,信息密度可观。数据集适用于预训练或继续预训练用途,未来将继续发布针对SFT/IFT的多轮对话和问答数据集。数据集可以独立使用,但建议先使用配套的预训练数据集对模型进行继续预训练后,再使用该数据集进行进一步的指令微调。数据集还包含一定比例的中文常识、中文多轮对话数据以及古文/文言文<->现代文翻译数据,以避免灾难性遗忘并加强模型表现。

huggingface 收录

VisDrone2019

VisDrone2019数据集由AISKYEYE团队在天津大学机器学习和数据挖掘实验室收集,包含288个视频片段共261,908帧和10,209张静态图像。数据集覆盖了中国14个不同城市的城市和乡村环境,包括行人、车辆、自行车等多种目标,以及稀疏和拥挤场景。数据集使用不同型号的无人机在各种天气和光照条件下收集,手动标注了超过260万个目标边界框,并提供了场景可见性、对象类别和遮挡等重要属性。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录