mmbench/MM-SpuBench
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/mmbench/MM-SpuBench
下载链接
链接失效反馈官方服务:
资源简介:
MM-SpuBench是一个全面的基准测试,旨在评估多模态大语言模型(MLLMs)对虚假偏见的鲁棒性。该基准测试系统地评估这些模型如何区分核心特征和虚假特征,为理解和量化虚假偏见提供了一个详细的框架。数据集包含2400个视觉问答(VQA)对,数据主要来源于ObjectNet,并包括ImageNet-R(渲染)、ImageNet-Sketch、ImageNet-A和ImageNet-C(使用ImageNet-Hard子集)的数据。
MM-SpuBench是一个全面的基准测试,旨在评估多模态大语言模型(MLLMs)对虚假偏见的鲁棒性。该基准测试系统地评估这些模型如何区分核心特征和虚假特征,为理解和量化虚假偏见提供了一个详细的框架。数据集包含2400个视觉问答(VQA)对,数据主要来源于ObjectNet,并包括ImageNet-R(渲染)、ImageNet-Sketch、ImageNet-A和ImageNet-C(使用ImageNet-Hard子集)的数据。
提供机构:
mmbench



