MIBench

Hugging Face2026-03-26 更新2026-03-27 收录

下载链接：

https://huggingface.co/datasets/Resurrect/MIBench

下载链接

链接失效反馈

官方服务：

资源简介：

MIBench 是一个综合性基准测试，旨在评估大型多模态模型（LMMs）的多模态交互能力。该数据集通过（con_v, con_t, task）三元组的形式构建每个实例，要求模型采用正确的多模态交互形式完成任务。MIBench 从三个关键角度评估模型：从视觉中心或文本中心线索获取信息的能力，以及从它们的联合协同中生成新信息的能力。每种交互能力在三个认知层次（识别、理解和推理）上进行分层评估。该基准包含超过10,000个视觉-文本上下文对，涵盖32个不同的任务。评估结果表明，尽管模型参数和训练数据规模扩大，LMMs在多模态交互方面的能力仍然受限，容易在处理视觉信息时被文本模态分散注意力，且大多具备基本的多模态协同能力。原生训练的多模态模型在基本交互能力上表现出明显不足。该数据集期望为未来开发具有更强多模态能力的LMMs提供参考。

创建时间：

2026-03-24

5,000+

优质数据集

54 个

任务类型

进入经典数据集