MIBench
收藏Hugging Face2026-03-26 更新2026-03-27 收录
下载链接:
https://huggingface.co/datasets/Resurrect/MIBench
下载链接
链接失效反馈官方服务:
资源简介:
MIBench 是一个综合性基准测试,旨在评估大型多模态模型(LMMs)的多模态交互能力。该数据集通过(con_v, con_t, task)三元组的形式构建每个实例,要求模型采用正确的多模态交互形式完成任务。MIBench 从三个关键角度评估模型:从视觉中心或文本中心线索获取信息的能力,以及从它们的联合协同中生成新信息的能力。每种交互能力在三个认知层次(识别、理解和推理)上进行分层评估。该基准包含超过10,000个视觉-文本上下文对,涵盖32个不同的任务。评估结果表明,尽管模型参数和训练数据规模扩大,LMMs在多模态交互方面的能力仍然受限,容易在处理视觉信息时被文本模态分散注意力,且大多具备基本的多模态协同能力。原生训练的多模态模型在基本交互能力上表现出明显不足。该数据集期望为未来开发具有更强多模态能力的LMMs提供参考。
创建时间:
2026-03-24



