MMVP-VLM

arXiv2025-09-30 收录

视觉语言模型

模型评估

数据链接：

https://tsb0601.github.io/mmvp_blog/数据链接链接失效反馈

官方服务：

资源简介：

该数据集旨在评估基于CLIP的模型在使用具有相似特征嵌入的视觉上独特的图像对时的性能表现。它详细描述了九种典型的场景，在这些场景中，基于CLIP的模型通常会出现失败。该数据集的规模属于中等，其任务是对视觉语言模型中的幻觉现象进行量化评估。

This dataset is designed to evaluate the performance of CLIP-based models when utilizing visually distinct image pairs with similar feature embeddings. It details nine typical scenarios where CLIP-based models commonly experience failures. With a moderate scale, this dataset targets the quantitative assessment of hallucination phenomena in vision-language models.

搜集汇总

数据集介绍

背景与挑战

背景概述

MMVP-VLM是一个用于评估多模态大语言模型（MLLMs）视觉能力的数据集，重点关注CLIP视觉编码器的系统性缺陷。它通过“CLIP-blind pairs”构建视觉问题，涵盖9种挑战性视觉模式（如方向、数量、颜色等），并揭示MLLMs与人类性能之间的显著差距。此外，数据集探索了Mixture-of-Features（MoF）方法，结合CLIP和DINOv2特征以提升视觉基础能力，而不损害指令跟随能力。

以上内容由遇见数据集搜集并总结生成

MMVP-VLM

资源简介：

相关数据集