VLM²-Bench

github2025-02-28 更新2025-02-23 收录

下载链接：

https://github.com/vlm2-bench/VLM2-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VLM²-Bench是一个用于评估视觉语言模型在多图像序列和视频中匹配线索链接能力的综合基准测试，包含9个子任务和超过3000个测试案例，旨在评估人类日常使用的基本视觉链接能力。

VLM²-Bench is a comprehensive benchmark for evaluating the ability of vision-language models to match and link clues across multi-image sequences and videos. It contains 9 subtasks and over 3000 test cases, and aims to assess the fundamental visual linking capabilities that humans utilize in daily scenarios.

创建时间：

2025-02-17

原始信息汇总

VLM²-Bench 数据集概述

概述

VLM²-Bench是一个全面的基准测试，用于评估视觉语言模型（VLMs）在多图像序列和视频中对视觉匹配线索的链接能力。该基准测试包括9个子任务，超过3000个测试案例，旨在评估模型在日常使用中人类所依赖的基本视觉链接能力。

数据集结构

数据集分为三个主要类别：

通用线索（GC）：评估视觉元素的匹配和跟踪。
对象中心线索（OC）：评估对象的比较、计数和分组。
人物中心线索（PC）：关注个体的比较、计数、分组和视频身份描述。

数据集包含超过3000个问题-答案对，通过半自动化管道生成并经过人工验证，涵盖各种问题格式，如True/False、选择题、数值问题和开放式问题。

评估方法

要评估模型在VLM²-Bench上的表现，需要以下步骤：

环境设置：克隆仓库，创建conda环境。
数据下载：从huggingface仓库下载并解压数据集。
模型推断：使用提供的示例推断代码运行模型。
结果评估：使用提供的评估脚本来评估结果。

实验结果

对8个最先进的开源视觉语言模型和GPT-4o的评估显示，即使是表现最好的模型（GPT-4o）平均也落后于人类表现34.80%。

引用

如需引用此工作，请使用以下引用格式：

bibtex @misc{zhang2025vlm2benchcloserlookvlms, title={VLM$^2$-Bench: A Closer Look at How Well VLMs Implicitly Link Explicit Matching Visual Cues}, author={Jianshu Zhang and Dongyu Yao and Renjie Pi and Paul Pu Liang and Yi R. and Fung}, year={2025}, eprint={2502.12084}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.12084}, }

许可

代码：根据Apache 2.0许可。
数据集：根据CC BY-NC 4.0许可。

搜集汇总

数据集介绍

构建方式

VLM²-Bench数据集的构建采取了一种综合性的方法，通过设计9个子任务，涵盖了超过3000个测试案例，旨在评估视觉语言模型在多图像序列和视频中对视觉匹配线索的链接能力。这些测试案例是通过半自动化管道生成的，并经过人工验证，以确保其准确性和多样性。

特点

该数据集的特点在于其细致的任务分类，包括一般线索（GC）、以对象为中心的线索（OC）和以人物为中心的线索（PC），这些分类能够全面地评估模型在处理不同类型视觉线索方面的性能。此外，数据集的问题格式多样，包括真假判断、选择题、数字和开放性问题，这有助于考察模型在各种不同问题类型上的表现。

使用方法

使用VLM²-Bench数据集进行模型评估时，首先需要设置适当的环境，包括克隆数据集仓库、创建conda环境并安装必要的依赖。随后，用户可以下载数据集并解压到相应的目录中。评估模型性能时，可以使用提供的数据集评估脚本来获取结果，这些脚本支持单个任务的评估以及所有任务的整合评估。

背景与挑战

背景概述

VLM²-Bench是一个新颖的综合性评测标准，旨在衡量视觉语言模型（VLMs）在多图像序列和视频中视觉关联显式匹配线索的能力。该数据集由香港科技大学、卡内基梅隆大学和麻省理工学院的研究人员共同研发，并于2025年2月18日正式发布。它包含了9个子任务，超过3000个测试案例，旨在评估模型在无需先前知识的情况下，识别不同照片中同一个人的基本视觉关联能力。VLM²-Bench的发布对视觉语言模型的评估领域产生了重要影响，为相关研究提供了新的研究方向和评测手段。

当前挑战

该数据集在构建过程中面临的挑战主要包括：1)如何精确地构建视觉线索匹配的测试案例，以评估模型对显式视觉线索的关联能力；2)如何设计多样化的任务和问题格式，以全面考察模型在不同场景下的视觉语言理解能力。在研究领域问题上，VLM²-Bench解决了视觉语言模型在处理显式视觉线索时的性能差距问题，挑战在于即使是最先进的模型GPT-4o，在性能上也平均落后于人类约34.80%。此外，不同模型在各种视觉线索类别中表现出不同的性能模式，这提示我们需要对模型进行专门的改进，以提高其在视觉关联任务上的表现。

常用场景

经典使用场景

VLM²-Bench 数据集针对视觉语言模型在多图像序列和视频中的视觉匹配线索链接能力进行评估，其经典使用场景在于衡量模型对于显式视觉线索的整合与关联能力，特别是在处理如人物识别、物体计数和分组等日常视觉任务时的表现。该数据集通过设计多样化的视觉问答任务，为研究提供了丰富的测试案例，以评估模型在无需先验知识的情况下，对视觉元素匹配和追踪的能力。

衍生相关工作

VLM²-Bench 衍生了多项相关工作，包括对现有视觉语言模型的性能评估、新模型的架构设计以及对视觉推理任务中模型行为的深入分析。这些研究进一步推动了视觉语言模型的进步，为相关领域的学术研究和应用开发提供了新的视角和工具。

数据集最近研究