VP-Bench

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/Endlinc/VP-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VP-Bench是一个用于测试多模态大语言模型处理视觉提示（如框、掩码、箭头、涂鸦等）的两阶段基准数据集。功能上，第一阶段在34,000多张图像和近39,000个问题中测量核心VP感知，探究不同VP形状和风格下的存在性、计数、定位和引用；第二阶段评估添加VP对六个下游任务（包括医学成像、GUI接地、3D/场景理解和情感识别）性能的影响。该研究旨在量化模型对VP与文本先验的真实依赖，分析对提示设计的敏感性，并理解当前模型为何在鲁棒、类人的VP引导推理方面仍存在不足。

VP-Bench is a two-stage benchmark dataset for evaluating multimodal large language models' capability to handle visual prompts such as bounding boxes, masks, arrows, doodles and other similar annotations. Functionally, the first stage measures core visual prompt (VP) perception across over 34,000 images and nearly 39,000 questions, exploring tasks including existence detection, counting, localization and reference resolution under different VP shapes and styles. The second stage assesses the impact of adding visual prompts on model performance across six downstream tasks, including medical imaging, GUI grounding, 3D/scene understanding and emotion recognition. This research aims to quantify the true dependence of models on visual prompts versus textual priors, analyze their sensitivity to prompt design, and understand why current models still fall short of robust, human-like VP-guided reasoning.

创建时间：

2025-11-14

原始信息汇总

VP-Bench 数据集概述

数据集简介

VP-Bench 是一个用于测试多模态大语言模型处理视觉提示（如方框、掩码、箭头、涂鸦等）的两阶段基准。第一阶段评估核心的视觉提示感知能力，涵盖超过34,000张图像和近39,000个问题，探究在不同视觉提示形状和风格下的存在性、计数、定位和指代任务。第二阶段评估添加视觉提示后，在六个下游任务（包括医学影像、GUI 定位、3D/场景理解和情感识别）上的性能变化。该研究旨在量化模型对视觉提示的真实依赖程度（相对于文本先验），分析其对提示设计的敏感性，并理解当前模型为何仍无法实现稳健的、类人的视觉提示引导推理。

数据集发布与获取

Stage 1 数据集：发布于 ModelScope，地址为 https://modelscope.cn/datasets/VP-Bench/VP-Bench-Stage-1。
Stage 2 数据集：发布于 ModelScope，地址为 https://modelscope.cn/datasets/VP-Bench/VP-Bench-Stage-2。
评估集成：Stage 1 评估数据集已集成至 VLMEvalKit (https://github.com/open-compass/VLMEvalKit)。
代码发布：完整的 Stage 1 和 Stage 2 评估脚本和配置即将发布。

数据文件格式

数据集使用 Parquet 文件存储评估数据。

Stage 1 数据文件 (`vp_bench_stage_1.parquet`)

每行对应一个图像上的单个多项选择视觉提示感知问题。

index：整数，文件内唯一的样本索引。
context：字符串，可选的文本上下文或背景信息。
question：字符串，呈现给模型/用户的自然语言问题。
A, B, C, D：字符串，四个多项选择答案选项。
answer：字符串，正确答案标签（如 "A", "B", "C", "D"）。
image：字符串 (base64)，编码为 base64 PNG 字符串的图像内容。
vp_amount：整数，与此样本关联的视觉提示数量。
vp_shape：字符串或字符串列表，视觉提示的形状类型。
vp_properties：字符串，视觉提示属性的文本描述。

Stage 2 元数据文件 (`vp_bench_stage_2_meta.parquet`)

每行描述一个 Stage 2 样本及其与底层源数据和视觉提示元数据的链接。

meta_source：字符串，样本来源的原始数据集或源基准标识符。
data_file：字符串或字符串列表，包含用于构建此样本的完整问答记录的底层数据文件路径。
image：列表，与此样本关联的图像标识符列表。
meta_bbox：列表，以边界框形式表示的视觉提示元数据。
meta_polygon：列表，以多边形形式表示的视觉提示元数据。
question：字符串，此 Stage 2 样本的自然语言问题。
A, B, C, D：字符串，多项选择答案选项。
answer：字符串或 null，可用的正确答案标签；对于某些仅用于模型预测或人工评估的样本可能缺失。

构建 Stage 2 视觉提示问答样本

Stage 2 元数据文件是用于构建多样化视觉提示问答样本的中间数据资源。构建完整可视化的问答示例需要两个步骤：

在图像上可视化视觉提示：使用提供的可视化框架（通过 PromptManager）根据元数据（meta_bbox, meta_polygon）在图像上绘制视觉提示。
在文本中注入 <color> <vp> 标签：在元文件中的原始 question 里，将指代视觉提示的文本跨度替换为一对标签（<color> 表示可视化中使用的视觉提示颜色，<vp> 表示该跨度对应一个视觉提示区域）。

可视化框架使用

提供了一个轻量级可视化框架来帮助在图像上渲染视觉提示。典型工作流程包括：初始化 PromptManager，获取视觉提示样式，从元数据中检索边界框和多边形信息，构建标注列表，最后将视觉提示应用到图像上。渲染视觉提示并确定颜色后，需更新问题字符串以包含 <color> <vp> 标签对。

引用

如果使用 VP-Bench，请引用：

Xu, M., Chen, J., Zhao, Y., Li, J. C. L., Qiu, Y., Du, Z., Wu, M., Zhang, P., Li, K., Yang, H., Ma, W., Wei, J., Li, Q., Liu, K., & Lei, W. VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models. AAAI 2026 / arXiv:2511.11438.

搜集汇总

数据集介绍

构建方式

在视觉提示研究领域，VP-Bench的构建遵循严谨的双阶段设计原则。第一阶段数据集通过整合超过34,000张图像和近39,000个问题，系统性地覆盖了多种视觉提示形态，如边界框、掩码、箭头和涂鸦。每个样本以Parquet格式存储，包含图像、问题文本、多项选择答案及视觉提示的元数据，确保了数据结构的规范性与可扩展性。第二阶段则基于六个下游任务构建，通过元数据文件链接原始数据与视觉提示信息，支持动态生成带有渲染提示的问答样本，从而实现对模型依赖性的深度量化分析。

特点

VP-Bench的核心特征在于其全面性与细粒度评估能力。该数据集不仅囊括了存在性检测、计数、定位和指代理解等基础感知任务，还延伸至医疗影像、图形界面接地、三维场景理解及情感识别等复杂应用场景。其独特之处在于通过精确的视觉提示元数据标注，如形状、属性和空间信息，能够有效分离模型对文本先验与视觉线索的依赖，为揭示多模态大语言模型在视觉提示理解中的内在机制提供了关键实验基础。

使用方法

使用VP-Bench时，研究人员可依托其与VLMEvalKit的集成实现便捷评估。对于第一阶段，直接加载Parquet文件即可进行标准的多项选择问答测试。第二阶段则需通过元数据文件动态构建样本：首先利用提供的PromptManager框架，根据边界框或多边形元数据将视觉提示渲染至图像；随后在问题文本中插入对应的颜色与提示标签，确保视觉与文本模态的语义对齐。这种灵活的数据构建流程支持对模型在视觉提示引导下的推理性能进行可重复的定量分析。

背景与挑战

背景概述

在人工智能领域，多模态大语言模型（MLLMs）的快速发展推动了对视觉与语言深度融合能力的需求。视觉提示（Visual Prompting, VP）作为一种新兴的人机交互范式，旨在通过边界框、掩码、箭头等视觉标注引导模型进行精细化推理。VP-Bench数据集应运而生，由Mingjie Xu等研究人员于2025年构建，并计划在AAAI 2026会议上发布。该数据集的核心研究问题在于系统评估MLLMs对多样化视觉提示的感知与理解能力，以及视觉提示如何影响下游任务性能。其两阶段评估框架覆盖了34,000余张图像与近39,000个问题，不仅量化模型对视觉提示的真实依赖程度，还深入分析提示设计敏感性，为提升模型鲁棒性与人类对齐性提供了关键基准。

当前挑战

VP-Bench数据集致力于解决多模态大语言模型中视觉提示引导推理的评估挑战。具体而言，其首要挑战在于如何准确区分模型是真正利用了视觉提示信息，还是仅仅依赖于文本先验进行猜测，这需要设计精细的感知任务以剥离两种信号的影响。其次，视觉提示本身在形状、风格与语义上的多样性给评估带来了复杂性，模型需在各种提示形式下保持稳定的感知性能。在构建过程中，数据集面临如何大规模生成高质量、多样化的视觉提示标注，并确保其与自然语言问题的精确对齐。此外，将视觉提示无缝集成到下游任务（如医学影像、情感识别）中，同时保持评估的公平性与可复现性，亦是构建过程中的关键难题。

常用场景

经典使用场景

在多模态大语言模型的研究领域，视觉提示作为一种直观的人机交互方式，正逐渐成为提升模型感知与推理能力的关键技术。VP-Bench数据集通过其两阶段评估框架，为研究者提供了一个系统性的测试平台，用于衡量模型在多种视觉提示（如边界框、掩码、箭头、涂鸦等）下的核心感知性能。经典使用场景涉及模型在存在性检测、计数、定位及指代等任务上的表现评估，覆盖了超过34,000张图像和近39,000个问题，从而全面检验模型对视觉提示形状与风格的敏感度。

解决学术问题

该数据集致力于解决多模态大语言模型中视觉提示依赖性与文本先验混淆的核心学术问题。通过量化模型对视觉提示的真实利用程度，而非仅依赖文本上下文进行推理，VP-Bench揭示了当前模型在视觉提示引导下的推理短板。其意义在于推动了模型鲁棒性与人类类似视觉推理能力的发展，为理解模型在复杂视觉语境下的感知机制提供了实证基础，进而促进了跨模态交互技术的理论深化与方法创新。

衍生相关工作

围绕VP-Bench数据集，一系列经典研究工作得以衍生，进一步拓展了视觉提示在多模态推理中的边界。例如，基于该基准的模型敏感性分析催生了针对提示设计优化的新方法；同时，其在医疗影像、GUI接地等领域的评估任务，激发了跨领域视觉提示适配技术的探索。这些工作不仅丰富了多模态大语言模型的评估体系，也为后续研究提供了可复现的实验范式与数据资源，推动了整个领域向更稳健、可解释的视觉推理方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集