VP-Bench
收藏VP-Bench 数据集概述
数据集简介
VP-Bench 是一个用于测试多模态大语言模型处理视觉提示(如方框、掩码、箭头、涂鸦等)的两阶段基准。第一阶段评估核心的视觉提示感知能力,涵盖超过34,000张图像和近39,000个问题,探究在不同视觉提示形状和风格下的存在性、计数、定位和指代任务。第二阶段评估添加视觉提示后,在六个下游任务(包括医学影像、GUI 定位、3D/场景理解和情感识别)上的性能变化。该研究旨在量化模型对视觉提示的真实依赖程度(相对于文本先验),分析其对提示设计的敏感性,并理解当前模型为何仍无法实现稳健的、类人的视觉提示引导推理。
数据集发布与获取
- Stage 1 数据集:发布于 ModelScope,地址为 https://modelscope.cn/datasets/VP-Bench/VP-Bench-Stage-1。
- Stage 2 数据集:发布于 ModelScope,地址为 https://modelscope.cn/datasets/VP-Bench/VP-Bench-Stage-2。
- 评估集成:Stage 1 评估数据集已集成至 VLMEvalKit (https://github.com/open-compass/VLMEvalKit)。
- 代码发布:完整的 Stage 1 和 Stage 2 评估脚本和配置即将发布。
数据文件格式
数据集使用 Parquet 文件存储评估数据。
Stage 1 数据文件 (vp_bench_stage_1.parquet)
每行对应一个图像上的单个多项选择视觉提示感知问题。
index:整数,文件内唯一的样本索引。context:字符串,可选的文本上下文或背景信息。question:字符串,呈现给模型/用户的自然语言问题。A,B,C,D:字符串,四个多项选择答案选项。answer:字符串,正确答案标签(如"A","B","C","D")。image:字符串 (base64),编码为 base64 PNG 字符串的图像内容。vp_amount:整数,与此样本关联的视觉提示数量。vp_shape:字符串或字符串列表,视觉提示的形状类型。vp_properties:字符串,视觉提示属性的文本描述。
Stage 2 元数据文件 (vp_bench_stage_2_meta.parquet)
每行描述一个 Stage 2 样本及其与底层源数据和视觉提示元数据的链接。
meta_source:字符串,样本来源的原始数据集或源基准标识符。data_file:字符串或字符串列表,包含用于构建此样本的完整问答记录的底层数据文件路径。image:列表,与此样本关联的图像标识符列表。meta_bbox:列表,以边界框形式表示的视觉提示元数据。meta_polygon:列表,以多边形形式表示的视觉提示元数据。question:字符串,此 Stage 2 样本的自然语言问题。A,B,C,D:字符串,多项选择答案选项。answer:字符串或null,可用的正确答案标签;对于某些仅用于模型预测或人工评估的样本可能缺失。
构建 Stage 2 视觉提示问答样本
Stage 2 元数据文件是用于构建多样化视觉提示问答样本的中间数据资源。构建完整可视化的问答示例需要两个步骤:
- 在图像上可视化视觉提示:使用提供的可视化框架(通过
PromptManager)根据元数据(meta_bbox,meta_polygon)在图像上绘制视觉提示。 - 在文本中注入
<color> <vp>标签:在元文件中的原始question里,将指代视觉提示的文本跨度替换为一对标签(<color>表示可视化中使用的视觉提示颜色,<vp>表示该跨度对应一个视觉提示区域)。
可视化框架使用
提供了一个轻量级可视化框架来帮助在图像上渲染视觉提示。典型工作流程包括:初始化 PromptManager,获取视觉提示样式,从元数据中检索边界框和多边形信息,构建标注列表,最后将视觉提示应用到图像上。渲染视觉提示并确定颜色后,需更新问题字符串以包含 <color> <vp> 标签对。
引用
如果使用 VP-Bench,请引用:
Xu, M., Chen, J., Zhao, Y., Li, J. C. L., Qiu, Y., Du, Z., Wu, M., Zhang, P., Li, K., Yang, H., Ma, W., Wei, J., Li, Q., Liu, K., & Lei, W. VP-Bench: A Comprehensive Benchmark for Visual Prompting in Multimodal Large Language Models. AAAI 2026 / arXiv:2511.11438.




