five

VPBench

收藏
arXiv2025-12-20 更新2025-12-23 收录
下载链接:
https://lisadunlap.github.io/vpbench/
下载链接
链接失效反馈
官方服务:
资源简介:
VPBench是由加州大学伯克利分校团队构建的大规模视觉提示基准数据集,包含35,088张标注图像,涵盖相对深度估计(VPBench-RD)和语义对应(VPBench-SC)两大任务。该数据集通过整合DA2k和SPair等现有资源,采用16种视觉标记变体(如形状、颜色、大小和标签位置差异)增强评估鲁棒性,旨在解决视觉语言模型(VLM)在低层次视觉感知任务中因细微设计变化导致的性能波动问题。其数据来源包括密集几何标注的深度图像和语义关键点匹配对,通过标准化BLINK的提示格式重构而成,为评估模型对空间关系和物体识别的真实感知能力提供了更稳定的测试平台。

VPBench is a large-scale visual prompt benchmark dataset constructed by the team at the University of California, Berkeley. It contains 35,088 annotated images, covering two core tasks: relative depth estimation (VPBench-RD) and semantic correspondence (VPBench-SC). This dataset enhances evaluation robustness by integrating existing resources such as DA2k and SPair, and adopting 16 visual token variants including differences in shape, color, size, and label placement. It aims to address performance fluctuations of Vision-Language Models (VLMs) in low-level visual perception tasks caused by subtle design changes. Its data sources include densely geometrically annotated depth images and semantic key point matching pairs, which are reconstructed by standardizing the prompt format of BLINK. This dataset provides a more stable testbed for evaluating models' true perceptual capabilities regarding spatial relationships and object recognition.
提供机构:
加州大学伯克利分校
创建时间:
2025-12-20
原始信息汇总

数据集概述:VPBench

数据集基本信息

  • 数据集名称:VPBench
  • 主要目的:作为一个视觉提示基准,旨在以更大的数据集规模(约10倍于BLINK等基准的数据量)来更稳定地评估视觉语言模型(VLM)的纯视觉能力,减少因数据集规模小、视觉标记设计差异等因素导致的排名不稳定性。
  • 核心任务:包含两项视觉提示任务:
    1. 相对深度(Rel. Depth)
    2. 语义对应(Sem. Corr.)

数据集背景与动机

  • 研究背景:现有视觉提示基准(如BLINK)存在脆弱性,微小的设计变更(如标记样式、JPEG压缩率)会导致模型准确率显著变化并重新排序排行榜。
  • 创建动机:为了解决因数据集规模小导致的置信区间过宽和排名不稳定问题,并提供一个更稳健的评估基准。

关键特性与发现

  • 数据集规模:VPBench每个任务的数据集样本量约为BLINK的10倍,从而具有更小的置信区间。
  • 不稳定性来源验证
    1. 数据集规模:即使从VPBench中随机抽取与BLINK规模相当的数据子集(100个样本),模型在不同子集上的排名也会出现显著差异。
    2. 标记样式:视觉标记的颜色、形状、大小、文本位置等细微变化会导致模型准确率发生巨大、模型特定的偏移和排名洗牌。通过策略性地选择标记样式,可以操纵排行榜。
    3. JPEG压缩:对人类不可察觉的JPEG压缩率等数值差异,会导致视觉提示任务的模型排名发生明显变化,而在传统基准上排名则更稳定。

数据集作用与建议

  • 主要作用:提供更大规模的数据以收紧置信区间,减少评估噪声,使排行榜更能反映模型视觉理解能力的真实进展。
  • 核心建议:当评估置信区间较宽时,需要更多的评估数据。VPBench的发布旨在帮助缓解此问题。
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉语言模型评估领域,VPBench的构建旨在揭示现有视觉提示基准的脆弱性。该数据集通过整合并扩展现有的视觉提示任务数据集而形成,其核心构建方法是对DA2K和SPair-71k这两个大规模数据集进行重新标注与任务转化。具体而言,研究者将DA2K中密集的像素级深度标注转化为相对深度比较任务,并将SPair-71k中详尽的语义关键点匹配数据重构为视觉提示下的语义对应任务,严格遵循了BLINK基准的任务范式。这一过程不仅将样本量从BLINK的数百个大幅提升至数万个,还系统性地引入了16种不同的视觉标记变体,涵盖了颜色、形状、大小和文本位置等多个维度,从而构建了一个规模更大、设计更严谨的评估基准。
特点
VPBench最显著的特点在于其系统性地揭示了视觉提示基准中存在的非语义混淆因素。该数据集通过纳入16种视觉标记变体,实证展示了模型性能对标记样式微小变化的极端敏感性,例如仅将标记颜色从红色改为蓝色即可导致模型排名发生逆转。这种脆弱性在传统的知识导向型基准中并不显著,凸显了视觉感知任务评估的特殊挑战。此外,VPBench的规模远超其前身BLINK,其包含的35,088个标注图像为模型评估提供了更稳定的统计基础,有效减少了因小样本采样噪声导致的排名波动,使得性能差异更能反映模型真实的感知能力而非基准设计的人为因素。
使用方法
使用VPBench进行模型评估时,研究者应遵循一套旨在提升评估稳健性的标准化流程。首先,建议在评估报告中明确指定所使用的默认视觉标记样式,并尽可能报告在多种标记变体上的平均性能,以抵消单一设计选择带来的偏差。其次,基准提供了原始图像与标记坐标,而非仅提供已渲染标记的图片,这允许研究者灵活测试不同的提示设计,确保评估的一致性。在技术实现层面,调用模型时应标准化低层级的处理设置,如图像的JPEG压缩质量、输入分辨率及数值精度,避免这些隐性的实现细节对结果产生干扰。最后,在报告结果时,应辅以置信区间等不确定性度量,并对不同数据子集或标记样式下的排名稳定性进行分析,从而提供更全面、可靠的模型能力对比。
背景与挑战
背景概述
视觉语言模型(VLM)的评估长期面临视觉理解与语言先验知识混淆的困境。为精准衡量模型的低层视觉感知能力,视觉提示范式应运而生,通过在图像中标记特定区域并询问空间或感知问题,直接考察模型对视觉内容的独立分析能力。VPBench数据集由加州大学伯克利分校的研究团队于2025年创建,其核心研究问题在于揭示并缓解现有视觉提示基准的脆弱性。该数据集通过整合DA2K与SPair-71k等大规模标注数据,构建了涵盖相对深度与语义对应两大任务的增强型评估基准,旨在为VLM的视觉感知能力提供更稳定、可靠的测量工具,对推动模型在细粒度视觉推理方面的进步具有重要影响。
当前挑战
VPBench所针对的核心领域挑战在于,现有视觉提示基准的评估结果极易受到非语义设计细节的干扰,导致模型排行榜极不稳定。具体而言,视觉标记的微小变化,如颜色、形状、大小或标签位置的调整,可能引发模型准确率高达21%的波动,并彻底改变模型的排名顺序,这削弱了基准测试驱动模型能力进步的可信度。在数据集构建过程中,研究者面临多重挑战:首先,需要从海量视觉标注数据中系统性地重构符合视觉提示范式的任务,并确保标注质量与任务定义的一致性;其次,必须设计涵盖16种不同视觉标记变体的评估方案,以充分暴露模型对提示格式的敏感性;最后,还需控制诸如JPEG压缩等级等底层实现细节对评估结果的潜在影响,确保基准的鲁棒性与可复现性。
常用场景
经典使用场景
在视觉语言模型评估领域,VPBench作为一项专门针对视觉提示任务的基准测试,其经典应用场景聚焦于深度评估模型对视觉标记的敏感性。通过系统性地改变标记的颜色、形状、大小及标签位置等非语义属性,研究者能够量化不同视觉语言模型在相对深度估计和语义对应任务上的表现波动。这种设计使得VPBench成为揭示模型在低层次视觉理解中潜在脆弱性的关键工具,为后续的模型优化与基准标准化提供了实证基础。
实际应用
在实际应用中,VPBench为视觉语言模型的工业部署提供了重要的可靠性检验框架。例如,在自动驾驶或机器人导航系统中,模型需要准确理解图像中的空间关系(如相对深度),而视觉提示的微小变化不应导致决策的剧烈波动。通过VPBench的测试,开发者可以识别并修正模型对特定标记风格的过度依赖,增强其在真实多变环境下的泛化能力,确保基于视觉提示的交互界面在实际场景中稳定可靠。
衍生相关工作
VPBench的发布催生了一系列关注视觉提示鲁棒性的衍生研究。例如,后续工作开始探索如何通过对抗性标记设计来主动测试模型的脆弱性,或开发对标记样式变化不敏感的模型架构。同时,该数据集也启发了对更广泛视觉基础任务(如目标检测、实例分割)中类似评估脆弱性的系统性调查,推动了跨任务评估标准化协议的讨论,并促进了如‘标记不变性训练’等新训练范式的出现,以提升模型在多样化视觉提示下的表现一致性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作