AVA-BENCH

Name: AVA-BENCH
Creator: 俄亥俄州立大学, Adobe Research
Published: 2025-06-10 13:43:34
License: 暂无描述

arXiv2025-06-10 更新2025-06-13 收录

下载链接：

https://zheda-mai.github.io/AVA-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

AVA-BENCH是一个针对视觉基础模型（VFMs）的评估基准，旨在明确区分14种基本的视觉能力（AVAs），这些能力是解决复杂视觉推理任务的基础技能，如定位、深度估计和空间理解。该数据集通过将AVAs解耦并匹配每个AVAs的训练和测试分布，能够准确指出VFM在哪些方面表现优异或不足。AVA-BENCH涵盖了广泛的应用领域，旨在为下一代VFMs的发展奠定基础。

AVA-BENCH is an evaluation benchmark for visual foundation models (VFMs). It is designed to clearly disentangle and distinguish 14 fundamental visual abilities (AVAs), which are core skills for solving complex visual reasoning tasks including localization, depth estimation, and spatial understanding. By disentangling the AVAs and aligning the training and test distributions corresponding to each AVA, this benchmark can accurately pinpoint where VFMs excel or underperform. AVA-BENCH covers a wide range of application domains, aiming to lay a solid foundation for the development of next-generation visual foundation models.

提供机构：

俄亥俄州立大学, Adobe Research

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

AVA-BENCH数据集的构建基于对14种原子视觉能力（Atomic Visual Abilities, AVAs）的系统解耦，这些能力包括定位、计数、空间推理、方向识别等。构建过程中，研究团队从26个多样化数据集中精心筛选图像-问题对，确保每个问题仅针对单一AVA进行测试。通过提供边界框等辅助信息，有效隔离了不同视觉能力的评估，避免了多能力混杂带来的干扰。数据集采用严格的80/20训练测试划分，确保每个AVA内部训练与测试分布的一致性，从而准确反映视觉基础模型（VFMs）在特定能力上的真实表现。

特点

AVA-BENCH的核心特点在于其原子化的评估框架，通过解耦14种基础视觉能力，为VFMs提供了细粒度的性能诊断工具。数据集包含21.8万对经过严格质量控制的问题-图像样本，覆盖野生动物、室内外场景、遥感图像等多元领域。每个AVA样本设计简洁明确，消除了背景干扰和标注偏差，例如通过平衡计数样本的数值分布、设定最小边界框面积阈值等。特别值得注意的是，数据集通过分布匹配的评估设计，有效区分了数据不匹配与模型视觉缺陷导致的错误，为模型能力评估提供了高信噪比环境。

使用方法

使用AVA-BENCH评估VFMs需遵循三阶段流程：首先采用LLaVA风格的两阶段训练对齐视觉语言特征，随后为每个AVA单独微调连接器和LoRA模块，同时保持VFM参数冻结。评估时推荐采用轻量级0.5B LLM（如Qwen2），其在保持与7B模型相当排序能力的同时可降低8倍计算成本。针对不同AVA需采用特定指标：绝对深度和计数使用归一化平均绝对误差，定位采用广义交并比（GIoU），OCR采用归一化编辑距离（ANLS），其余任务使用标准准确率。通过分析模型在各AVA上的表现差异，可生成独特的'能力指纹'，为下游任务模型选型提供量化依据。

背景与挑战

背景概述

AVA-BENCH是由俄亥俄州立大学和Adobe Research的研究团队于2025年提出的首个针对视觉基础模型（VFMs）的原子视觉能力基准测试。该数据集旨在系统评估VFMs在14种基础视觉能力（如定位、深度估计、空间理解等）上的表现，解决了传统视觉问答（VQA）评估中存在的两个关键盲点：1）指令调优数据与测试分布不匹配；2）复杂问题需要多种视觉能力组合，难以准确定位模型缺陷。AVA-BENCH通过解耦这些基础能力并提供分布匹配的训练和测试数据，为VFMs的评估提供了更精确的诊断工具，推动了视觉基础模型的透明化和针对性改进。

当前挑战

AVA-BENCH面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集需要解决复杂视觉推理任务中的能力解耦问题，即如何准确评估模型在单一视觉能力（如颜色识别或空间推理）上的表现，而不受其他能力干扰。在构建过程中，挑战包括：1）从26个不同数据集中精心筛选和设计图像-问题对，确保每个问题仅针对一种原子视觉能力；2）严格控制数据质量，包括平衡训练和测试分布、避免标注偏差、确保对象可见性等；3）处理多模态对齐问题，特别是在整合视觉和语言模态时可能出现的特征信息丢失。这些挑战使得AVA-BENCH的构建成为一个复杂而精细的过程，需要大量的领域知识和数据处理技巧。

常用场景

经典使用场景

AVA-BENCH作为首个明确解耦14种原子视觉能力（AVAs）的基准测试工具，在视觉基础模型（VFMs）评估领域具有开创性意义。该数据集通过精心设计的实验范式，将传统视觉问答任务拆解为定位、深度估计、空间理解等基础能力单元，为研究者提供了细粒度分析模型视觉认知能力的显微镜。其经典使用场景包括：系统性评估不同预训练目标的VFMs在各原子能力维度的表现差异，揭示模型在复合视觉任务中失败的具体能力缺陷，以及指导领域专用模型的选型与组合。

解决学术问题

AVA-BENCH有效解决了视觉评估领域的两个关键盲点：其一，通过确保每个AVA内部训练与测试数据分布的一致性，消除了因数据失配导致的性能误判；其二，将复合视觉能力解耦为独立评估的原子单元，使研究者能精准定位模型失败的根本原因（如仅缺失方向识别能力而非整体视觉缺陷）。该数据集推动视觉能力评估从黑箱比较走向白盒诊断，为VFMs的可解释性研究提供了量化框架，并验证了语言监督对提升视觉泛化能力的关键作用。

衍生相关工作

AVA-BENCH催生了多个重要研究方向：基于能力指纹的模型组合方法（如RADIOv2.1的聚合架构）、面向特定AVA优化的高效微调策略（参见Tu等人2023的视觉查询调优工作）、以及视觉-语言模态对齐的新范式（如ShareGPT4V的 caption 增强技术）。该基准还被拓展至专业领域评估，如医疗诊断模型DiagnosticsLLM和交通场景理解框架MLLM-SUL，均采用AVA解耦思路构建领域专用测试集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集