AVA-BENCH

Name: AVA-BENCH
Creator: 俄亥俄州立大学, Adobe Research
Published: 2025-06-10 13:43:34
License: 暂无描述

arXiv2025-06-10 更新2025-06-13 收录

下载链接：

https://zheda-mai.github.io/AVA-Bench/

下载链接

链接失效反馈

官方服务：

资源简介：

AVA-BENCH是一个针对视觉基础模型（VFMs）的评估基准，旨在明确区分14种基本的视觉能力（AVAs），这些能力是解决复杂视觉推理任务的基础技能，如定位、深度估计和空间理解。该数据集通过将AVAs解耦并匹配每个AVAs的训练和测试分布，能够准确指出VFM在哪些方面表现优异或不足。AVA-BENCH涵盖了广泛的应用领域，旨在为下一代VFMs的发展奠定基础。

提供机构：

俄亥俄州立大学, Adobe Research

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

AVA-BENCH数据集的构建基于对14种原子视觉能力（Atomic Visual Abilities, AVAs）的系统解耦，这些能力包括定位、计数、空间推理、方向识别等。构建过程中，研究团队从26个多样化数据集中精心筛选图像-问题对，确保每个问题仅针对单一AVA进行测试。通过提供边界框等辅助信息，有效隔离了不同视觉能力的评估，避免了多能力混杂带来的干扰。数据集采用严格的80/20训练测试划分，确保每个AVA内部训练与测试分布的一致性，从而准确反映视觉基础模型（VFMs）在特定能力上的真实表现。

特点

AVA-BENCH的核心特点在于其原子化的评估框架，通过解耦14种基础视觉能力，为VFMs提供了细粒度的性能诊断工具。数据集包含21.8万对经过严格质量控制的问题-图像样本，覆盖野生动物、室内外场景、遥感图像等多元领域。每个AVA样本设计简洁明确，消除了背景干扰和标注偏差，例如通过平衡计数样本的数值分布、设定最小边界框面积阈值等。特别值得注意的是，数据集通过分布匹配的评估设计，有效区分了数据不匹配与模型视觉缺陷导致的错误，为模型能力评估提供了高信噪比环境。

使用方法

使用AVA-BENCH评估VFMs需遵循三阶段流程：首先采用LLaVA风格的两阶段训练对齐视觉语言特征，随后为每个AVA单独微调连接器和LoRA模块，同时保持VFM参数冻结。评估时推荐采用轻量级0.5B LLM（如Qwen2），其在保持与7B模型相当排序能力的同时可降低8倍计算成本。针对不同AVA需采用特定指标：绝对深度和计数使用归一化平均绝对误差，定位采用广义交并比（GIoU），OCR采用归一化编辑距离（ANLS），其余任务使用标准准确率。通过分析模型在各AVA上的表现差异，可生成独特的'能力指纹'，为下游任务模型选型提供量化依据。

背景与挑战

背景概述

AVA-BENCH是由俄亥俄州立大学和Adobe Research的研究团队于2025年提出的首个针对视觉基础模型（VFMs）的原子视觉能力基准测试。该数据集旨在系统评估VFMs在14种基础视觉能力（如定位、深度估计、空间理解等）上的表现，解决了传统视觉问答（VQA）评估中存在的两个关键盲点：1）指令调优数据与测试分布不匹配；2）复杂问题需要多种视觉能力组合，难以准确定位模型缺陷。AVA-BENCH通过解耦这些基础能力并提供分布匹配的训练和测试数据，为VFMs的评估提供了更精确的诊断工具，推动了视觉基础模型的透明化和针对性改进。

当前挑战

AVA-BENCH面临的挑战主要包括两方面：领域问题挑战和构建过程挑战。在领域问题方面，该数据集需要解决复杂视觉推理任务中的能力解耦问题，即如何准确评估模型在单一视觉能力（如颜色识别或空间推理）上的表现，而不受其他能力干扰。在构建过程中，挑战包括：1）从26个不同数据集中精心筛选和设计图像-问题对，确保每个问题仅针对一种原子视觉能力；2）严格控制数据质量，包括平衡训练和测试分布、避免标注偏差、确保对象可见性等；3）处理多模态对齐问题，特别是在整合视觉和语言模态时可能出现的特征信息丢失。这些挑战使得AVA-BENCH的构建成为一个复杂而精细的过程，需要大量的领域知识和数据处理技巧。

常用场景

经典使用场景

AVA-BENCH作为首个明确解耦14种原子视觉能力（AVAs）的基准测试工具，在视觉基础模型（VFMs）评估领域具有开创性意义。该数据集通过精心设计的实验范式，将传统视觉问答任务拆解为定位、深度估计、空间理解等基础能力单元，为研究者提供了细粒度分析模型视觉认知能力的显微镜。其经典使用场景包括：系统性评估不同预训练目标的VFMs在各原子能力维度的表现差异，揭示模型在复合视觉任务中失败的具体能力缺陷，以及指导领域专用模型的选型与组合。

解决学术问题

AVA-BENCH有效解决了视觉评估领域的两个关键盲点：其一，通过确保每个AVA内部训练与测试数据分布的一致性，消除了因数据失配导致的性能误判；其二，将复合视觉能力解耦为独立评估的原子单元，使研究者能精准定位模型失败的根本原因（如仅缺失方向识别能力而非整体视觉缺陷）。该数据集推动视觉能力评估从黑箱比较走向白盒诊断，为VFMs的可解释性研究提供了量化框架，并验证了语言监督对提升视觉泛化能力的关键作用。

衍生相关工作

AVA-BENCH催生了多个重要研究方向：基于能力指纹的模型组合方法（如RADIOv2.1的聚合架构）、面向特定AVA优化的高效微调策略（参见Tu等人2023的视觉查询调优工作）、以及视觉-语言模态对齐的新范式（如ShareGPT4V的 caption 增强技术）。该基准还被拓展至专业领域评估，如医疗诊断模型DiagnosticsLLM和交通场景理解框架MLLM-SUL，均采用AVA解耦思路构建领域专用测试集。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集