five

AVA-BENCH

收藏
arXiv2025-06-10 更新2025-06-13 收录
下载链接:
https://zheda-mai.github.io/AVA-Bench/
下载链接
链接失效反馈
官方服务:
资源简介:
AVA-BENCH是一个针对视觉基础模型(VFMs)的评估基准,旨在明确区分14种基本的视觉能力(AVAs),这些能力是解决复杂视觉推理任务的基础技能,如定位、深度估计和空间理解。该数据集通过将AVAs解耦并匹配每个AVAs的训练和测试分布,能够准确指出VFM在哪些方面表现优异或不足。AVA-BENCH涵盖了广泛的应用领域,旨在为下一代VFMs的发展奠定基础。
提供机构:
俄亥俄州立大学, Adobe Research
创建时间:
2025-06-10
搜集汇总
数据集介绍
main_image_url
构建方式
AVA-BENCH数据集的构建基于对14种原子视觉能力(Atomic Visual Abilities, AVAs)的系统解耦,这些能力包括定位、计数、空间推理、方向识别等。构建过程中,研究团队从26个多样化数据集中精心筛选图像-问题对,确保每个问题仅针对单一AVA进行测试。通过提供边界框等辅助信息,有效隔离了不同视觉能力的评估,避免了多能力混杂带来的干扰。数据集采用严格的80/20训练测试划分,确保每个AVA内部训练与测试分布的一致性,从而准确反映视觉基础模型(VFMs)在特定能力上的真实表现。
特点
AVA-BENCH的核心特点在于其原子化的评估框架,通过解耦14种基础视觉能力,为VFMs提供了细粒度的性能诊断工具。数据集包含21.8万对经过严格质量控制的问题-图像样本,覆盖野生动物、室内外场景、遥感图像等多元领域。每个AVA样本设计简洁明确,消除了背景干扰和标注偏差,例如通过平衡计数样本的数值分布、设定最小边界框面积阈值等。特别值得注意的是,数据集通过分布匹配的评估设计,有效区分了数据不匹配与模型视觉缺陷导致的错误,为模型能力评估提供了高信噪比环境。
使用方法
使用AVA-BENCH评估VFMs需遵循三阶段流程:首先采用LLaVA风格的两阶段训练对齐视觉语言特征,随后为每个AVA单独微调连接器和LoRA模块,同时保持VFM参数冻结。评估时推荐采用轻量级0.5B LLM(如Qwen2),其在保持与7B模型相当排序能力的同时可降低8倍计算成本。针对不同AVA需采用特定指标:绝对深度和计数使用归一化平均绝对误差,定位采用广义交并比(GIoU),OCR采用归一化编辑距离(ANLS),其余任务使用标准准确率。通过分析模型在各AVA上的表现差异,可生成独特的'能力指纹',为下游任务模型选型提供量化依据。
背景与挑战
背景概述
AVA-BENCH是由俄亥俄州立大学和Adobe Research的研究团队于2025年提出的首个针对视觉基础模型(VFMs)的原子视觉能力基准测试。该数据集旨在系统评估VFMs在14种基础视觉能力(如定位、深度估计、空间理解等)上的表现,解决了传统视觉问答(VQA)评估中存在的两个关键盲点:1)指令调优数据与测试分布不匹配;2)复杂问题需要多种视觉能力组合,难以准确定位模型缺陷。AVA-BENCH通过解耦这些基础能力并提供分布匹配的训练和测试数据,为VFMs的评估提供了更精确的诊断工具,推动了视觉基础模型的透明化和针对性改进。
当前挑战
AVA-BENCH面临的挑战主要包括两方面:领域问题挑战和构建过程挑战。在领域问题方面,该数据集需要解决复杂视觉推理任务中的能力解耦问题,即如何准确评估模型在单一视觉能力(如颜色识别或空间推理)上的表现,而不受其他能力干扰。在构建过程中,挑战包括:1)从26个不同数据集中精心筛选和设计图像-问题对,确保每个问题仅针对一种原子视觉能力;2)严格控制数据质量,包括平衡训练和测试分布、避免标注偏差、确保对象可见性等;3)处理多模态对齐问题,特别是在整合视觉和语言模态时可能出现的特征信息丢失。这些挑战使得AVA-BENCH的构建成为一个复杂而精细的过程,需要大量的领域知识和数据处理技巧。
常用场景
经典使用场景
AVA-BENCH作为首个明确解耦14种原子视觉能力(AVAs)的基准测试工具,在视觉基础模型(VFMs)评估领域具有开创性意义。该数据集通过精心设计的实验范式,将传统视觉问答任务拆解为定位、深度估计、空间理解等基础能力单元,为研究者提供了细粒度分析模型视觉认知能力的显微镜。其经典使用场景包括:系统性评估不同预训练目标的VFMs在各原子能力维度的表现差异,揭示模型在复合视觉任务中失败的具体能力缺陷,以及指导领域专用模型的选型与组合。
解决学术问题
AVA-BENCH有效解决了视觉评估领域的两个关键盲点:其一,通过确保每个AVA内部训练与测试数据分布的一致性,消除了因数据失配导致的性能误判;其二,将复合视觉能力解耦为独立评估的原子单元,使研究者能精准定位模型失败的根本原因(如仅缺失方向识别能力而非整体视觉缺陷)。该数据集推动视觉能力评估从黑箱比较走向白盒诊断,为VFMs的可解释性研究提供了量化框架,并验证了语言监督对提升视觉泛化能力的关键作用。
衍生相关工作
AVA-BENCH催生了多个重要研究方向:基于能力指纹的模型组合方法(如RADIOv2.1的聚合架构)、面向特定AVA优化的高效微调策略(参见Tu等人2023的视觉查询调优工作)、以及视觉-语言模态对齐的新范式(如ShareGPT4V的 caption 增强技术)。该基准还被拓展至专业领域评估,如医疗诊断模型DiagnosticsLLM和交通场景理解框架MLLM-SUL,均采用AVA解耦思路构建领域专用测试集。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作