Atomic Visual Skills Dataset (AVSD)

Name: Atomic Visual Skills Dataset (AVSD)
Creator: 首尔国立大学, 加利福尼亚大学洛杉矶分校, 威斯康星大学麦迪逊分校, Google DeepMind
Published: 2025-05-26 22:09:24
License: 暂无描述

arXiv2025-05-26 更新2025-05-28 收录

下载链接：

https://github.com/hs-chae/AVSD25.git

下载链接

链接失效反馈

官方服务：

资源简介：

AVSD是一个评估视觉语言模型(VLMs)在基本、不可分割的视觉感知技能方面的数据集。该数据集由首尔国立大学、加利福尼亚大学洛杉矶分校、威斯康星大学麦迪逊分校和Google DeepMind的研究团队创建，旨在解决VLMs在处理简单视觉任务时的不足。数据集包含36种原子视觉技能，涵盖了高中及以下水平的二维欧几里得几何学中的图解。AVSD由三个子数据集组成：AVSD-h，手工制作的数据集；AVSD-s，程序生成的模拟数据集；AVSD-c，通过ControlNet进行风格和纹理增强的模拟数据集。这些子数据集提供了超过13,000个问题，用于评估VLMs在原子视觉技能方面的能力。AVSD旨在帮助研究人员训练和评估VLMs，以解决多模态感知和推理任务中需要精确理解视觉输入的问题。

AVSD is a dataset for evaluating vision-language models (VLMs) on fundamental and indivisible visual perceptual skills. It was developed by research teams from Seoul National University, University of California, Los Angeles, University of Wisconsin-Madison, and Google DeepMind, aiming to address the limitations of VLMs when handling simple visual tasks. The dataset contains 36 atomic visual skills, covering diagrams from two-dimensional Euclidean geometry at the high school level and below. AVSD consists of three subsets: AVSD-h, a handcrafted dataset; AVSD-s, a procedurally generated simulated dataset; and AVSD-c, a simulated dataset enhanced in style and texture via ControlNet. These subsets provide over 13,000 questions for assessing VLMs' capabilities in atomic visual skills. AVSD is designed to help researchers train and evaluate VLMs to solve multimodal perception and reasoning tasks that require precise understanding of visual inputs.

提供机构：

首尔国立大学, 加利福尼亚大学洛杉矶分校, 威斯康星大学麦迪逊分校, Google DeepMind

创建时间：

2025-05-26

搜集汇总

数据集介绍

构建方式

Atomic Visual Skills Dataset (AVSD) 是一个专门设计用于评估视觉语言模型（VLMs）在基础视觉感知技能上的表现的数据集。该数据集通过系统性地分解复杂的视觉理解任务，构建了36种不可再分的基础视觉技能，涵盖了2D欧几里得几何领域的基本概念。AVSD包含三个子数据集：AVSD-h（手工制作的数据集，用于深入评估）、AVSD-s（程序生成的合成数据集，模拟数学教材和考试中的几何问题）以及AVSD-c（通过ControlNet进行风格和纹理增强的合成数据集，用于评估VLMs对风格变化的鲁棒性）。每个问题由图像、问题和答案组成，旨在确保多样性和技能隔离。

特点

AVSD的主要特点包括其专注于基础视觉技能的评估，这些问题对人类成人来说是微不足道的，但对当前最先进的VLMs却具有挑战性。数据集涵盖了从角度、方向、边界到连通性、反射和旋转等多种技能。此外，AVSD通过多样化的表达和格式设计问题，以减少模型对特定提示格式的依赖。数据集还通过风格增强的子数据集AVSD-c，评估模型在不同视觉风格下的表现鲁棒性。

使用方法

AVSD的使用方法包括评估VLMs在基础视觉技能上的表现，识别模型在几何感知方面的局限性。研究人员可以通过AVSD-h进行详细的技能评估，使用AVSD-s生成大量训练数据以进行模型微调，并通过AVSD-c测试模型对风格变化的适应性。数据集的设计使其适用于多种评估协议，包括直接问题回答和链式思考（CoT）提示。此外，AVSD还提供了详细的验证和过滤机制，确保数据的质量和一致性。

背景与挑战

背景概述

Atomic Visual Skills Dataset (AVSD) 是由首尔国立大学、加州大学洛杉矶分校、威斯康星大学麦迪逊分校和Google DeepMind的研究团队于2025年5月提出的一个专门用于评估视觉语言模型（VLMs）在基础几何视觉感知任务上的表现的数据集。该数据集聚焦于2D欧几里得几何领域，系统性地定义了36种不可再分的基础视觉感知技能（称为原子视觉技能），并构建了包含13,188个问题的三个子数据集（AVSD-h、AVSD-s、AVSD-c）。研究团队发现，尽管这些任务对人类成年人来说非常简单，但当前最先进的VLMs在这些任务上表现不佳，凸显了VLMs在基础视觉感知能力上的不足。AVSD的提出填补了现有VLM评估基准在基础几何视觉技能上的空白，为改进VLMs的视觉感知能力提供了重要的研究工具。

当前挑战

AVSD主要解决两大挑战：1) 领域问题挑战：当前VLMs在需要精确视觉理解的复合任务（如几何推理）中表现不佳，其根本原因可能在于缺乏基础视觉感知能力。AVSD通过分解复杂视觉理解任务为原子技能，揭示了VLMs在基础几何感知上的缺陷。2) 构建过程挑战：构建AVSD时需要确保每个问题只针对单一原子技能，同时保持问题的多样性和技能之间的隔离性；此外，生成风格多样的合成数据（AVSD-c）时需保持几何信息的完整性，这需要设计复杂的质量控制流程（如基于Canny边缘相似度的过滤机制）。数据集的三个子集（手crafted数据、合成数据和风格增强数据）的构建都面临不同的技术挑战，如避免数据污染、保证问题可解性等。

常用场景

经典使用场景

Atomic Visual Skills Dataset (AVSD) 主要用于评估视觉语言模型（VLMs）在基础几何感知任务上的表现。该数据集通过分解复杂的视觉理解任务为36种不可再分的基础视觉技能（如角度识别、反射对称性检测等），为研究者提供了一个系统化的评估框架。在几何问题求解、科学图表理解等需要精确视觉感知的多模态推理任务中，AVSD通过其手工构建（AVSD-h）、程序生成（AVSD-s）和风格增强（AVSD-c）三个子数据集，成为测试模型原子级视觉能力的黄金标准。

解决学术问题

AVSD揭示了当前VLMs在基础几何感知上的显著缺陷：即使最先进的模型也难以完成对人类而言简单的任务（如判断切线关系或旋转对称性）。该数据集解决了传统多模态评测中语言偏见干扰视觉能力测量的问题，通过隔离视觉技能并设计风格鲁棒性测试，明确了模型在几何图表理解中的瓶颈。其意义在于推动学界重新思考VLMs的训练范式——需要像人类一样先掌握原子视觉技能，再组合为复杂推理能力。

衍生相关工作

AVSD催生了多个针对性研究：Math-LLaVA等几何专用VLMs通过该数据集发现领域适应训练的局限性；控制变量研究如CV-Bench借鉴其原子技能分解方法评估空间关系认知；风格鲁棒性分析启发了MMVP等视觉模式理解研究。后续工作如Euclid在几何公理体系构建、SugarCrepe在组合性评估中均沿用了AVSD的评测哲学。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集