HAID（Hierarchical Abstraction Image Dataset）

Name: HAID（Hierarchical Abstraction Image Dataset）
Creator: 英国伯明翰大学计算机科学学院
Published: 2025-09-18 00:30:34
License: 暂无描述

arXiv2025-09-18 更新2025-09-19 收录

下载链接：

https://fronik-lihaotian.github.io/HAID_page/

下载链接

链接失效反馈

官方服务：

资源简介：

HAID是一个包含多个抽象级别的SVG图像数据集，这些图像是从现有的光栅图像数据集中生成的。数据集主要包含MiniImageNet、Caltech-256和CIFAR-10三个子集，每个子集都有不同数量的抽象级别。HAID旨在研究图像的抽象级别如何影响视觉语义信息捕获的能力，并探究不同抽象级别的抽象图像表示对下游任务的贡献。

HAID is an SVG image dataset with multiple levels of abstraction, where all images are generated from existing raster image datasets. The dataset mainly includes three subsets: MiniImageNet, Caltech-256 and CIFAR-10, each with a distinct number of abstraction levels. HAID is designed to study how the abstraction level of images affects the ability to capture visual semantic information, and explore the contribution of abstract image representations at different abstraction levels to downstream tasks.

提供机构：

英国伯明翰大学计算机科学学院

创建时间：

2025-09-18

搜集汇总

数据集介绍

构建方式

HAID数据集通过Primitive算法从原始栅格图像中系统生成多层次抽象图像，该算法采用迭代优化策略，通过随机生成候选几何基元并基于均方根误差进行形状突变筛选，逐步构建由圆形、三角形等基本几何元素组成的矢量图形。数据集涵盖10至1000个形状的抽象层级，确保了从粗粒度到细粒度的语义保留梯度，并严格保持与源图像的一一对应关系。

特点

该数据集的核心特征在于其层次化抽象结构，每个原始图像对应多个抽象层级，从而支持对视觉语义信息在不同粒度下的系统性研究。抽象图像采用SVG格式存储，具备无损缩放特性与代码可编辑性，同时通过控制基元数量精确调控语义保留程度。数据集覆盖分类、检测与分割三大视觉任务，包含MiniImageNet、Caltech-256等多源数据衍生版本，为探索几何基元与复杂语义的关联提供了标准化实验基础。

使用方法

研究者可通过加载不同抽象层级的SVG图像，直接输入卷积神经网络进行端到端训练，或将其转换为栅格格式兼容传统视觉 pipeline。在分类任务中，可通过对比不同抽象层级的模型性能分析语义保留效果；在下游任务中，可将预训练的抽象图像表征作为骨干网络权重，迁移至分割或检测框架进行微调实验。数据集已按标准比例划分训练、验证与测试集，支持跨模型架构的泛化性验证与可视化分析。

背景与挑战

背景概述

HAID（层次抽象图像数据集）由伯明翰大学计算机科学学院的Haotian Li和Jianbo Jiao于2025年创建，旨在探索抽象图像在视觉表示学习中的潜力。该数据集通过Primitive工具从经典栅格图像数据集（如MiniImageNet、Caltech-256和CIFAR-10）生成多层级抽象化的SVG图像，核心研究问题是分析抽象层级对语义信息捕获能力的影响，以及抽象图像能否替代传统像素图像支持分类、检测和分割等视觉任务。HAID为计算机视觉领域提供了首个系统研究形状基元与语义表达关联性的基准，推动了矢量图形与深度学习融合的前沿探索。

当前挑战

HAID解决的领域挑战在于弥合抽象图像与栅格图像在语义表示性能上的差距，具体涉及模型从形状基元中捕获细粒度特征的能力不足问题。构建过程中的挑战包括：Primitive工具迭代生成形状时需平衡抽象层级与语义保真度；SVG图像需与原始栅格图像严格对应以确保评估一致性；高抽象层级（如1000形状）导致文件容量激增，需优化存储与计算效率；此外，人类感知实验设计需区分简单与复杂场景的抽象识别阈值，以验证认知与计算模型的一致性。

常用场景

经典使用场景

在计算机视觉领域，HAID数据集通过多层级抽象图像为研究形状语义表示提供了独特平台。该数据集最经典的应用场景在于系统评估深度学习模型在不同抽象层级下的视觉理解能力，研究者通过对比原始栅格图像与对应矢量抽象图像的表示差异，探索模型对几何轮廓与纹理细节的感知机制。

解决学术问题

HAID数据集解决了抽象图像与栅格图像表示性能差距的归因问题，通过控制形状数量这一核心变量，揭示了细粒度特征缺失对语义理解的关键影响。其意义在于首次量化了抽象层级与语义保真度的关联性，为矢量图形在视觉任务中的有效性提供了实证基础，推动了基于几何先验的表示学习范式发展。

衍生相关工作

HAID催生了多项关于矢量图形理解的重要研究，例如基于注意力机制的抽象图像解析框架SVGFormer，以及结合大语言模型的矢量图形生成系统StarVector。这些工作扩展了抽象图像在跨模态检索、矢量动画生成等方向的应用边界，并启发了针对几何特征优化的新型神经网络架构设计。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集