LayerPeeler Dataset

Name: LayerPeeler Dataset
Creator: City University of Hong Kong, China
Published: 2025-05-30 01:58:03
License: 暂无描述

arXiv2025-05-30 更新2025-05-31 收录

下载链接：

https://layerpeeler.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

LayerPeeler数据集是为图像分层向量化任务而构建的，它由从互联网收集的大量SVG图像组成，并带有详细的顶层注释。该数据集用于训练图像扩散模型，以实现精确的分层修改。数据集的设计支持LayerPeeler方法的迭代、分层图像向量化过程，通过自动回归剥离策略来逐步识别和去除最顶层的非遮挡层，同时恢复被遮挡的内容。LayerPeeler利用视觉语言模型的空间理解能力来推断遮挡关系和层顺序，并通过在图像扩散模型中控制注意力掩码来实现精确且保真的区域去除策略。该数据集的应用领域包括SVG图像的向量化，旨在解决现有图像向量化工具在处理遮挡区域时的不足，以提高编辑性和视觉保真度。

The LayerPeeler dataset is constructed for the task of image layered vectorization. It consists of a large number of SVG images collected from the Internet, with detailed top-layer annotations. This dataset is used to train image diffusion models to achieve precise layered modification. The design of the dataset supports the iterative, layered image vectorization process of the LayerPeeler method, which adopts an autoregressive peeling strategy to gradually identify and remove the topmost non-occluded layers while recovering occluded content. LayerPeeler leverages the spatial understanding capabilities of vision-language models to infer occlusion relationships and layer order, and implements precise and fidelity-preserving region removal strategies by controlling attention masks in image diffusion models. The application scenarios of this dataset include SVG image vectorization, aiming to address the shortcomings of existing image vectorization tools when handling occluded regions, so as to improve editability and visual fidelity.

提供机构：

City University of Hong Kong, China

创建时间：

2025-05-30

搜集汇总

数据集介绍

构建方式

LayerPeeler数据集的构建基于大规模SVG图像资源的系统性收集与标注流程。研究团队从SVGRepo和Iconfont平台获取179,000个初始样本，经过严格的预处理筛选，包括语法规范化、统一尺寸调整（512×512）和路径复杂度过滤（保留路径数≤30的样本），最终形成115,700个高质量SVG组成的核心数据集。通过创新的视觉语言模型辅助标注框架，对每个SVG进行分层解析：首先识别顶层非遮挡路径集合，通过双面板视觉提示机制（左侧完整图像/右侧孤立图层）引导Gemini-2.0-Flash生成语义化标注，最终构建包含617,000个编辑三元组（源图像-目标图像-文本指令）的训练资源。

特点

该数据集具有三个显著特征：1）层级化标注体系，通过精确记录SVG中每个路径的遮挡关系与图层顺序，建立完整的层间拓扑结构；2）多模态对齐特性，每个样本包含矢量路径、栅格化渲染图及自然语言描述的精准对应；3）风格多样性覆盖，涵盖扁平化图标、像素艺术等11类视觉风格，且通过分层剥离的渐进式标注策略，完整保留了图形元素的语义关联与几何约束。特别设计的视觉提示方案（棋盘背景/分栏布局）有效提升了VLM标注的几何精度。

使用方法

数据集主要支持基于扩散模型的层级化图像矢量化研究。使用时需遵循渐进式处理流程：首先加载预处理后的SVG栅格化图像，通过视觉语言模型解析初始层图结构；随后利用标注的文本指令指导扩散模型执行分层剥离操作，每轮迭代生成当前层的矢量路径并更新层图；最终通过反向堆叠获得完整SVG。关键步骤包括局部注意力控制（bounding box引导的区域编辑）和差分验证（像素级变化检测），建议配合LoRA微调的DiT架构实现最佳效果。测试阶段需注意半透明元素的特殊处理。

背景与挑战

背景概述

LayerPeeler数据集由香港城市大学的Ronghuan Wu、Monash University的Wanchao Su以及香港城市大学的Jing Liao等研究人员于2025年提出，旨在解决图像矢量化中遮挡区域恢复的难题。该数据集专注于层级的图像矢量化，通过自回归剥离策略逐步移除顶层非遮挡层并恢复被遮挡内容，从而生成具有完整路径和连贯层级结构的矢量图形。LayerPeeler的创新在于结合了视觉语言模型（VLMs）和图像扩散模型，构建了一个大规模的数据集以支持层级剥离任务的研究。该数据集的推出显著提升了矢量化的语义路径、几何规则性和视觉保真度，对计算机视觉和图形学领域产生了深远影响。

当前挑战

LayerPeeler数据集面临的挑战主要包括两方面：首先，在解决图像矢量化问题时，如何准确恢复被遮挡区域并保持层级结构的连贯性是一大难题，现有工具常产生不完整或碎片化的矢量元素；其次，在构建数据集过程中，研究人员需处理大规模SVG数据的收集与标注，确保数据多样性和质量，同时克服视觉语言模型在初始图构建中的不准确性以及图像生成模型可能引入的伪影问题。此外，数据稀缺性和模型泛化能力也是构建过程中需要解决的关键挑战。

常用场景

经典使用场景

在计算机视觉与图形学领域，LayerPeeler数据集为层感知图像矢量化研究提供了基准测试平台。其核心应用场景在于解决复杂遮挡情况下的矢量图形重构问题，通过自回归剥离机制逐步解构图像层次，特别适用于包含多重遮挡元素的卡通风格图标、界面设计素材等非真实感图像的矢量化任务。数据集通过记录每轮剥离操作中的层间关系与视觉特征，为算法提供了从初始图像到完整层序分解的全流程监督信号。

衍生相关工作

该数据集催生了多个标志性研究方向：Song等人提出的LayerTracer框架首次将扩散Transformer引入矢量序列预测；Wang团队开发的LIVSS系统结合语义分割优化了层剥离顺序；Zhou的SGLIVE方法则利用该数据集训练梯度填充预测网络。这些工作共同推动形成了'分析-剥离-重构'的三阶段矢量化范式，相关成果在SIGGRAPH 2026专题研讨会中被列为层感知图形处理的基准方法。

数据集最近研究