Sketchy

Name: Sketchy
Creator: 维罗纳大学; 布鲁诺·凯斯勒基金会; 都灵理工学院; 雷克雅未克大学
Published: 2026-02-21 00:07:31
License: 暂无描述

arXiv2026-02-21 更新2026-02-24 收录

下载链接：

https://intelligolabs.github.io/lots/

下载链接

链接失效反馈

官方服务：

资源简介：

Sketchy是由维罗纳大学等机构联合构建的首个专注于局部草图-文本对条件生成的时尚数据集，基于Fashionpedia重构并扩展。该数据集包含4.7万套服装的10.4万个局部草图-文本对，提供专业级结构清晰的草图及细粒度文本描述，并额外包含141套非专业绘制的'野生'草图以评估模型鲁棒性。数据通过自动化标注模拟设计师草图风格，支持多服装组合的细粒度控制生成，旨在解决时尚设计中全局结构保持与局部语义精准对齐的挑战。

Sketchy is the first fashion dataset focused on conditional generation of local sketch-text pairs, jointly constructed by the University of Verona and other institutions, and reconstructed and expanded based on Fashionpedia. This dataset contains 104,000 local sketch-text pairs for 47,000 clothing sets, provides professionally produced, structurally clear sketches and fine-grained textual descriptions, and additionally includes 141 sets of non-professionally drawn "wild" sketches for evaluating model robustness. The dataset simulates designer sketch styles through automated annotation, supports fine-grained controlled generation of multi-clothing combinations, and aims to address the challenges of preserving global structure and achieving precise alignment of local semantics in fashion design.

提供机构：

维罗纳大学; 布鲁诺·凯斯勒基金会; 都灵理工学院; 雷克雅未克大学

创建时间：

2026-02-21

搜集汇总

数据集介绍

构建方式

在时尚设计领域，草图与文本描述的协同为生成式模型提供了精细控制的可能性。Sketchy数据集以Fashionpedia为基础，通过自动化流程构建而成。首先，对原始数据中的服装项目进行层次化重组，将整体服装与局部部件（如袖口、领型）依据掩膜重叠关系进行关联。随后，利用大型语言模型将每个服装项目的属性集合转化为连贯的自然语言描述，并引入视觉语言模型提取实例级颜色信息以弥补原始标注的缺失。草图的生成则通过预训练的图像转草图模型实现，结合掩膜技术确保每个草图仅包含对应服装的结构信息。此外，数据集还包含一个由非专业用户绘制的“野外”草图子集，通过专用平台收集，以评估模型在真实、不完美输入下的鲁棒性。

特点

Sketchy作为首个专为局部草图-文本条件生成设计的时尚数据集，其核心特点在于提供了多层次、精细化的标注。每个样本包含多个局部草图-文本对，分别对应同一套服装中的不同单品，实现了对服装组合的细粒度语义与结构控制。数据集中的草图具有专业的设计感，结构清晰、轮廓自然，而“野外”子集则引入了更高的风格多样性和绘制瑕疵，模拟了真实用户输入场景。在规模上，数据集涵盖约4.7万套服装图像和10.4万个局部标注对，平均每张图像包含2.2个服装项目，确保了数据的丰富性和复杂性。

使用方法

Sketchy数据集主要用于训练和评估支持多局部条件生成的时尚图像合成模型，如论文中提出的LOTS框架。在使用时，模型接收一组局部草图及其对应的文本描述作为输入，同时可结合全局草图与全局上下文描述以增强整体协调性。数据集的标注格式支持对生成图像进行多维度评估，包括全局图像质量、草图结构遵循度、局部语义对齐以及属性混淆的度量。研究者可利用其标准划分进行模型训练，并在“野外”子集上测试模型对非专业草图的泛化能力。数据集及其配套代码平台已公开，便于复现实验和推动该领域的后续研究。

背景与挑战

背景概述

Sketchy数据集由意大利维罗纳大学与布鲁诺·凯斯勒基金会的研究团队于2026年创建，旨在解决时尚设计领域多模态图像生成的精细化控制问题。该数据集基于Fashionpedia构建，首次为每张图像提供多个局部草图-文本对，以支持对复杂多服装组合的细粒度语义与结构控制。其核心研究问题聚焦于如何协同利用局部草图的结构信息与文本描述的语义细节，生成既符合全局轮廓又满足局部属性要求的高质量时尚图像。Sketchy的推出为时尚计算、多模态学习及可控图像生成领域提供了首个专门针对局部草图-文本条件的大规模基准，显著推动了设计流程自动化与个性化生成技术的发展。

当前挑战

Sketchy数据集所应对的领域挑战在于解决多服装组合图像生成中的属性混淆问题，即确保每个服装的文本描述属性（如颜色、图案）能精准对应到其草图指定的空间区域，避免语义泄漏或错位。构建过程中的主要挑战包括：一是从Fashionpedia的原始标注中构建层次化服装结构，需通过掩码重叠分析建立整体服装与部件间的归属关系；二是为每个服装实例生成高质量、风格一致的草图，需利用预训练的图像转草图模型并消除背景干扰；三是为缺乏自然语言描述的属性标注生成连贯的文本描述，需借助大语言模型进行结构化信息转换，并补充原始数据缺失的颜色信息。此外，数据集中还引入了由非专业用户绘制的“野外”草图分块，以评估模型对噪声和风格变化的鲁棒性，这进一步增加了数据采集与质量控制的复杂性。

常用场景

经典使用场景

在时尚设计领域，Sketchy数据集为多模态图像生成任务提供了关键支持。该数据集通过整合局部草图与文本描述对，构建了首个面向细粒度控制的时尚图像生成基准。其经典使用场景体现在支持基于多区域草图与文本配对的图像合成研究，例如设计师可通过绘制不同服装部件的轮廓草图，并辅以描述材质、颜色等属性的自然语言，驱动生成模型产出符合设计意图的完整时装图像。这一场景不仅模拟了实际设计流程中草图与文字协同创作的过程，也为评估模型在保持全局结构一致性与避免属性混淆方面的能力提供了标准化测试平台。

实际应用

在实际应用中，Sketchy数据集为智能化时尚设计工具的开发提供了核心训练资源。基于该数据集训练的模型可辅助设计师快速将概念草图转化为逼真的服装图像，显著缩短设计迭代周期。例如，在在线设计平台或虚拟试衣系统中，用户可通过简单绘制服装轮廓并添加文字描述，即时预览不同材质、颜色搭配的效果。此外，该数据集包含的“野外”草图分支模拟了非专业用户的输入，增强了模型对不规则手绘草图的鲁棒性，使其能够适应更广泛的消费级应用场景，如个性化服装定制与互动式时尚娱乐应用。

衍生相关工作

Sketchy数据集的发布催生了一系列围绕局部条件图像生成的经典研究工作。以该数据集为基础，LOTS框架首次提出了多层次条件融合策略，通过独立编码局部草图-文本对并引入全局结构指导，有效缓解了属性泄漏问题。后续研究在此基础上进一步探索了动态融合机制、跨模态注意力优化以及草图抽象层次适配等方向。同时，该数据集也促进了针对时尚领域的生成模型评估标准的发展，如局部化VQA分数等指标，为衡量细粒度语义对齐提供了新范式。这些衍生工作共同推动了可控图像生成技术在时尚与其他创意产业中的深入应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集