Sketchy

Name: Sketchy
Creator: University of Verona, Fondazione Bruno Kessler, Polytechnic Institute of Turin, University of Reykjavik
Published: 2025-07-30 20:48:29
License: 暂无描述

arXiv2025-07-30 更新2025-08-01 收录

下载链接：

https://intelligolabs.github.io/lots

下载链接

链接失效反馈

官方服务：

资源简介：

Sketchy是一个基于Fashionpedia构建的时尚领域数据集，旨在为局部化草图到图像生成问题提供模型训练和评估。该数据集为每张图像提供了多个草图和细粒度描述，使模型能够根据局部化条件进行图像生成。Sketchy数据集的创建是为了解决时尚设计中属性混淆的问题，通过使用多个局部化草图和文本对，模型能够在生成图像时更精确地反映每个部分的设计细节，从而实现高水平的定制化设计。

Sketchy is a fashion-domain dataset built upon Fashionpedia, designed to provide training and evaluation resources for localized sketch-to-image generation tasks. This dataset provides multiple sketches and fine-grained descriptions for each image, enabling models to generate images conditioned on localized details. The Sketchy dataset was developed to address the issue of attribute confusion in fashion design: by utilizing multiple localized sketches and text pairs, models can accurately reflect the design details of each component during image generation, thereby achieving high-level customized fashion design.

提供机构：

University of Verona, Fondazione Bruno Kessler, Polytechnic Institute of Turin, University of Reykjavik

创建时间：

2025-07-30

原始信息汇总

LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing

数据集概述

名称: LOTS (LOcalized Text and Sketch)
用途: 通过草图-文本配对实现多条件图像生成
领域: 时尚设计、图像生成
发布状态: ORAL at ICCV 2025
代码状态: Coming soon
arXiv: 未提供链接
数据集: Sketchy (基于Fashionpedia构建)

核心贡献

局部草图-文本图像生成
- 通过多个局部草图-文本对和全局描述推进最先进的条件生成技术
局部文本和草图适配器
- 新型扩散适配器，通过模块化、基于配对的注意力处理减轻属性混淆
Sketchy数据集
- 新的时尚数据集，用于训练和评估局部草图-文本图像生成模型
最先进性能
- 在图像质量、草图-文本条件和属性定位方面达到最先进水平

方法细节

配对中心表示
- 模块化配对中心表示将草图和文本编码到共享潜在空间
- 保留独立局部特征，最小化跨对信息泄漏
延迟扩散配对引导
- 将局部表示作为预训练扩散模型的输入条件
- 通过跨注意力策略将任务分解到多个去噪步骤

Sketchy数据集

基础: 基于Fashionpedia的全身物品和服装部件标注
结构: 通过将服装部件标注与其相关的全身服装配对构建层次结构
内容: 使用现成模型生成服装级草图和自然语言描述

引用格式

bibtex @inproceedings{girella2025lots, author = {Girella, Federico and Talon, Davide and Lie, Ziyue and Ruan, Zanxi and Wang, Yiming and Cristani, Marco}, title = {LOTS of Fashion! Multi-Conditioning for Image Generation via Sketch-Text Pairing}, journal = {Proceedings of the International Conference on Computer Vision}, year = {2025}, }

致谢

支持机构: LoCa AI, PNRR FAIR, Italiadomani, iNEST
计算资源: CINECA, EuroHPC, MareNostrum5
贡献方: HUMATICS (SYS-DAT Group company)

搜集汇总

数据集介绍

构建方式

Sketchy数据集基于Fashionpedia构建，通过系统化的数据组织与增强策略实现了时尚设计领域的多模态标注。研究者首先对Fashionpedia的46,000张图像进行层次化重构，建立服装整体与部件间的拓扑关联，利用分割掩模计算重叠区域完成部件归属判定。采用Llama 3.1模型将结构化属性转换为自然语言描述，并通过Photo-sketching模型生成局部草图，结合掩模技术消除背景干扰，最终形成包含79,000个服装标注的多模态数据集。

特点

该数据集的核心价值在于其细粒度的多模态标注体系，每个样本包含服装层级的草图、自然语言描述及57个语义属性。通过两层次的标注架构（整体服装与部件），实现了对服装设计元素的精准解构。数据增强策略显著提升了标注质量，平均每个图像包含1.7个标注实例，文本描述平均长度16词，草图经过局部优化处理保留了服装轮廓的关键细节。特别设计的层次化标注结构有效解决了时尚领域复杂的组合性问题。

使用方法

Sketchy数据集主要支持基于草图-文本对的生成模型训练与评估。使用时需加载层次化标注数据，其中草图作为空间约束条件，文本描述提供语义指导。研究者建议采用分阶段训练策略：先利用全局描述预训练生成模型，再通过局部草图-文本对进行微调。评估时可采用FID、CLIP-score等指标衡量生成质量，同时通过人工评估验证属性定位准确性。该数据集特别适合研究多条件控制的生成模型，如论文提出的LOTS架构。

背景与挑战

背景概述

Sketchy数据集由Verona大学、Fondazione Bruno Kessler等机构的研究团队于2025年构建，是首个针对时尚设计领域多模态条件生成任务的专业数据集。该数据集基于Fashionpedia的标注体系，通过建立服装部件与整体服饰的层次化关联，为每张图像提供局部草图-文本对标注，旨在解决传统文本到图像生成中细粒度属性控制不足的难题。其创新性地将设计师的草图空间信息与自然语言描述的语义细节相结合，推动了时尚产业从概念草图到成品图像的智能化设计流程发展，为多模态条件生成模型提供了重要的基准测试平台。

当前挑战

Sketchy数据集面临的核心挑战体现在两个方面：在领域问题层面，需解决时尚图像生成中细粒度属性定位的精确控制问题，如避免"条纹衬衫"属性错误映射到裤子的跨部件混淆现象；在构建过程中，需克服服装部件层次化标注的复杂性，包括处理32类服装零件与14类整体服饰的拓扑关联，以及通过图像分割和LLM生成确保局部草图-文本对的语义一致性。此外，数据集的评估体系需同时兼顾全局图像质量（FID）、局部属性对齐（LocalCLIP）和结构相似性（SSIM）等多维度指标，这对生成模型的跨模态理解能力提出了更高要求。

常用场景

经典使用场景

Sketchy数据集在时尚设计和图像生成领域具有广泛的应用场景。该数据集通过结合草图与文本描述，为设计师提供了一个强大的工具，能够将抽象的创意灵感转化为具体的视觉输出。在时尚设计过程中，设计师通常通过草图勾勒服装的轮廓和结构，再辅以文本描述来补充材质、纹理和风格等细节。Sketchy数据集的出现，使得设计师能够更高效地进行多条件图像生成，从而加速设计流程并提升设计质量。

解决学术问题

Sketchy数据集解决了时尚图像生成中的多个关键学术问题。首先，它通过提供局部化的草图-文本对，有效缓解了传统方法中常见的属性混淆问题，即某一服装的属性错误地出现在其他服装上。其次，数据集支持多条件生成，使得生成的图像能够同时满足空间结构和语义细节的要求。此外，Sketchy还为研究者提供了一个标准化的评估平台，推动了时尚图像生成领域的算法比较和技术进步。

衍生相关工作

Sketchy数据集衍生了许多经典的研究工作，例如LOTS（LOcalized Text and Sketch for fashion image generation）方法。LOTS通过模块化的注意力机制和扩散模型引导策略，显著提升了时尚图像生成的局部控制能力。此外，基于Sketchy的研究还推动了多模态生成模型的发展，如IP-Adapter和Multi-T2I-Adapter等，这些工作进一步拓展了草图与文本结合在图像生成中的应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集