Sketchy
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/deepmind/deepmind-research/tree/master/sketchy
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从Sketchy数据集中选取的12,500张图片,每张图片对应5到10幅草图。此外,每张图片都与多幅草图相关联,这有助于提升模型对各种情况的泛化能力。该数据集的规模为12,500张图片,任务是对扩散模型进行微调,以实现草图到图像的合成。
This dataset contains 12,500 images selected from the Sketchy dataset, where each image corresponds to 5 to 10 sketches. Additionally, each image is paired with multiple sketches, which helps improve the model's generalization ability across various scenarios. The dataset consists of 12,500 images in total, and its core task is to fine-tune diffusion models for sketch-to-image synthesis.
提供机构:
Sketchy Dataset Contributors
搜集汇总
数据集介绍

构建方式
Sketchy数据集构建于Fashionpedia基础之上,通过重构与扩充实现了多局部草图-文本配对标注。该数据集采用自动化流程生成高质量专业草图,并引入分层组织结构,将服装部件与整体服装关联。文本描述通过大型语言模型基于层级属性合成,同时利用视觉语言模型提取实例级颜色信息。此外,数据集还包含一个“野外”子集,通过专用交互平台收集非专业用户绘制的草图,以评估模型在真实场景下的鲁棒性。
使用方法
Sketchy数据集主要用于训练和评估多局部条件图像生成模型,特别是支持草图与文本联合控制的时尚图像合成任务。研究人员可将局部草图与对应文本描述作为条件输入,驱动生成模型合成符合全局结构与局部语义的图像。该数据集支持对生成结果的全局质量、草图遵循度及局部语义对齐进行综合评估,其“野外”子集还可用于测试模型对非专业草图的泛化能力与鲁棒性。
背景与挑战
背景概述
Sketchy数据集由意大利维罗纳大学与布鲁诺·凯斯勒基金会等机构的研究团队于2026年提出,旨在推动时尚设计领域的多模态图像生成研究。该数据集构建于Fashionpedia基础之上,首次为每张时尚图像提供了多个局部草图-文本对,以支持细粒度的、局部化的草图到图像生成任务。其核心研究问题聚焦于如何有效融合局部草图的结构信息与文本描述的语义细节,以生成既符合全局服装结构又精准体现局部属性的高质量时尚图像。Sketchy的创建标志着时尚生成领域从全局控制向局部精细化控制的范式转变,为多模态条件生成模型的发展提供了关键的数据支撑。
当前挑战
Sketchy数据集所针对的领域挑战在于解决多服装组合图像生成中的属性混淆问题,即确保文本描述的材质、颜色等语义属性能够准确对应到草图指定的局部区域,避免属性错误关联或泄漏。在构建过程中,研究团队面临多重挑战:一是数据标注的复杂性,需从Fashionpedia的层次化属性自动生成连贯的自然语言描述,并补充缺失的颜色信息;二是局部草图的自动化生成需保持专业设计草图的质量与结构一致性;三是引入了'野外'草图分割以评估模型鲁棒性,这要求收集非专业用户的草图,并处理其更高的变异性和不完美性,确保数据集的多样性与实用性。
常用场景
经典使用场景
在时尚设计领域,草图与文本描述的结合是早期创意构思的核心环节。Sketchy数据集通过提供每张图像对应的多个局部草图-文本对,构建了首个支持细粒度、多模态条件控制的时尚图像生成基准。其最经典的使用场景在于训练和评估能够同时遵循全局结构草图与局部语义描述的生成模型,例如LOTS框架。该场景要求模型在合成复杂多服装搭配时,既能保持整体轮廓的协调性,又能精确地将文本描述的材质、颜色等属性定位到对应的草图区域,从而模拟专业设计师从概念草图到逼真渲染的完整工作流程。
解决学术问题
Sketchy数据集主要针对多模态条件图像生成中的属性混淆与结构协调难题。在学术研究中,当使用单一全局文本描述配合多个局部草图时,模型常难以将特定属性正确关联到其对应的空间区域,导致语义泄漏或错位。该数据集通过提供精确对齐的局部草图-文本对,使得研究者能够系统探索如何解耦并独立处理多个局部条件信号,同时维持全局结构的一致性。其意义在于首次为“多局部条件图像生成”这一新范式提供了大规模、高质量的评估基准,推动了扩散模型在细粒度空间与语义控制方面的算法创新,并为解决跨模态对齐中的组合泛化问题提供了关键数据支撑。
实际应用
Sketchy数据集的实际应用直接赋能于时尚产业的数字化设计流程。设计师可利用该数据集训练的模型,快速将手绘的服装部件草图及对应的自然语言描述(如“带蕾丝袖口的米色衬衫”)转化为高保真的虚拟样衣图像,极大缩短从创意到视觉呈现的周期。此外,其包含的“野外”草图分区支持模型适应非专业用户的粗略绘制,可应用于面向消费者的个性化服装定制平台,让用户通过简单涂鸦和文字输入即可预览定制服装效果。在教育和原型设计领域,该数据集也能辅助教学工具开发,帮助学生理解草图与最终成品间的映射关系。
数据集最近研究
最新研究方向
在时尚图像生成领域,Sketchy数据集的推出标志着多模态条件生成研究迈入新阶段。该数据集通过提供每张图像对应的多个局部草图-文本对,首次实现了对服装设计中细粒度语义与空间结构的协同控制。前沿研究聚焦于如何有效整合全局草图结构与局部文本描述,以解决多服装组合生成中的属性混淆问题。相关热点事件包括LOTS框架的提出,其采用多层次条件策略,在扩散模型的去噪过程中独立编码局部特征并维持全局协调,显著提升了生成图像的结构一致性与语义准确性。这一进展不仅推动了可控图像生成技术的发展,也为交互式设计工具的开发提供了新思路,对时尚产业的数字化创新具有深远影响。
相关研究论文
- 1Multi-Level Conditioning by Pairing Localized Text and Sketch for Fashion Image Generation维罗纳大学; 布鲁诺·凯斯勒基金会; 都灵理工学院; 雷克雅未克大学 · 2026年
以上内容由遇见数据集搜集并总结生成



