Garment-Lookbook Pairs Dataset

Name: Garment-Lookbook Pairs Dataset
Creator: 苏黎世联邦理工学院
Published: 2025-10-01 16:05:05
License: 暂无描述

arXiv2025-10-01 更新2025-10-04 收录

下载链接：

https://huggingface.co/eth/lookbook

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了一个名为“Garment-Lookbook Pairs Dataset”的大规模数据集，该数据集由苏黎世联邦理工学院的研究人员构建，旨在支持虚拟时尚摄影任务。数据集包含超过55万张时尚杂志和走秀图片，以及约950万张来自电子商务平台的服装图片。这些图片通过自动化检索管道进行匹配，形成了不同质量级别的服装-杂志对，包括高质量（10000对）、中等质量（50000对）和低质量（300000对）。该数据集为生成具有创意、氛围和情境感的时尚图片提供了基础，有助于设计人员和时尚品牌自动生成创意摄影材料。

This paper introduces a large-scale dataset named "Garment-Lookbook Pairs Dataset", constructed by researchers from ETH Zurich, which aims to support virtual fashion photography tasks. The dataset contains over 550,000 fashion magazine and runway images, as well as approximately 9.5 million clothing images sourced from e-commerce platforms. These images are matched via an automated retrieval pipeline to form garment-magazine pairs at different quality tiers: high-quality (10,000 pairs), medium-quality (50,000 pairs), and low-quality (300,000 pairs). This dataset provides a foundation for generating creative, atmospheric and context-aware fashion images, and can assist designers and fashion brands in automatically generating creative photographic materials.

提供机构：

苏黎世联邦理工学院

创建时间：

2025-10-01

搜集汇总

数据集介绍

构建方式

在时尚计算领域，构建跨域视觉数据集面临商品图像与时尚画册图像难以直接配对的挑战。本研究通过自动化检索流程解决这一难题，首先从SHOWstudio、Tagwalk等平台收集约55万张画册图像，并整合Farfetch等电商平台的950万张商品图像。采用融合视觉语言模型、目标检测与SigLIP相似度计算的集成检索策略，通过品牌名称模糊匹配与多模型标准化评分，最终形成包含高、中、低三个质量等级的36万对服装-画册匹配数据。

特点

该数据集显著区别于传统时尚数据集，其核心价值在于首次实现了商品图像与创意画册图像的跨域关联。数据呈现多层级质量分布：高质量子集提供精确的视觉对应关系，中等质量子集平衡规模与噪声，低质量子集则涵盖丰富的姿态、背景与艺术风格变异。这种结构既保留了电商图像的标准化特性，又融入了时尚媒体特有的叙事性表达，为生成模型提供了从结构化输入到创造性输出的完整学习范本。

使用方法

针对虚拟时尚摄影任务，该数据集支持基于扩散模型的生成式训练。研究者可依据实验需求选择不同质量层级：高质量配对适用于模型微调与精确评估，中等质量数据适合基础模型训练，低质量数据则能增强模型对复杂场景的泛化能力。通过将标准化服装图像作为条件输入，模型可学习生成具有多样化背景、姿态及艺术风格的画册级图像，推动时尚图像生成从商品展示向创意表达范式转变。

背景与挑战

背景概述

在计算机视觉与时尚产业的交叉领域，虚拟试穿技术已取得显著进展，但传统数据集主要聚焦于商品展示环境，缺乏对时尚编辑图像中艺术性与多样性的捕捉。苏黎世联邦理工学院的研究团队于2025年提出了Garment-Lookbook Pairs Dataset，旨在填补商品图像与时尚画册图像之间的语义鸿沟。该数据集通过自动化检索流程构建了三个质量层级共36万对图像，为核心研究问题——虚拟时尚摄影的生成任务提供了数据基础，推动了从标准化商品展示到创意化视觉叙事的范式转变。

当前挑战

该数据集致力于解决时尚图像生成领域的关键挑战：如何将单一商品图像转化为具有动态姿态、多样化背景与艺术风格的编辑级图像。构建过程中面临双重困难：首先，商品图与画册图分布在不同平台，需通过跨域对齐实现精准匹配；其次，画册图像存在复杂背景、多服装重叠及艺术化编辑等干扰因素，传统检索模型难以捕捉细粒度特征。研究团队通过融合视觉语言模型、目标检测与多模型集成策略，在噪声环境中实现了鲁棒的语义对齐。

常用场景

经典使用场景

在时尚计算领域，Garment-Lookbook Pairs Dataset为虚拟时尚摄影任务提供了关键支撑。该数据集通过连接标准化产品图像与多样化编辑风格图像，使生成模型能够学习从单一服装输入生成具有艺术氛围、动态姿态和丰富背景的时尚大片。其经典应用体现在训练扩散模型时，模型能够依据服装特征自动合成符合时尚媒体审美的高质量视觉内容，突破了传统虚拟试衣系统仅能生成呆板背景的局限。

解决学术问题

该数据集有效解决了时尚图像生成领域缺乏跨域对齐数据的核心难题。传统研究受限于电商环境下的服装图像，难以捕捉时尚媒体中创意构图与场景多样性。通过融合视觉语言模型与目标检测技术构建的配对数据，为研究服装语义理解、跨域图像转换提供了新范式。其意义在于推动了生成模型从功能化输出向艺术化表达的转变，为计算机视觉与时尚设计的交叉研究建立了理论基础。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态服装检索系统的优化，如结合SigLIP与度量学习的混合检索框架。在生成方向催生了条件扩散模型的创新，实现了从服装到场景的端到端合成。后续工作进一步探索了基于服装属性的细粒度控制生成，以及将时尚知识图谱嵌入生成过程的方法，持续推动虚拟摄影技术向可控化、个性化方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集