Fashion-Gen

arXiv2025-09-30 收录

下载链接：

https://docs.google.com/forms/d/e/1faipqlscj_ykccte2zj5f1dtgdaqxvbzkvhlgkib4bsxnwnef9ci2za/viewform

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Fashion-Gen，包含293,008张图片，每张图片都与一段文本描述相匹配，主要用于测试模型对服装描述的处理能力。此外，该数据集还包括由专业造型师创作的描述，专注于“上衣”时尚类别，以与VITON保持一致。规模上，数据集共有293,008张图片，任务是对时尚商品的文本与图像进行匹配。

The dataset named Fashion-Gen contains 293,008 images, each paired with a corresponding text description, and is primarily designed to test models' ability to process clothing-related descriptions. Additionally, the dataset includes descriptions created by professional stylists that focus on the "upper garment" fashion category to align with VITON. The core task of this dataset is text-image matching for fashion merchandise.

搜集汇总

数据集介绍

构建方式

Fashion-Gen数据集由293,008张高清时尚图像构成，每张图像分辨率为1360×1360像素，均在统一光照和标准化背景下从多个角度拍摄。所有图像均由专业造型师配以段落长度的详细描述，涵盖48个主类别和121个细粒度子类别。数据集分为训练集（260,480张）、验证集（32,528张）和测试集（32,528张），并额外提供每件商品的元数据，如搭配推荐、季节、设计师和品牌信息。

特点

该数据集的核心特点在于其高分辨率和一致性：图像在受控的摄影棚条件下采集，确保了质量的统一性，这在同类数据集中尚属首次。每件商品拥有1至6个不同角度的拍摄视图，为多视角分析提供了可能。描述文本由专业设计师撰写，包含精细的设计细节，而非简单的标签。此外，数据集规模远超现有文本到图像生成任务的数据集，并提供了丰富的属性信息，如颜色分布和类别层次。

使用方法

数据集主要用于高分辨率图像生成和基于文本描述的图像生成任务。研究者可利用提供的基线模型（如P-GAN、StackGAN-v1和StackGAN-v2）进行实验，并通过Inception Score和人工评估来量化生成质量。数据集附带的挑战平台允许提交Docker容器，自动计算Inception Score并排名。建议使用预训练的bi-LSTM编码器进行文本嵌入，以提升生成图像与描述之间的语义对应性。

背景与挑战

背景概述

在时尚产业与人工智能深度融合的浪潮中，文本到图像生成技术为设计师提供了将语言描述快速转化为视觉创意的可能。然而，现有数据集普遍存在分辨率低、标注粗糙或规模有限等缺陷，制约了高质量条件生成模型的发展。为填补这一空白，Negar Rostamzadeh 等研究人员于2018年在第35届国际机器学习大会（ICML）上发布了 Fashion-Gen 数据集。该数据集由 Element AI、蒙特利尔大学和蒙特利尔理工学院联合创建，包含293,008张高清（1360×1360像素）时尚单品图像，每张图像均由专业造型师撰写详细的描述文本，并涵盖48个主类别、121个细分类别及多角度拍摄。该数据集的推出极大推动了高分辨率图像生成与文本引导图像合成领域的研究，成为首个专门针对时尚文本到图像生成挑战的大规模基准。

当前挑战

Fashion-Gen 数据集所面临的挑战主要体现在两个方面。其一，在领域问题层面，文本到图像生成任务需克服模型对细粒度语义的捕捉能力不足、生成图像与描述文本之间的语义对齐困难，以及高分辨率图像生成中纹理与结构的保真度低下等核心难题。现有模型如 StackGAN 和 P-GAN 虽能生成整体轮廓，但常出现面部模糊、细节缺失或模式崩溃等问题，Inception 分数远低于真实数据。其二，在构建过程中，数据集面临多角度拍摄下光照与背景的一致性控制、专业设计师提供的描述文本长度与粒度差异巨大，以及如何设计兼顾自动评估（如 Inception 分数）与人工评价的竞赛机制等挑战。此外，确保测试集不泄露以维护竞赛公平性，也是构建过程中的重要技术难点。

常用场景

经典使用场景

在时尚与计算机视觉交叉领域，Fashion-Gen数据集最经典的使用场景是文本到图像的高保真生成任务。该数据集包含近30万张高清时尚单品图像，每张图像均配有专业设计师撰写的细粒度描述文本，且单品从多个角度拍摄，为条件生成模型提供了丰富且对齐的多模态训练数据。研究者常利用该数据集训练生成对抗网络（如StackGAN、P-GAN），以验证模型能否从复杂文本描述中精准还原服装的款式、颜色、材质等细节，推动生成式模型在细粒度视觉合成方向的发展。

实际应用

在实际应用中，Fashion-Gen数据集直接服务于时尚产业的智能化升级。基于该数据集训练的文本到图像生成模型，可辅助设计师将口头或文字描述快速转化为可视化设计草图，大幅缩短从概念到样衣的迭代周期。此外，该技术还可集成于电商平台的智能搜索与推荐系统，用户输入“红色中长款A字裙”等描述后，系统能实时生成符合需求的商品图像，提升购物体验。同时，该数据集的多角度拍摄特性支持虚拟试衣与多视角展示，为线上零售中的商品呈现提供了技术支撑。

衍生相关工作

Fashion-Gen数据集的发布催生了一系列经典研究工作。在生成模型方面，研究者基于该数据集改进了StackGAN-v1和StackGAN-v2，通过引入预训练的bi-LSTM文本编码器显著提升了生成图像的类别区分度与细节保真度；Progressive GAN（P-GAN）借助该数据集的高分辨率优势，成功生成了1024×1024像素的逼真时尚图像。在评估方法上，该数据集推动了基于Inception Score与人工评价相结合的生成质量评估体系，并组织了首个文本到图像生成挑战赛，为后续研究提供了标准化的比较框架。此外，该数据集的多角度图像与搭配推荐元数据，还启发了时尚图像检索、风格迁移与搭配推荐等方向的研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集