FIRST

Name: FIRST
Creator: 奇美AI公司 2香港中文大学（深圳）3惠州大学
Published: 2023-11-13 23:50:25
License: 暂无描述

arXiv2023-11-13 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2311.07414v1

下载链接

链接失效反馈

官方服务：

资源简介：

FIRST数据集是由奇美AI公司、香港中文大学（深圳）和惠州大学联合创建的大型时尚生成数据集，包含一百万个实例，每张图像均配有层次化和结构化的文本注释，非常适合训练文本控制的时尚生成模型。数据集涵盖了从世界级设计师那里收集的众多时尚单品和风格，为生成模型提供了广阔的创作空间。创建过程中，首先使用GPT4v根据精心设计的提示生成层次化的详细描述，然后通过人工修订确保文本描述的准确性和逻辑性。该数据集的应用领域主要集中在解决时尚设计中的个性化和可扩展性问题，通过提供丰富的文本描述，增强生成模型对时尚元素和抽象概念的理解，从而提升生成图像的质量和文本控制的精确度。

The FIRST Dataset is a large-scale fashion generative dataset jointly created by Qimei AI, The Chinese University of Hong Kong, Shenzhen, and Huizhou University. It comprises one million instances, with each image paired with hierarchical and structured textual annotations, rendering it highly suitable for training text-controlled fashion generative models. The dataset encompasses a diverse array of fashion items and styles sourced from world-renowned designers, offering extensive creative latitude for generative models. During its curation, GPT-4V was first employed to generate detailed hierarchical descriptions based on meticulously crafted prompts, followed by manual review and revision to ensure the accuracy and logical coherence of the textual descriptions. Its core application scenarios focus on addressing the challenges of personalization and scalability in fashion design. By providing rich textual descriptions, it enhances the generative models' comprehension of fashion elements and abstract concepts, thereby improving the quality of generated images and the precision of text-controlled generation.

提供机构：

奇美AI公司 2香港中文大学（深圳）3惠州大学

创建时间：

2023-11-13

搜集汇总

数据集介绍

构建方式

在时尚合成与设计领域，高质量数据集的构建是推动人工智能生成内容发展的关键。FIRST数据集的构建过程体现了严谨的科学方法，其原始图像来源于互联网爬取和商业合作伙伴提供的高分辨率时尚图像，总计超过112万张。通过严格的数据清洗流程，剔除了低分辨率、带水印及非时尚相关图像，最终保留约100万张高质量图像。文本标注方面，采用GPT-4V模型根据精心设计的提示生成层次化描述，涵盖背景、模特和服装等多个维度，并由500名时尚设计专业学生进行人工校对与修正，确保文本与图像的精确对应，整个标注过程耗时40天完成。

特点

FIRST数据集在时尚合成领域展现出独特的数据特性。其包含100万张高分辨率时尚图像，并配有结构化的文本描述，每段描述近千个词汇，细致刻画了服装的细节与设计理念。数据集中涵盖了21类平衡分布的服装类别，以及五种不同的摄影场景，如街景、秀场等，为生成模型提供了多样化的学习样本。尤为突出的是其层次化标注体系，从全局背景到局部配饰均进行系统化描述，同时保留了按设计师系列分类的信息，包含22,299个时尚系列，为研究时尚设计的整体性与一致性提供了宝贵资源。

使用方法

该数据集主要应用于文本驱动的时尚合成与设计研究。研究者可利用其百万规模的图像-文本对训练扩散模型，提升模型对时尚概念的理解与生成质量。使用时可基于数据集的层次化标注，探索长文本输入条件下的生成控制，或利用系列分类信息研究时尚系列的一致性生成。实验表明，在FIRST上微调的稳定扩散模型在FID和CLIP-S指标上均有显著提升，证明了数据集在增强文本控制力和生成质量方面的有效性。数据集也为解决时尚领域的专业挑战，如长文本处理与系列化设计，提供了重要的研究基础。

背景与挑战

背景概述

在人工智能生成内容（AIGC）的浪潮中，文本驱动的时尚合成与设计作为其极具价值的分支，正引领传统时尚产业迈向深刻变革。为推进该领域研究，由ChimerAI Inc、香港中文大学（深圳）及惠州大学的研究团队于2023年联合发布了FIRST数据集，其核心研究问题在于解决现有时尚数据集中文本描述匮乏、规模有限且缺乏结构化标注的瓶颈。该数据集包含百万级高分辨率时尚图像及层次化文本描述，覆盖多样服饰类别与摄影场景，通过结合GPT-4V生成与人工修正的标注流程，为训练文本可控的时尚生成模型提供了坚实基础。FIRST的推出显著提升了生成模型在时尚领域的图像质量与文本控制力，对推动智能化、创意化的时尚设计系统发展具有里程碑意义。

当前挑战

FIRST数据集所针对的文本驱动时尚合成领域，首要挑战在于如何使扩散模型处理长文本输入以捕捉细节丰富的时尚描述。现有主流模型受限于CLIP架构的77个令牌约束，难以适配千令牌级别的精细化文本，即便SDXL采用双编码器仍无法满足行业需求。其次，构建过程中面临数据标注的复杂性与规模性挑战：需通过精心设计的提示词引导GPT-4V生成层次化描述，并投入大量人力资源进行校对，以确保文本与图像在背景、模特及服饰等多维度的准确对应。此外，数据清洗需剔除低分辨率、水印及非时尚内容，保障百万级图像的高质量与一致性，这些工序均需精密协调与专业判断。

常用场景

经典使用场景

在时尚合成与设计领域，文本驱动的生成模型正逐渐成为研究热点。FIRST数据集以其百万级高分辨率时尚图像与结构化文本描述，为这一领域提供了关键的数据支撑。该数据集最经典的使用场景在于训练和评估基于扩散模型的文本到图像生成系统，特别是在时尚图像合成任务中，模型能够依据详细的文本提示生成具有高度可控性和视觉真实感的服装设计。通过多层次、分层次的文本标注，研究者可以探索如何精确控制生成图像的背景、模特姿态、服装细节等元素，从而推动智能时尚设计系统的发展。

解决学术问题

FIRST数据集主要解决了时尚生成研究中数据规模不足与标注质量有限的核心问题。传统时尚数据集往往缺乏详尽的文本描述，或仅提供简单标签，限制了模型对复杂时尚概念的理解。该数据集通过百万级图像与结构化文本对，增强了生成模型对服装风格、材质、色彩及设计理念的语义对齐能力。实验表明，基于FIRST微调的稳定扩散模型在FID和CLIP分数上均有显著提升，有效改善了生成质量与文本控制精度，为长文本输入与时尚系列生成等挑战性任务奠定了基础。

衍生相关工作

围绕FIRST数据集，研究者已展开多项衍生工作，主要集中在文本驱动时尚生成的算法优化与系统构建。例如，针对长文本输入限制，有研究探索扩展扩散模型的令牌容量以处理更详细的描述；另一些工作则专注于时尚系列生成，旨在从单一设计理念中合成多类别协调的服装集合。这些研究不仅深化了对时尚语义的理解，还促进了如虚拟试穿、个性化设计等交叉方向的发展，为构建更智能、可控的时尚AIGC生态系统提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集