Fashion Automatic Caption (FACap)

Name: Fashion Automatic Caption (FACap)
Creator: 路易威登, 法国国家信息与自动化研究所, 巴黎高等师范学院, 法国国家科学研究中心, 巴黎索邦大学, 纽约大学库朗数学科学研究所与数据科学中心
Published: 2025-07-09 07:02:10
License: 暂无描述

arXiv2025-07-09 更新2025-07-12 收录

下载链接：

https://fgxaos.github.io/facap-paper-website/

下载链接

链接失效反馈

官方服务：

资源简介：

FACap 是一个大规模的时尚领域图像检索数据集，包含超过 227,680 个图像对和对应的修改文本，旨在解决现有时尚领域图像检索数据集规模小、标注质量低的问题。该数据集利用网络来源的时尚图像，并采用两阶段标注流程，通过视觉语言模型和大型语言模型生成准确详细的修改文本。FACap 的创建过程首先使用视觉语言模型对原始网络图像进行标注，然后利用大型语言模型分析参考图像和目标图像之间的差异，生成简洁准确的修改文本。该数据集的应用领域包括电子商务网站、时尚搜索任务等，旨在解决用户在搜索时尚产品时，需要对产品进行具体修改的问题，例如颜色、款式或特征等。

FACap is a large-scale fashion domain image retrieval dataset containing over 227,680 image pairs and their corresponding modified captions, which aims to address the limitations of small scale and low annotation quality in existing fashion image retrieval datasets. This dataset utilizes web-sourced fashion images and adopts a two-stage annotation pipeline to generate accurate and detailed modified captions with the assistance of vision-language models (VLMs) and large language models (LLMs). Specifically, the creation process of FACap first uses VLMs to annotate the original web-collected images, then employs LLMs to analyze the discrepancies between reference images and target images, and produces concise and accurate modified captions. The application scenarios of this dataset span e-commerce platforms, fashion search tasks and more, targeting the problem where users need to make specific adjustments to fashion products (e.g., in terms of color, style or features) during their search.

提供机构：

路易威登, 法国国家信息与自动化研究所, 巴黎高等师范学院, 法国国家科学研究中心, 巴黎索邦大学, 纽约大学库朗数学科学研究所与数据科学中心

创建时间：

2025-07-09

搜集汇总

数据集介绍

构建方式

FACap数据集的构建采用了创新的自动化流程，通过整合网络来源的时尚图像资源，结合视觉语言模型（VLM）和大语言模型（LLM）的两阶段标注策略。首先从公开时尚数据集Fashion200k和DeepFashionMultiModal中筛选图像，基于CLIP编码的视觉相似度进行配对。随后利用InternVL模型生成细粒度图像描述，再通过GPT-4o合成精准的修改文本，最终形成包含22.7万组<参考图像-修改文本-目标图像>三元组的高质量数据集。该流程显著降低了专业人工标注成本，同时确保了标注的细节丰富度和语义准确性。

特点

FACap数据集在规模和质量维度实现双重突破：其22.7万组三元组数量超越主流时尚CIR数据集Fashion IQ近12倍，覆盖连衣裙、夹克等多元品类。独特的两阶段标注机制使修改文本平均长度达23.38词，较Fashion IQ的6.36词显著提升细节密度。质量评估显示，在忠实度（4.40/5）、细节丰富度（4.09/5）和显著性（4.29/5）指标上均优于人工标注基准。数据集特别强化对领型、纹理等时尚专业术语的覆盖，词汇量达9,273个，为细粒度时尚检索提供精准语义支持。

使用方法

该数据集支持端到端的时尚组合图像检索（CIR）模型训练，典型应用包含两阶段流程：首先利用FACap进行领域自适应预训练，通过对比损失函数学习图像-文本联合表征；随后可在下游数据集（如Fashion IQ）进行微调。数据集提供的长文本描述支持多头部匹配机制设计，使模型能捕捉服装长度、图案等微观特征。评估时可采用Recall@K指标，在增强版enhFashionIQ测试集上验证模型对复杂时尚语义的理解能力。为保障数据纯净度，建议预处理时过滤源数据集中的同商品多视角图像。

背景与挑战

背景概述

Fashion Automatic Caption (FACap) 数据集由François Gardères等研究人员于2025年提出，旨在解决时尚领域组合图像检索（Composed Image Retrieval, CIR）任务中的数据稀缺问题。该数据集由Louis Vuitton、Inria、École normale supérieure、CNRS、PSL Research University以及纽约大学的研究团队共同开发。FACap通过自动化的两阶段标注流程，结合视觉语言模型（VLM）和大型语言模型（LLM），生成了超过227,000个高质量的CIR三元组（参考图像、修改文本、目标图像）。这一创新显著提升了时尚领域CIR任务的性能，特别是在细粒度文本修改检索方面。FACap的推出填补了时尚领域大规模、高质量数据集的空白，对电子商务和时尚检索领域的研究与应用具有重要影响。

当前挑战

FACap数据集面临的挑战主要包括两个方面：领域问题的挑战和构建过程的挑战。在领域问题方面，时尚领域的组合图像检索任务需要处理丰富且多样化的词汇描述，例如服装的款式、颜色、纹理等细粒度特征，这对模型的视觉和语言理解能力提出了更高要求。现有通用领域的视觉语言模型在这一任务上表现不佳，亟需领域适配的解决方案。在构建过程方面，手动标注大规模时尚数据集的成本高昂且耗时，而自动生成的标注又容易受到噪声和幻觉的影响。FACap通过创新的两阶段标注流程（VLM生成详细图像描述，LLM生成修改文本）有效缓解了这一问题，但仍需确保生成的文本在忠实性、细节丰富性和显著性方面达到高质量标准。

常用场景

经典使用场景

在时尚电子商务领域，FACap数据集为复合图像检索（CIR）任务提供了丰富的应用场景。用户可以通过参考图像和修改文本的组合，精准检索符合特定需求的时尚单品。例如，用户上传一件红色连衣裙的图片，并描述希望将其颜色改为蓝色，系统能够基于FACap数据集训练出的模型，快速找到符合要求的蓝色连衣裙。这一场景极大地提升了用户体验，满足了时尚行业对个性化和精准检索的需求。

衍生相关工作

FACap的发布催生了一系列创新性研究，包括基于轻量级适配器的领域自适应方法（如FashionViL）、多头部匹配机制（如TG-CIR）以及零样本复合检索技术（如LDRE）。特别值得一提的是UniFashion模型，它通过整合FACap与生成式任务，在ACL 2024上实现了时尚CIR的SOTA性能，验证了数据集的扩展价值。

数据集最近研究