Fashion IQ

arXiv2025-09-30 收录

下载链接：

https://github.com/xiaoxiaoguo/fashion-iq

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了77,684张时尚产品的图片，涵盖三个类别：连衣裙、T恤和衬衫。此外，附带的文本描述平均长度为10.69个单词。数据规模为77,684张图片，其中46,609张用于训练，31,075张用于验证。该数据集的任务是进行文本条件下的图像检索。

This dataset contains 77,684 fashion product images covering three categories: dresses, T-shirts, and shirts. The accompanying text descriptions have an average length of 10.69 words. Of all the samples, 46,609 are allocated for training and 31,075 for validation. The task of this dataset is text-conditioned image retrieval.

搜集汇总

数据集介绍

构建方式

在时尚检索领域，传统基于关键词或固定属性的搜索方式难以满足用户对细节表达的需求。Fashion IQ数据集的构建过程体现了对多模态信息的深度整合，其图像来源于产品评论数据集，涵盖连衣裙、衬衫和上衣等三类时尚单品。通过提取产品网站中的文本信息，结合DeepFashion的时尚属性词汇表，自动生成了涵盖纹理、面料、形状等五类共1000种属性标签。为收集高质量的自然语言相对标注，研究团队采用众包方式，邀请来自英语国家的熟练工作者，在模拟在线购物对话的场景下，针对通过TF-IDF算法配对的相似图像，撰写描述目标图像与参考图像差异的相对描述文本，最终形成了规模可观且标注一致的数据集合。

特点

该数据集在时尚图像检索领域展现出独特的多模态融合特性，不仅提供大量时尚单品图像，还首次将人工撰写的相对描述文本与从真实产品描述中提取的视觉属性标签相结合。其相对描述文本超越了传统属性标注的局限性，允许用户使用复合短语和比较性表达，如“更明亮的颜色”或“底部有红色装饰”，从而更灵活地捕捉细微视觉差异。数据集中近70%的文本查询包含复合属性短语，部分甚至涉及空间关系描述，这种丰富的语言表达为建模用户反馈提供了坚实基础。同时，数据集涵盖的三个时尚类别均配备了训练、验证和测试划分，确保了研究评估的系统性与可比性。

使用方法

Fashion IQ数据集为开发基于对话的交互式图像检索系统提供了多方面的应用场景。研究者可利用其进行单轮检索任务，通过结合参考图像和相对描述文本来检索目标图像。在相对描述生成任务中，数据集可用于训练能够自动描述图像间差异的模型，此类模型可作为用户模拟器，为对话系统生成大量训练数据。对于对话式交互检索这一核心应用，数据集支持构建多轮对话系统，其中系统根据用户每轮提供的自然语言反馈逐步优化检索结果。研究已表明，通过Transformer等架构融合图像特征、属性信息和语言反馈，能显著提升检索性能，推动更自然、实用的时尚购物助手的发展。

背景与挑战

背景概述

Fashion IQ数据集由MIT-IBM Watson AI Lab、IBM Research、UT Austin及Pryon的研究团队于2020年共同创建，旨在推动基于自然语言反馈的交互式时尚图像检索研究。该数据集聚焦于细粒度零售时尚领域，核心研究问题在于如何通过对话式界面提升用户表达意图的灵活性与精确性，从而超越传统基于关键词或预定义属性的搜索方式。Fashion IQ首次整合了人工标注的相对描述文本、真实世界产品描述及视觉属性标签，为开发更自然的对话式购物助手提供了关键数据支撑，对计算机视觉与自然语言处理的交叉领域产生了深远影响，促进了多模态交互系统的发展。

当前挑战

Fashion IQ致力于解决时尚图像检索中用户意图表达的挑战，传统系统依赖固定属性词汇或简单反馈机制，难以捕捉复杂、复合的视觉差异。该数据集通过自然语言反馈，允许用户以比较性、细粒度的方式描述目标图像与参考图像之间的区别，从而提升检索的准确性与交互的自然性。在构建过程中，研究团队面临多重挑战：一是高质量相对描述文本的收集需通过严格众包流程，确保语言表达的多样性与准确性，成本较高；二是如何有效整合多模态侧信息（如产品描述与属性标签），以增强模型对视觉特征的理解；三是设计能够无缝融合图像特征、自然语言反馈与对话历史的统一模型架构，以克服传统RNN方法在扩展性与信息整合上的局限。

常用场景

经典使用场景

在时尚图像检索领域，Fashion IQ数据集为基于自然语言反馈的交互式图像检索提供了经典应用场景。该数据集通过提供人类标注的相对描述文本，结合真实世界产品描述和视觉属性标签，支持构建对话式时尚搜索系统。用户能够以自然语言表达对参考图像与目标图像之间的细微差异，例如“更长的袖子”或“更亮的颜色”，从而引导系统逐步精确定位目标服饰图像。这种交互模式超越了传统基于关键词或属性过滤的搜索方式，实现了更灵活、更精准的检索过程。

解决学术问题

Fashion IQ数据集主要解决了交互式图像检索中用户表达受限与系统理解不足的学术难题。传统方法依赖预定义属性或简单相关性反馈，难以捕捉复杂、复合的视觉差异。该数据集通过引入自然语言反馈和侧信息（如产品描述与属性标签），促进了多模态融合研究，提升了模型对细粒度视觉特征的理解能力。其意义在于推动了对话式检索系统的发展，为构建更自然、更高效的商业级购物助手提供了数据基础与评估基准。

衍生相关工作

Fashion IQ数据集衍生了一系列经典研究工作，特别是在多模态Transformer架构的应用上。例如，基于该数据集的相对描述生成模型和对话式检索模型，显著超越了早期RNN-based方法（如Guo等人2018年的工作）。这些研究探索了视觉属性与自然语言反馈的联合建模，推动了交互式检索系统的性能提升。后续工作进一步扩展了数据集的用途，包括单轮图像检索、属性增强的生成模型等，为视觉与语言交叉领域的研究提供了丰富范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集