Fashion IQ
收藏arXiv2020-11-26 更新2024-06-21 收录
下载链接:
https://github.com/XiaoxiaoGuo/fashion-iq
下载链接
链接失效反馈官方服务:
资源简介:
Fashion IQ是由麻省理工学院-IBM沃森人工智能实验室创建的一个新型数据集,专注于交互式时尚图像检索。该数据集首次包含了人类生成的相对标题,这些标题区分了相似的服装图像对,并附带了真实世界的产品描述和视觉属性标签。Fashion IQ数据集包含多种时尚图像,如连衣裙、衬衫和上衣,以及详细的产品元数据和属性标签。该数据集旨在通过自然语言反馈,推动对话式时尚图像检索的研究,解决传统关键词搜索界面的局限性,提供更自然、用户友好的交互方式。
Fashion IQ is a novel dataset created by the MIT-IBM Watson AI Lab, focusing on interactive fashion image retrieval. This dataset is the first to include human-generated comparative captions that distinguish between pairs of similar clothing images, paired with real-world product descriptions and visual attribute labels. The Fashion IQ dataset contains various fashion images such as dresses, shirts and tops, along with detailed product metadata and attribute labels. This dataset aims to advance research on conversational fashion image retrieval through natural language feedback, addressing the limitations of traditional keyword-based search interfaces and providing a more natural and user-friendly interaction mode.
提供机构:
麻省理工学院-IBM沃森人工智能实验室
创建时间:
2019-05-30
搜集汇总
数据集介绍

构建方式
Fashion IQ 数据集的构建过程首先从产品评论数据集中筛选出时尚产品图片,并从产品网站上提取相应的产品信息。随后,利用产品标题、产品摘要和详细描述等信息提取时尚属性标签。为了保证相对描述可以描述参考图像和目标图像之间的细微视觉差异,利用产品标题信息选择相似图像进行相对描述的标注。最后,通过众包方式收集大规模高质量的人为标注的相对描述,并利用深度学习模型对属性标签进行完善和降噪。
特点
Fashion IQ 数据集的独特之处在于它包含了高质量的人为标注的相对描述,以及从真实世界产品数据中提取的视觉属性标签。这些相对描述比传统的属性标签更加丰富和灵活,能够更好地描述用户对图像的反馈。此外,Fashion IQ 数据集还包含了文本描述和产品元数据,这些信息可以作为辅助信息,帮助模型更好地理解和处理用户的反馈。
使用方法
Fashion IQ 数据集可以用于开发更有效的图像检索界面。具体来说,它可以用于训练单次检索系统、相对描述系统和基于对话的交互式图像检索系统。在单次检索任务中,可以利用自然语言反馈来修改视觉查询。在相对描述任务中,可以利用属性标签和相对描述来训练更强的用户模拟器。在基于对话的交互式图像检索任务中,可以利用多模态Transformer模型,将图像特征、时尚属性和用户的文本反馈进行统一处理,从而实现更有效的图像检索。
背景与挑战
背景概述
时尚产业是一个价值数十亿美元的领域,它在全球范围内具有直接的社会、文化和经济影响。近年来,计算机视觉在该领域的许多应用中取得了显著的成功,包括趋势预测、胶囊衣橱的创建、交互式产品检索、推荐和时尚设计。本研究旨在解决时尚产品搜索中的交互式图像检索问题。高保真交互式图像检索虽然经过了数十年的研究和许多重大进展,但仍然是一个研究挑战。该挑战的核心是两个相互关联的要素:赋予用户表达其需求的方式,以及赋予检索机器实现高效检索所需的信息、能力和学习目标。传统的系统依赖于相关性反馈,允许用户指出哪些图像与所需图像“相似”或“不相似”。相对属性反馈(例如,“比这些更正式”、“比这些更亮”)允许用户基于一组固定的属性将所需图像与候选图像进行比较。虽然有效,但这种特定形式的用户反馈限制了用户可以表达的内容。最近,基于图像检索的工作展示了利用自然语言解决问题的强大能力,其中相对标题描述了参考图像与用户心中所想之间的差异,基于对话的交互式检索作为一种原则性和通用的方法,可以交互式地与用户进行多模态对话以解决其意图。
当前挑战
尽管最近的工作取得了很大进展,但仍然存在一些重要问题。在现实世界的时尚产品目录中,图像通常与侧信息相关联,这些侧信息在野外格式和信息内容上差异很大,并且通常可以以低廉的成本大规模获取。此外,通常可以从这些数据中提取描述性表示,例如属性,这些属性可以形成生成更强大的图像标题和更有效的图像检索的强基础。如何让侧信息与自然语言用户输入相互作用,以及如何最好地利用侧信息来改进最先进的基于对话的图像检索系统,是重要的开放研究问题。为了应对这些挑战,本研究提出了一种新的数据集Fashion IQ,并探索了联合利用自然语言反馈和侧信息来实现有效且实用的图像检索系统的方法。Fashion IQ位于细节关键的时尚领域,其中表达式的对话式界面有可能极大地改善用户体验。本研究的主要贡献如下:我们介绍了一个新颖的数据集Fashion IQ,我们将将其作为一项新的资源公开发布,以推动基于对话的时尚检索研究。Fashion IQ是第一个既包括为相似图像对注释的人为编写的相对标题,又包括这些图像的关联真实世界产品描述和属性标签作为侧信息的时尚数据集。我们提出了一种基于变换器的用户模拟器和交互式图像检索器,它可以在训练过程中无缝地利用多模态输入(图像、自然语言反馈和属性),并导致在Fashion IQ上的相对标题和交互式图像检索的时尚图像方面显著提高了性能。据我们所知,这是第一次研究将自然语言用户反馈和属性结合起来进行基于对话的图像检索的益处,并提供经验证据表明,将属性纳入其中可以显著提高用户建模和基于对话的图像检索的性能。
常用场景
经典使用场景
Fashion IQ 数据集经典使用场景描述
解决学术问题
Fashion IQ 数据集解决学术问题描述
衍生相关工作
Fashion IQ 数据集衍生相关工作描述
以上内容由遇见数据集搜集并总结生成



