Slep/LAION-RVS-Fashion

Name: Slep/LAION-RVS-Fashion
Creator: Slep
Published: 2024-05-15 14:44:33
License: 暂无描述

Hugging Face2024-05-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Slep/LAION-RVS-Fashion

下载链接

链接失效反馈

官方服务：

资源简介：

LAION - Referred Visual Search - Fashion数据集由LAION 2B EN、LAION 2B MULTI TRANSLATED和LAION 1B NOLANG TRANSLATED中的图像组成，这些图像根据提取的产品ID进行分组。每个产品在训练集中至少包含一张图像（孤立产品）和一张复杂图像（场景）。数据集还添加了分类元数据和BLIP2生成的描述。数据集的属性包括URL、宽度、高度、punsafe、pwatermark、语言、文本、翻译文本、类型、产品ID、索引源、类别和BLIP2生成的描述。

提供机构：

Slep

原始信息汇总

数据集概述

基本信息

名称: LAION - Referred Visual Search - Fashion
许可证: CC-BY-NC-4.0
语言: 英语
标签: 时尚, 视觉搜索
大小: 1M<n<10M

数据集组成

来源:
- LAION 2B EN
- LAION 2B MULTI TRANSLATED
- LAION 1B NOLANG TRANSLATED
内容: 图像根据提取的产品ID分组，每个产品至少包含一张孤立产品和一张场景图像。添加了分类元数据和BLIP2标题。

数据集结构

分割	产品	干扰项
训练	272,457	-
验证	400	99,541
测试	2,000	2,000,014

总训练图像数: 841,718

样本示例

分类: 包括Bags, Feet, Hands, Head, Lower Body, Neck, Outwear, Upper Body, Waist, Whole Body 和 NonClothing。
BLIP2标题: 示例包括“a scarf with multi-coloured stripes”和“stella pants - dark suede”。

属性

URL, WIDTH, HEIGHT, punsafe, pwatermark, language: 原始LAION字段。
TEXT: 与图像关联的原始文本。
ENG_TEXT: 翻译版本。
TYPE: SIMPLE, COMPLEX, PARTIAL_COMPLEX。
PRODUCT_ID: 产品标识符。
INDEX_SRC: 原始存储图像的parquet文件ID。
CATEGORY: 产品分类。
blip2_caption1, blip2_caption2: BLIP2-FlanT5XL生成的标题。

引用信息

bibtex @article{lepage2023lrvsf, title={LRVS-Fashion: Extending Visual Search with Referring Instructions}, author={Lepage, Simon and Mary, Jérémie and Picard, David}, journal={arXiv:2306.02928}, year={2023} }

搜集汇总

数据集介绍

构建方式

在时尚视觉搜索领域，LAION-RVS-Fashion数据集的构建体现了对大规模多源图像数据的系统性整合。该数据集从LAION 2B EN、LAION 2B MULTI TRANSLATED及LAION 1B NOLANG TRANSLATED等公开图像集合中筛选出时尚相关图像，并依据提取的产品标识符进行分组。每个产品至少包含一张孤立产品图像和一张复杂场景图像，同时为每张图像添加了类别元数据及通过BLIP2模型生成的描述性文本。训练集涵盖272,457个产品，验证集与测试集则分别包含400个目标产品及大量干扰项，确保了数据在视觉搜索任务中的多样性与挑战性。

特点

LAION-RVS-Fashion数据集在时尚视觉搜索任务中展现出鲜明的结构特性。其核心在于将图像按产品标识符组织，形成包含孤立产品与复杂场景的多视角表示，模拟了真实世界中的商品展示环境。数据集提供了丰富的元数据，包括产品类别划分如“Bags”、“Feet”、“Upper Body”等，以及BLIP2生成的细粒度文本描述，增强了跨模态检索的语义关联。测试集设计包含大量干扰图像，有效评估模型在密集候选集中的精确检索能力，为指代性视觉搜索研究提供了高难度的基准环境。

使用方法

该数据集适用于训练与评估指代性视觉搜索模型，用户可通过HuggingFace平台直接加载数据。在应用过程中，模型需依据文本指令在包含目标产品与干扰项的图像库中定位特定商品。数据集提供了清晰的数据划分，训练集用于模型学习产品与文本的关联，验证集支持超参数调优，测试集则用于最终性能评估。研究人员可利用附带的基准代码与排行榜进行模型比较，同时通过提供的产品标识符与行索引文件复现论文中的统计结果，推动时尚检索技术的迭代发展。

背景与挑战

背景概述

在时尚视觉搜索领域，传统方法通常依赖于基于文本或图像的单一模态检索，难以处理用户通过自然语言指令进行细粒度指代的需求。为应对这一局限，由CRITEO AI Lab与ENPC的研究人员Simon Lepage、Jérémie Mary及David Picard于2023年共同构建的LAION-RVS-Fashion数据集应运而生。该数据集基于LAION大规模图像语料库，通过提取产品ID对图像进行结构化分组，并融合了类别元数据与BLIP2生成的描述文本，旨在推动指代式视觉搜索技术的前沿探索。其核心研究问题在于如何使模型能够依据复杂的语言指令，在包含干扰项的庞大图库中精准定位特定时尚单品，从而为电子商务、智能推荐等应用场景提供更自然、高效的交互范式。

当前挑战

LAION-RVS-Fashion数据集致力于解决指代式视觉搜索在时尚领域的核心挑战，即如何让模型理解并执行开放域的自然语言指代指令，例如“找到图中人物所佩戴的条纹围巾”。这要求模型具备跨模态对齐能力，以应对语言描述的多样性、视觉场景的复杂性以及目标与干扰项之间的细微差异。在构建过程中，研究团队面临多重挑战：首先，从海量的LAION原始数据中筛选并清洗出高质量的时尚产品图像，需克服噪声标注、多语言文本混杂以及图像内容不一致等问题；其次，为每个产品生成可靠的语义描述，依赖于BLIP2等视觉语言模型的性能，其描述准确性与丰富性直接影响数据集的效用；此外，构建包含数百万干扰项的测试集以模拟真实检索环境，对数据平衡性与评估鲁棒性提出了更高要求。

常用场景

经典使用场景

在时尚视觉搜索领域，LAION-RVS-Fashion数据集为基于指代指令的图像检索任务提供了基准。该数据集通过将产品图像划分为孤立产品图与复杂场景图，并辅以类别标签与BLIP2生成的文本描述，构建了多模态检索的典型框架。研究者通常利用该数据集训练模型，使其能够根据自然语言指令在庞大图库中精准定位目标商品，例如依据“带有彩色条纹的围巾”这类描述检索对应图像。这种设置模拟了真实电商环境中用户通过语言描述寻找心仪服饰的场景，为视觉-语言对齐研究提供了标准化实验平台。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，其中最具代表性的是其基准论文所提出的CondViT-LRVSF模型架构，该模型通过条件视觉变换器实现指代视觉搜索。后续研究在此基础上探索了多任务学习、对比学习预训练以及跨语言检索扩展等方向。数据集发布的官方排行榜持续激励社区开发更先进的跨模态检索算法，部分工作进一步将指代搜索与属性识别、时尚风格迁移等任务结合，推动了时尚计算领域的算法创新与理论深化。

数据集最近研究