FashionMV

github2026-04-29 更新2026-05-01 收录

下载链接：

https://github.com/yuandaxia2001/FashionMV

下载链接

链接失效反馈

官方服务：

资源简介：

FashionMV是第一个专为产品级组合图像检索（CIR）设计的大规模多视角时尚数据集，通过全自动的三阶段流程构建。

FashionMV is the first large-scale multi-view fashion dataset specifically designed for product-level Composed Image Retrieval (CIR), constructed via a fully automatic three-stage pipeline.

创建时间：

2026-04-11

原始信息汇总

FashionMV 数据集详情

数据集概述

FashionMV 是首个专门为产品级组合图像检索（Composed Image Retrieval, CIR）设计的大规模多视角时尚数据集，旨在解决现有CIR方法中的“视角不完整性”（View Incompleteness）问题。

核心贡献

FashionMV：通过全自动三阶段流水线构建的大规模多视角时尚数据集。
ProCIR：将预训练多模态大语言模型（MLLM）的生成能力迁移到检索任务的建模框架。

数据构建流水线

FashionMV 通过三阶段流水线构建：

描述生成（Caption Generation）：将多视角产品图像输入MLLM，生成每张图像及产品级别的描述（长描述和短描述）。
幻觉过滤（Hallucination Filtering）：使用另一个MLLM交叉检查每个描述与图像，检测并移除幻觉描述。
CIR三元组构建（CIR Triplet Construction）：通过多路径候选检索（视觉、长描述、短描述相似度）识别目标产品，并由MLLM生成描述差异的修改文本。

数据集规模与组成

数据类型	文件	数量
验证集三元组	`val_triplets.jsonl`	32,718 条
验证集描述	`val_captions.jsonl`	18,803 条
训练集三元组	`train_triplets.jsonl`	188,015 条
训练集描述	`train_captions.jsonl`	108,428 条

图像来源

FashionMV 的图像来自三个公开数据集：

数据集	获取方式
DeepFashion	从 In-shop Clothes Retrieval Benchmark 下载，按产品ID组织
Fashion200K	从 fashion-200k 下载，按产品ID分组
FashionGen	需从 Kaggle 等学术渠道获取 `fashiongen_256_256_validation.h5` 和可选的 `fashiongen_256_256_train.h5`

文件结构

FashionMV/ ├── model/ # ProCIR模型检查点（0.8B参数） │ ├── config.json │ ├── model.safetensors │ ├── tokenizer.json │ └── ... └── data/ ├── val_triplets.jsonl ├── val_captions.jsonl ├── train_triplets.jsonl └── train_captions.jsonl

images/ ├── deepfashion/ ├── f200k/ ├── fashiongen_val/ └── fashiongen_train/

许可证

代码：MIT License
模型权重：遵循原始 Qwen3.5 许可证
数据集标注：CC BY-NC 4.0
图像：需从原始来源获取，受各自许可证约束

引用

bibtex @article{yuan2026fashionmv, title={FashionMV: Product-Level Composed Image Retrieval with Multi-View Fashion Data}, author={Yuan, Peng and Mei, Bingyin and Zhang, Hui}, year={2026} }

相关资源

论文：https://arxiv.org/abs/2604.10297
代码：https://github.com/yuandaxia2001/FashionMV
数据集：https://huggingface.co/datasets/yuandaxia/FashionMV
ProCIR模型：https://huggingface.co/yuandaxia/ProCIR

搜集汇总

数据集介绍

构建方式

在电商视觉检索领域，现有方法常因单视角图像信息不足而陷入视角不完整的困境。FashionMV数据集为此而生，其构建依托一条全自动的三阶段流水线：首先，将多视角产品图像输入多模态大语言模型，生成逐图像与产品级别的长短描述文本；其次，利用独立的MLLM对每段描述与图像进行交叉校验，精准过滤掉产生幻觉的虚假内容；最后，通过视觉、长描述与短描述相似度的多路径候选检索识别目标产品，并由MLLM生成描述差异的修改文本，完成三元组的构造。

使用方法

使用者需先安装依赖并下载ProCIR模型权重与FashionMV标注文件。图像数据需从三个原始数据集获取并按照产品ID组织为指定目录结构。评估时通过evaluate.py脚本独立对每个数据集进行检索，支持单卡与多卡分布式运行，可灵活选择评估子集。脚本通过--datasets参数指定目标数据集，--model_path、--image_root与--data_dir分别指向模型、图像根目录与标注文件位置，输出结果默认保存至results目录。训练代码待后续发布，目前侧重于利用预训练模型与注释进行零样本或微调评估。

背景与挑战

背景概述

在时尚电商与智能检索领域，组合图像检索（CIR）技术通过用户提供的参考图像与修改文本共同定位目标商品，日益受到学术界与工业界的关注。然而，现有CIR方法普遍受限于“视角不完整性”问题，即仅依赖单张图像难以捕捉产品全貌，导致检索性能瓶颈。为突破这一局限，Peng Yuan、Bingyin Mei及Hui Zhang等研究者于2026年提出了FashionMV数据集，该数据集是首个面向产品级多视角组合图像检索的大规模时尚数据集，由自动化三阶段流水线构建而成，涵盖DeepFashion、Fashion200K与FashionGen三大公开数据源，包含约22万组训练三元组与3.2万组验证三元组。FashionMV的发布为多视角CIR任务提供了标准基准，推动了时尚领域细粒度图像理解与跨模态检索的发展。

当前挑战

FashionMV数据集所面临的挑战主要集中于两个层面。在领域问题层面，传统CIR方法因视角单一而无法胜任产品级检索，多视角数据的引入虽缓解了视角缺失，却带来了多源图像对齐、冗余信息融合以及修改文本与多视角图像语义一致性建模等新难题。在数据构建层面，自动化流水线虽然高效，但多模态大模型（MLLM）生成的描述存在幻觉风险，需设计专门的过滤机制予以剔除；同时，三元组构建依赖多路径候选检索与MLLM生成的修改文本，如何保证候选目标的准确性与修改文本的多样性成为关键瓶颈。此外，FashionMV整合了多个异构数据集，其图像版权获取与合规分发亦构成了实践中的一大考验。

常用场景

经典使用场景

在时尚领域的多模态检索研究中，FashionMV数据集专门用于产品级别的组合图像检索任务。其核心使用场景是给定一张多视角的源商品图像（如正面、侧面、背面），并结合一段描述修改意图的自然语言文本（例如“将这件连衣裙的领口改为V领，袖子改为长袖”），要求模型从包含大量候选商品的图库中精准检索出符合描述修改后特征的目标商品。该数据集涵盖来自DeepFashion、Fashion200K和FashionGen三大公开数据集的数万商品，提供了超过18万条训练三元组和3.2万条验证三元组，其中每个样本都包含多视角商品图像、产品级别描述以及描述差异的修改文本，从而为多视角信息利用与细粒度视觉语义对齐的研究奠定了坚实的数据基础。

解决学术问题

FashionMV数据集旨在解决现有组合图像检索研究中普遍存在的“视角不完整性”这一根本性问题。以往的CIR方法通常仅依赖单张商品图像进行检索，忽略了真实电商场景中商品具有多视角外观的事实，导致模型难以捕捉产品完整视觉特征，检索性能受限。通过构建大规模、多视角、产品级别的时尚数据集，FashionMV首次定义了多视角组合图像检索任务，促使研究者关注如何有效融合多个视角的视觉信息，并结合自然语言修改指令进行推理。该数据集的提出推动了从粗粒度类别检索向细粒度产品实例检索的范式转变，显著提升了检索任务的实际可用性和可靠性。

实际应用

在实际应用中，FashionMV数据集所支撑的技术可直接赋能电商平台的智能搜索与推荐系统。消费者在购物时，常常以一张心仪商品图片为基准，期望通过文字描述（如“换成蓝色”、“改为短款”）快速找到符合个性化需求的商品。基于FashionMV训练的模型能够理解多视角图像与修改文本的复合语义，实现精准的商品级检索，极大改善用户的购物体验。此外，该技术还可应用于虚拟试衣间的商品匹配、社交媒体中的穿搭推荐、以及二手交易平台中的物品识别与搜索等场景，具有广泛的商业价值和落地潜力。

数据集最近研究