FashionMV
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://huggingface.co/datasets/yuandaxia/FashionMV
下载链接
链接失效反馈官方服务:
资源简介:
FashionMV是首个面向产品级组合图像检索(CIR)的大规模多视角时尚数据集。该数据集包含127,000个时尚产品、472,000张多视角图像以及超过220,000个CIR三元组,通过基于大型多模态模型的自动化流程构建而成。数据集主要包含两种类型的文件:1) 三元组文件(train_triplets.jsonl/val_triplets.jsonl),记录源产品ID、目标产品ID、涉及视角以及长短两种修改文本;2) 描述文件(train_captions.jsonl/val_captions.jsonl),包含产品ID及长短两种描述文本。图像数据需从三个公开时尚数据集(DeepFashion、Fashion200K和FashionGen)单独获取。数据集总规模为:训练集108,428个产品和188,015个三元组,验证集18,803个产品和32,718个三元组。该数据集特别适用于多视角产品级组合图像检索任务的研究与开发。
创建时间:
2026-04-11
搜集汇总
数据集介绍

构建方式
在时尚信息检索领域,多视角图像数据的稀缺性长期制约着产品级组合图像检索任务的发展。FashionMV数据集通过整合DeepFashion、Fashion200K和FashionGen三个公开时尚数据集,构建了一个包含12.7万种产品、47.2万张多视角图像的大规模资源库。其核心创新在于利用大型多模态模型驱动的全自动化流程,生成了超过22万组高质量的CIR三元组,每条数据均精确标注了源产品ID、目标产品ID、涉及的视角信息以及长短两种形式的修饰文本,为模型训练提供了丰富的语义监督信号。
特点
作为首个面向产品级组合图像检索的大规模多视角时尚数据集,FashionMV最显著的特征在于其真实场景下的多视角覆盖能力,每个产品均包含从不同角度拍摄的图像序列。数据集提供的修饰文本兼具详细描述与简洁指令两种形态,既支持细粒度属性修改的理解,也适应快速检索的实用需求。其数据分布涵盖了训练集10.8万产品和18.8万三元组、验证集1.9万产品和3.3万三元组的精心划分,确保了评估的可靠性与泛化性能的准确检验。
使用方法
研究者在使用该数据集时需遵循特定的数据准备流程,首先需从原始数据源分别获取DeepFashion、Fashion200K和FashionGen的图像文件,并按照规定的目录结构进行组织。对于FashionGen数据,需运行官方提供的Python脚本将H5格式文件转换为标准图像文件夹。文本标注数据以JSONL格式提供,包含训练与验证两部分的图像三元组和产品描述文件,用户可通过加载这些结构化注释,将其与对应路径的图像进行关联,进而构建完整的训练与评估数据管道,实现多视角组合检索模型的端到端开发。
背景与挑战
背景概述
在时尚计算与多模态检索领域,产品级别的组合图像检索旨在根据用户提供的参考图像与文本修改指令,精准定位目标商品。FashionMV数据集由研究人员于2026年构建,作为首个大规模多视角时尚数据集,它整合了DeepFashion、Fashion200K与FashionGen三大公开资源,涵盖12.7万种商品、47.2万张多视角图像及超过22万组CIR三元组。该数据集通过全自动化流程生成,其核心研究问题聚焦于如何利用多视角视觉信息与自然语言指令,推动商品级细粒度检索技术的发展,对电子商务、虚拟试衣等应用场景具有显著的学术与工程影响力。
当前挑战
FashionMV数据集致力于解决产品级别组合图像检索中的关键挑战,即如何准确理解并执行跨模态的复杂修改指令,例如将服装的特定视角颜色或款式进行转换。这一任务要求模型同时具备精细的视觉感知与语义推理能力。在构建过程中,挑战主要体现在多源数据集成与标注生成上:原始图像数据分散于不同数据集,需统一处理格式与视角标注;而高质量修改文本的自动化生成,则依赖于大语言模型的可靠性与领域适应性,确保文本指令与视觉内容之间的精确对齐,避免歧义与噪声干扰。
常用场景
经典使用场景
在时尚计算领域,多视角图像与文本的交互检索一直是研究热点。FashionMV数据集通过提供大规模的产品级组合图像检索(CIR)三元组,为模型训练与评估奠定了坚实基础。其经典使用场景集中于训练和验证多模态模型,以实现在给定源图像和文本修改指令的条件下,精准检索出符合描述的目标产品图像。这一过程充分利用了数据集中的多视角图像和丰富的文本标注,推动了时尚检索系统在复杂查询下的性能提升。
衍生相关工作
围绕FashionMV数据集,已衍生出一系列重要的研究工作。其中最突出的是基于Qwen3.5-0.8B架构训练的ProCIR模型,该模型采用感知与推理解耦的对话设计,并利用图像-文本对齐机制注入产品知识,实现了高效的多视角产品级组合检索。此外,该数据集的构建方法论——利用大语言模型自动生成文本标注——也为其他领域的多模态数据收集提供了可借鉴的范式,激励了后续在细粒度跨模态检索任务上的模型创新与基准拓展。
数据集最近研究
最新研究方向
在时尚计算领域,多视角图像理解与组合图像检索正成为前沿焦点。FashionMV作为首个大规模多视角时尚数据集,通过集成DeepFashion、Fashion200K和FashionGen等多源数据,构建了超过22万组CIR三元组,为产品级组合检索任务提供了丰富基准。该数据集驱动的研究方向集中在利用大型多模态模型自动化构建数据管道,以及开发如ProCIR这类感知与推理解耦的对话架构模型,以注入产品知识并实现高效的多视角语义对齐。这些进展不仅提升了时尚电商中个性化推荐系统的精准度,也为跨模态生成与检索的融合探索开辟了新路径,显著推动了视觉语言模型在垂直领域的应用深化。
以上内容由遇见数据集搜集并总结生成



