FashionMT

github2025-03-05 更新2025-03-26 收录

下载链接：

https://github.com/PKU-ICST-MIPL/MAI_ICLR2025

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了FashionMT数据集的整个部分，并在该数据集上进行了实验比较。为了方便下载该数据集，我们将提供一个百度网盘下载链接。请注意，由于我们正在积极准备该工作的扩展期刊版本，完整的数据集、代码及其组织将在期刊提交后发布，以避免潜在冲突。

We have released the full subset of the FashionMT dataset and conducted experimental comparisons on it. To facilitate the download of this dataset, we will provide a Baidu Netdisk download link. Please note that as we are actively preparing an extended journal version of this work, the full dataset, code and their organization will be released after journal submission to avoid potential conflicts.

创建时间：

2025-02-25

原始信息汇总

MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval 数据集概述

数据集基本信息

数据集名称: FashionMT
关联论文: MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval
维护者: Yanzhe Chen

数据集状态

当前发布状态: 部分发布（仅公开FashionMT数据集的部分内容）
完整数据集发布时间: 待期刊版本提交后发布
下载方式: 将通过Baidu Netdisk提供下载链接

数据集用途

主要用途: 用于组合图像检索任务的实验对比
关联模型: MAI多轮聚合迭代模型

引用信息

bibtex @inproceedings{chenmai, title={MAI: A Multi-turn Aggregation-Iteration Model for Composed Image Retrieval}, author={Chen, Yanzhe and Yang, Zhiwen and Xu, Jinglin and Peng, Yuxin}, booktitle={The Thirteenth International Conference on Learning Representations} }

注意事项

完整代码和数据集组织方式将在期刊版本提交后发布
训练代码基于PyTorch的DistributedDataParallel实现
预训练框架配置：2节点，每节点8块V100 GPU

搜集汇总

数据集介绍

构建方式

在时尚图像检索领域，FashionMT数据集的构建采用了多轮聚合迭代的先进方法。研究团队通过精心设计的实验框架，整合了分布式数据并行技术，在2个节点上各部署8块V100 GPU进行预训练。数据采集过程严格遵循学术规范，为确保数据质量，团队采用了阶段性发布策略，当前开放了数据集的部分章节，完整版本将在期刊论文提交后全面公开。

特点

FashionMT数据集作为多轮组合图像检索领域的重要资源，其显著特点体现在多模态数据的深度融合。该数据集不仅包含丰富的时尚图像样本，还整合了精细的文本描述，为研究跨模态检索提供了理想平台。数据组织采用模块化设计，便于研究者针对特定任务进行定制化使用，同时保持原始数据的完整性和一致性。

使用方法

使用FashionMT数据集需要遵循特定的技术流程。研究者需先配置基于PyTorch的分布式训练环境，通过提供的脚本文件完成路径设置后，即可运行train.sh启动模型训练。评估阶段则调用validate.sh脚本，在预定义的验证集上进行性能测试。数据集采用分阶段发布模式，用户需关注官方仓库获取最新下载链接，并将模型权重放置于指定目录以复现实验结果。

背景与挑战

背景概述

FashionMT数据集作为多轮聚合迭代模型（MAI）的核心组成部分，由北京大学研究团队于ICLR 2025会议期间首次公开，旨在推动组合图像检索领域的发展。该数据集聚焦时尚领域，通过多轮交互式查询实现细粒度图像检索，解决了传统静态检索方法难以捕捉用户动态意图的瓶颈问题。研究团队通过构建大规模时尚单品标注数据与多轮对话指令的关联映射，为跨模态检索模型提供了重要的基准测试平台，其创新性体现在将迭代反馈机制引入视觉-语言联合建模，显著提升了复杂场景下的检索精度。

当前挑战

构建FashionMT数据集面临双重挑战：在领域问题层面，组合图像检索需要克服模态鸿沟与意图漂移问题，即如何准确对齐用户多轮文本描述与动态变化的视觉特征；在技术实现层面，数据采集需处理时尚领域的长尾分布特性，确保小众品类样本的覆盖率，同时多轮对话标注要求复杂的语义一致性校验。此外，分布式训练框架下海量图像-文本对的高效存储与检索，以及隐私保护下的数据共享机制设计，均为该数据集构建过程中的关键技术难点。

常用场景

经典使用场景

在时尚图像检索领域，FashionMT数据集为多轮组合图像检索任务提供了丰富的实验基础。该数据集通过整合多模态的时尚图像和文本描述，支持研究者构建和评估复杂的检索模型，特别是在需要迭代优化查询条件的场景中表现出色。

实际应用

在实际应用中，FashionMT数据集可广泛应用于电子商务平台的智能时尚推荐系统。通过利用该数据集训练的多轮检索模型，能够精准理解用户逐步细化的时尚需求，提升购物体验和转化率，为时尚行业的智能化转型提供技术支撑。

衍生相关工作

围绕FashionMT数据集，研究者已衍生出多项经典工作，如MAI多轮聚合迭代模型。这些工作不仅拓展了多模态检索的研究边界，也为后续研究提供了重要参考。数据集的设计理念还被应用于其他垂直领域的检索任务，形成了良性的学术影响循环。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集