M-FashionIQ; M-CIRR
收藏arXiv2026-04-24 更新2026-04-25 收录
下载链接:
https://github.com/lee-zixu/ACL26-TEMA/
下载链接
链接失效反馈官方服务:
资源简介:
M-FashionIQ和M-CIRR是由山东大学、香港理工大学等机构构建的多模态修改数据集,旨在解决组合图像检索(CIR)任务中实体覆盖不足和子句-实体错位问题。数据集基于FashionIQ和CIRR扩展,通过多模态大语言模型(MLLM)生成并人工验证的多修改文本(MMT)增强数据复杂性。M-FashionIQ聚焦时尚领域,涵盖服装形状、颜色等属性;M-CIRR为开放域数据集,强调多对象细粒度描述。数据集通过自动标注与人工审核结合,确保高质量和实用性,适用于复杂多修改场景下的CIR模型训练与评估。
M-FashionIQ and M-CIRR are multimodal modification datasets developed by institutions including Shandong University and The Hong Kong Polytechnic University, aiming to address two critical challenges in the Composed Image Retrieval (CIR) task: insufficient entity coverage and clause-entity misalignment. These datasets are expanded from the original FashionIQ and CIRR datasets, with their complexity enhanced by Multi-Modification Texts (MMT) generated by Multimodal Large Language Models (MLLM) and validated via manual inspection. M-FashionIQ is tailored for the fashion domain, covering attributes such as clothing silhouette and color; whereas M-CIRR is an open-domain dataset that emphasizes fine-grained descriptions of multiple objects. Leveraging a hybrid pipeline combining automatic annotation and manual review, the datasets ensure high quality and practicality, and are suitable for training and evaluating CIR models in complex multi-modification scenarios.
提供机构:
山东大学·软件学院; 香港理工大学·计算学系; 哈尔滨工业大学(深圳)·计算机科学与技术学院
创建时间:
2026-04-24
搜集汇总
数据集介绍

构建方式
M-FashionIQ和M-CIRR数据集基于经典的FashionIQ与CIRR构建,旨在应对实际应用中组合图像检索(CIR)面临的实体覆盖不足与从句-实体错位两大局限。构建过程中,利用多模态大语言模型Llama 3.2为原始三元组生成富含指令的多修改文本(MMT),通过设计领域定制的提示(如针对时尚域的服装细节与开放域的多对象场景),确保MMT忠实于原始修改意图并详尽描述参考图像到目标图像的转换。随后,采用GPT-4o进行幻觉检测以消除生成内容中的虚假信息,再经由人工审查从一致性、准确性、多样性和质量四个维度校验文本,最后通过内容过滤器剔除脱离参考图像的独立描述,从而获得高质量的多修改标注。
特点
该数据集的核心特点在于将传统CIR中的简短修改文本扩展为指令密集型多修改文本,显著提升了对多个待修改实体和子句的覆盖能力。MMT不仅详细列出了从参考图像到目标图像所需的一系列具体修改步骤,还通过显式的约束结构(如“将裙子的领口改为露肩设计”与“延长袖长”涉及不同实体),直接克服了实体覆盖不足问题。同时,针对多个修改从句约束同一实体或单一从句涉及多实体的情况,数据集提供了紧密对齐的标注,有效模拟了真实场景中细粒度检索需求,并减少了原有CIR任务中因描述不充分导致的假阴性样本影响。
使用方法
研究者可直接将M-FashionIQ和M-CIRR作为训练与评估基准,用于测试CIR模型在多修改场景下的性能。使用时不改变原始参考图像、目标图像及评估协议,仅替换修改文本为MMT。模型训练时,需结合提出的TEMA框架,利用多修改文本解析助手(PA)提取实体摘要并借助一致性检测器确保覆盖度,再通过基于可学习查询的实体映射模块(EM)聚合同一实体的多个从句。建议采用BLIP作为骨干网络,设置学习率2e-5、批次大小64、查询通道数为3,并采用基于批次的分类损失、摘要引导蒸馏损失与正交正则化联合优化,以提升多实体对齐与检索精度。
背景与挑战
背景概述
组合图像检索(Composed Image Retrieval, CIR)作为多模态检索领域的重要范式,允许用户通过“参考图像+修改文本”的组合查询来定位目标图像,在电商、人机交互等场景中展现出广阔的应用前景。然而,现有CIR研究多聚焦于描述单一、显著变化的简单修改文本,难以覆盖实际应用中多实体、多子句的复杂修改需求。为弥补这一差距,由山东大学、香港理工大学及哈尔滨工业大学(深圳)的研究人员于2026年构建了M-FashionIQ与M-CIRR数据集。前者基于时尚领域的FashionIQ,后者基于开放域的CIRR,通过多模态大语言模型自动生成并人工校验多修改文本(MMT),旨在提供更贴近真实场景的评估基准,推动CIR从实验室设定向实际部署迈进。
当前挑战
当前CIR模型面临两大核心挑战:一是实体覆盖不足(Insufficient Entity Coverage),即训练信号多集中于显著区域,导致对图像中少量或非显著待修改实体的遗漏;二是子句-实体错位(Clause-Entity Misalignment),即多个修改子句可能约束同一实体,或单一子句涉及多个同类实体,而现有模型缺乏有效的多对多对齐能力。在数据集构建过程中,还需克服多模态大语言模型生成的幻觉内容以及人工校验的语义一致性、准确性、多样性与质量保障难题,同时确保MMT忠实于原始修改意图并减少假负样本对模型训练的干扰。
常用场景
经典使用场景
在组合图像检索(CIR)领域,M-FashionIQ与M-CIRR数据集经典地用于评估模型在复杂、多实体、多子句修改场景下的检索能力。与传统CIR数据集仅包含简短、粗粒度的修改文本不同,这两个数据集将原始修改文本扩展为指令密集的多修改文本,覆盖了多个待修改实体与精细属性约束,从而构建了更贴近真实世界用户需求的检索基准。研究者通常利用这两个数据集检验模型能否在保留参考图像主体与风格的前提下,同时处理多实体覆盖、多子句对齐等挑战,从而推动CIR任务从简单修改迈向多修改的实际应用场景。
解决学术问题
M-FashionIQ与M-CIRR的构建直面了传统CIR研究中两个关键瓶颈:一是‘实体覆盖不足’,即训练信号仅聚焦于显著区域而忽略其他待修改实体;二是‘子句-实体错位’,即多个修改子句对应同一实体或单一子句约束多个实体时,模型难以建立正确的对应关系。这两个数据集的提出,为学术界提供了首个标准化的多修改CIR评测平台,使研究者能够量化现有模型在多实体、多约束场景下的性能退化,并借助其细粒度的MMT标注,系统性地探索实体感知与子句聚合的建模方法,对提升CIR模型的鲁棒性与实用价值具有里程碑式的意义。
衍生相关工作
基于M-FashionIQ与M-CIRR数据集,研究者已衍生出多项经典工作,代表性的框架包括TEMA——首个同时适配多修改与简单修改场景的CIR架构。TEMA通过MMT解析助手与面向MMT的实体映射模块,分别解决了实体覆盖不足与子句-实体错位问题。此外,BLIP4CIR、Candidate等基线模型在引入多修改文本后的性能对比,也催生了一系列关于改进实体感知与跨模态对齐的研究,如FineCIR显式解析修改语义、TG-CIR采用正交正则化增强特征独立性。这些衍生工作不仅验证了多修改数据集的评估价值,更推动了CIR领域向精细化、实用化方向持续演进。
以上内容由遇见数据集搜集并总结生成



