Fine-FashionIQ, Fine-CIRR

Name: Fine-FashionIQ, Fine-CIRR
Creator: 山东大学软件学院, 香港城市大学数据科学学院, 哈尔滨工业大学（深圳）计算机科学与技术学院
Published: 2025-03-27 17:34:21
License: 暂无描述

arXiv2025-03-27 更新2025-03-29 收录

下载链接：

https://github.com/SDU-L/FineCIR.git

下载链接

链接失效反馈

官方服务：

资源简介：

本文介绍了两个细粒度的图像检索数据集：Fine-FashionIQ和Fine-CIRR，它们通过精细注释现有CIR数据集（FashionIQ和CIRR）而创建。这些数据集旨在提升图像检索系统中对细粒度修改意图的理解和检索精度，减少不准确的正样本，并解决传统粗粒度修改文本在检索视觉相似图像时存在的模糊性问题。

This paper introduces two fine-grained image retrieval datasets: Fine-FashionIQ and Fine-CIRR, which are created by elaborately annotating the existing CIR datasets (FashionIQ and CIRR). These datasets are designed to enhance the understanding of fine-grained modification intentions and the retrieval accuracy of image retrieval systems, reduce inaccurate positive samples, and resolve the ambiguity issue caused by traditional coarse-grained modification texts when retrieving visually similar images.

提供机构：

山东大学软件学院, 香港城市大学数据科学学院, 哈尔滨工业大学（深圳）计算机科学与技术学院

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

在构建Fine-FashionIQ和Fine-CIRR数据集时，研究团队采用了一种精细化的数据标注流程。该流程分为数据选择、构建和质量检查三个阶段。首先，通过预训练的视觉语言模型BLIP计算参考图像与目标图像之间的语义相似度，筛选出具有高相关性的图像对。随后，利用GPT-4o等大型语言模型对图像对进行逻辑性和修改可行性的评估，确保所选图像对适合细粒度标注。在构建阶段，使用BLIP-3生成细粒度修改文本（FineMT），并通过人工和自动化结合的方式对文本进行优化和压缩，以确保其准确性和简洁性。最后，通过多角度的质量检查，包括仅使用FineMT或参考图像进行检索验证，确保数据集的可靠性和高质量。

特点

Fine-FashionIQ和Fine-CIRR数据集的主要特点在于其细粒度的修改文本（FineMT）。与传统的粗粒度修改文本（CoarseMT）相比，FineMT能够更全面地描述参考图像与目标图像之间的差异，涵盖多个对象和背景的细节修改。这种细粒度的标注显著减少了不精确的正样本，并提高了模型在区分视觉相似图像时的准确性。此外，数据集的构建过程中严格控制了文本长度，确保与CLIP等文本编码器的兼容性，同时避免了文本信息对视觉信息的压制。数据集经过严格的自动化和人工验证，确保了其在高要求的细粒度图像检索任务中的适用性。

使用方法

Fine-FashionIQ和Fine-CIRR数据集主要用于支持细粒度组合图像检索（CIR）模型的开发和评估。研究人员可以使用这些数据集来训练和测试模型在理解和执行复杂、细粒度的图像修改任务中的表现。数据集中的每个样本包含参考图像、细粒度修改文本和目标图像，可用于多模态查询的构建和检索任务的评估。此外，数据集还特别设计了一个子集，用于评估模型在区分高度视觉相似的负样本时的性能。使用这些数据集时，建议结合先进的视觉语言预训练模型（如BLIP-2）和细粒度语义解析技术（如场景图解析），以最大化数据集的效用。

背景与挑战

背景概述

Fine-FashionIQ和Fine-CIRR是由山东大学、香港城市大学和哈尔滨工业大学（深圳）的研究团队于2025年提出的细粒度组合图像检索（Composed Image Retrieval, CIR）数据集。这些数据集基于现有的FashionIQ和CIRR数据集，通过引入细粒度修改文本（FineMT）来解决传统CIR数据集中粗粒度修改文本（CoarseMT）的局限性。FineMT能够更精确地描述参考图像与目标图像之间的差异，从而提升模型对用户修改意图的理解能力。该数据集的构建采用了一个包含数据选择、构建和质量检查三阶段的标注流程，确保了数据的高质量和可靠性。Fine-FashionIQ和Fine-CIRR的发布推动了细粒度CIR研究的发展，并在图像检索领域产生了广泛影响。

当前挑战

Fine-FashionIQ和Fine-CIRR数据集面临的挑战主要包括两方面：1) 领域问题的挑战：传统CIR数据集的粗粒度修改文本无法准确捕捉用户的细粒度检索意图，导致检索结果不精确和模糊性增加。例如，在开放域数据集中，忽略细节差异会导致不精确的正样本；而在时尚域数据集中，视觉相似图像的检索模糊性较高。2) 构建过程中的挑战：数据标注需要处理复杂的图像对和生成详细的修改文本，同时需避免幻觉内容和冗余信息。此外，确保修改文本与参考图像的关联性以及控制文本长度以适配模型输入限制也是构建过程中的关键挑战。

常用场景

经典使用场景

在时尚和开放域图像检索领域，Fine-FashionIQ和Fine-CIRR数据集通过细粒度修改文本（FineMT）的引入，显著提升了组合图像检索（CIR）任务的精度。这些数据集特别适用于需要精确捕捉用户修改意图的场景，如时尚产品搜索和开放域图像检索。FineMT能够详细描述参考图像与目标图像之间的差异，从而减少不精确的正样本，并增强模型对视觉相似图像的区分能力。

衍生相关工作

基于Fine-FashionIQ和Fine-CIRR数据集，研究者们开发了多个先进的CIR模型，如FineCIR，这是首个显式解析修改语义的CIR框架。此外，这些数据集还推动了细粒度图像检索领域的研究，衍生出如SPRC和LIMN等模型，进一步提升了多模态特征融合和语义对齐的技术水平。

数据集最近研究