Human-Preference FashionIQ (HP-FashionIQ)

Name: Human-Preference FashionIQ (HP-FashionIQ)
Creator: KAIST
Published: 2025-07-17 01:06:33
License: 暂无描述

arXiv2025-07-17 更新2025-08-15 收录

下载链接：

https://github.com/jackwaky/QuRe

下载链接

链接失效反馈

官方服务：

资源简介：

HP-FashionIQ数据集是针对复合图像检索（CIR）任务创建的一个新数据集，它通过捕获用户在目标图像检索之外的其他图像上的偏好，来评估CIR模型的性能。该数据集包含3,050个查询，每个查询都有两个图像集合，分别由不同的CIR模型检索得到，并由人类评估员进行偏好标注。HP-FashionIQ旨在解决现有CIR数据集的局限性，即仅标注单个目标图像，忽略了其他相关图像的重要性。通过引入人类偏好标注，HP-FashionIQ为评估CIR模型的性能提供了一个更全面和人性化的标准。

The HP-FashionIQ dataset is a novel dataset created for the composite image retrieval (CIR) task, which evaluates the performance of CIR models by capturing user preferences over images other than the target retrieval image. This dataset contains 3,050 queries, each paired with two image sets retrieved by different CIR models, with preference annotations provided by human evaluators. HP-FashionIQ aims to address the limitations of existing CIR datasets, which only annotate single target images and overlook the importance of other relevant images. By introducing human preference annotations, HP-FashionIQ offers a more comprehensive and human-centric standard for evaluating the performance of CIR models.

提供机构：

KAIST

创建时间：

2025-07-17

搜集汇总

数据集介绍

构建方式

Human-Preference FashionIQ (HP-FashionIQ) 数据集的构建基于FashionIQ验证集，通过61名参与者的标注工作完成。每个查询包含两个由不同CIR模型生成的检索图像集，每个集合包含前5个检索结果。参与者根据查询的多模态输入（参考图像和相对文本）对两个集合的相关性进行评分，并选择更符合其偏好的集合。数据集通过严格的模态冗余检查和注意力检查，确保标注数据的可靠性和一致性。

特点

HP-FashionIQ 数据集是首个在组合图像检索（CIR）任务中引入人类偏好标注的数据集。其核心特点在于不仅关注目标图像的检索，还强调检索结果的整体相关性，从而更全面地评估模型与人类偏好的对齐程度。数据集包含2,715个有效查询，覆盖了FashionIQ验证集中的“衬衫”和“T恤”类别，为CIR模型的性能评估提供了更贴近实际用户体验的基准。

使用方法

HP-FashionIQ 数据集主要用于评估CIR模型在检索结果相关性方面的表现。研究者可以通过比较不同模型生成的检索集合在人类偏好标注中的表现，量化模型与人类偏好的对齐程度。具体使用时，模型需为每个查询生成检索结果，并通过计算其与人类标注偏好的一致性（如偏好率）来评估性能。数据集还可用于分析模态冗余问题，验证模型对图像和文本输入的平衡处理能力。

背景与挑战

背景概述

Human-Preference FashionIQ (HP-FashionIQ)数据集由KAIST的研究团队于2025年提出，旨在解决组合图像检索（CIR）任务中用户满意度评估的局限性。传统CIR数据集仅标注单个目标图像，忽略了检索结果中其他相关图像的重要性，导致评估指标如Recall@k无法全面反映用户体验。HP-FashionIQ基于FashionIQ验证集构建，通过61名参与者对3050个查询的检索结果进行人工偏好标注，首次在CIR领域引入人类偏好评估标准。该数据集聚焦电子商务场景中的多模态查询（如图像+文本修改需求），通过量化模型输出与人类偏好的对齐程度，推动了检索系统从“目标驱动”到“用户体验驱动”的范式转变。

当前挑战

HP-FashionIQ面临的核心领域挑战在于：1) 多模态查询的语义对齐问题，需同时满足图像参考属性和文本修改需求的精确匹配；2) 传统对比学习框架中假阴性样本的干扰，即被错误标记为负样本的相关图像会降低检索质量。数据集构建过程中的挑战包括：1) 标注成本高昂，需设计高效的人机协作流程确保3050个查询的偏好标注一致性；2) 模态冗余处理，当文本或图像单模态主导检索时需通过质量控制机制排除低效样本；3) 评估维度设计，需平衡目标图像检索准确率与整体结果相关性，通过5级Likert量表和AB测试捕捉复杂的人类偏好特征。

常用场景

经典使用场景

在时尚电商领域，HP-FashionIQ数据集被广泛应用于评估组合图像检索（CIR）模型的性能。该数据集通过结合参考图像和描述性文本，模拟用户在购物时对商品属性的复杂需求，如“蓝色短袖T恤”或“带有格纹图案的灰色衬衫”。其经典使用场景包括测试模型在跨模态检索中的准确性，以及验证模型是否能够理解并满足用户对视觉和文本特征的复合要求。

衍生相关工作

HP-FashionIQ数据集推动了多项相关研究的发展，包括基于奖励模型的对比学习优化方法（如QURE）和跨模态特征融合技术。这些工作进一步衍生出更高效的硬负样本采样策略（如基于相关性分数陡降的采样），以及针对人类偏好的新型评估框架。数据集还启发了对模态冗余问题的研究，例如CASE工作提出的文本与图像模态平衡分析。

数据集最近研究