i-CIR
收藏arXiv2025-10-29 更新2025-10-31 收录
下载链接:
https://vrg.fel.cvut.cz/icir/
下载链接
链接失效反馈官方服务:
资源简介:
i-CIR是一个实例级组合图像检索数据集,旨在检索在文本查询定义的修改下,包含与视觉查询相同特定对象的图像。该数据集包含了202个对象实例和750K张图像,每个实例有1-46个图像查询和1-5个文本修改,共有1883个组合查询。数据集通过半自动化的方式选择了大量的硬负样本,以保持其挑战性。此外,数据集的构建过程结合了人工输入和自动图像检索,使用了LAION数据集中的图像。i-CIR数据集适用于训练和评估组合图像检索方法,旨在解决现有数据集中存在的问题,如标签模糊、假阴性率高、文本查询不充分等。
i-CIR is an instance-level compositional image retrieval dataset designed to retrieve images that contain the same specific object as the visual query under modifications defined by text queries. This dataset includes 202 object instances and 750K images, with each instance having 1 to 46 image queries and 1 to 5 text modifications, amounting to a total of 1,883 compositional queries. A large number of hard negative samples are selected for the dataset via a semi-automated approach to sustain its challenge level. Furthermore, the dataset's construction process combines manual annotation and automated image retrieval, utilizing images from the LAION dataset. The i-CIR dataset is intended for training and evaluating compositional image retrieval methods, and aims to resolve issues present in existing datasets, such as ambiguous labels, high false negative rates, and insufficient text queries.
提供机构:
VRG, FEE, Czech Technical University in Prague; Robotics Institute, Athena Research Center; National Technical University of Athens; Hellenic Robotics Center of Excellence; IARAI
创建时间:
2025-10-29
搜集汇总
数据集介绍

构建方式
i-CIR数据集的构建采用半自动化流程,结合人工标注与基于CLIP模型的图像检索技术。首先从LAION数据集中筛选候选图像,通过定义具体对象实例(如波塞冬神庙)和语义合理的文本修改(如“日落时分”),生成种子图像和描述语句。随后利用图像到图像及文本到图像的检索方法,从候选池中识别正样本和三类困难负样本:视觉负样本(对象相同但未匹配文本修改)、文本负样本(语义匹配但对象不同)和组合负样本(部分匹配查询条件)。最终通过人工审核确保数据质量,移除低分辨率或重复内容,并采用像素化处理保护隐私信息,形成结构严谨的评估基准。
特点
i-CIR数据集以实例级对象定义为核心理念,要求检索系统识别同一具体对象在不同文本修饰下的视觉表现。其独特之处在于明确包含三类困难负样本,覆盖视觉、文本及组合维度,显著提升检索任务的挑战性。数据集涵盖202个对象实例和75万张图像,包含地标、虚构角色、产品等多元视觉类别,以及视角、属性、上下文等七类文本修饰,充分体现真实场景的复杂性。通过紧凑的数据库设计(平均每查询仅3.7千张图像),其难度相当于在超过4000万随机干扰项中检索,为组合检索研究提供了无歧义且高泛化性的评估环境。
使用方法
使用i-CIR时需构建组合查询,将视觉查询图像与文本修改描述结合,在特定实例的数据库中进行检索评估。检索结果需优先返回符合文本修饰的同一对象实例图像,并基于平均精度均值(mAP)量化性能。数据集的每个实例拥有独立数据库,避免跨实例干扰,同时支持按视觉类别或文本修饰类型进行细粒度分析。为确保评估可靠性,应避免依赖单模态捷径,重点关注模型对跨模态信息的协同理解能力。该数据集专为评估设计,不包含训练数据,可直接用于测试组合图像检索方法的泛化性与鲁棒性。
背景与挑战
背景概述
i-CIR数据集由捷克技术大学VRG研究组与雅典研究中心等机构于2025年联合推出,聚焦实例级组合图像检索这一前沿研究方向。该数据集针对现有CIR数据集中普遍存在的语义级别定义模糊、负样本质量不足等问题,首次提出以具体物体实例为检索单元的创新范式。其核心研究目标在于通过视觉查询与文本修改的组合,精准检索展现同一物体实例在不同修饰条件下的图像,有效推动了细粒度跨模态检索领域的发展。
当前挑战
在领域问题层面,i-CIR致力于解决实例级组合检索中三大核心挑战:视觉负样本需呈现与查询图像相似但未满足文本修饰的物体,文本负样本需符合文本语义但展示不同实例,组合负样本则需同时逼近两个查询维度。构建过程中面临双重挑战:其一是通过半自动化流程从LAION数据源中筛选高质量正负样本时,需平衡标注效率与数据纯净度;其二是设计紧凑而具有代表性的查询组合时,需确保文本修饰与视觉实例的语义一致性,同时避免预训练模型偏差对数据质量的影响。
常用场景
经典使用场景
在组合图像检索研究领域,i-CIR数据集通过实例级别的对象定义革新了评估范式。该数据集要求模型根据给定的视觉查询图像和文本修改描述,从数据库中检索出展现同一对象实例且符合文本修改要求的图像。其独特之处在于构建了视觉、文本和组合三个维度的困难负样本,有效模拟真实场景中对象在不同视角、属性和环境下的复杂变化,为评估模型对细粒度视觉语义的理解能力提供了精准的测试平台。
实际应用
在文化遗产数字化保护场景中,i-CIR支持对特定文物在不同光照条件或拍摄角度下的精准检索,助力博物馆构建智能归档系统。电子商务领域可基于该技术实现商品多属性组合搜索,例如检索特定款式的服装在不同搭配场景下的展示图像。智能安防系统通过实例级检索能力,能够准确追踪特定车辆在不同时空背景下的出现记录,为城市治理提供可视化决策支持。
衍生相关工作
i-CIR催生了训练无关的组合检索方法BASIC,该方法通过分离计算图像-图像和文本-图像相似度并进行后期融合,开创性地利用预训练视觉语言模型实现零样本检索。后续研究如MagicLens、FreeDom等方法均在i-CIR基准上验证其有效性,推动形成基于语义投影和上下文增强的技术路线。这些工作共同构建起实例级组合检索的理论框架,为多模态理解任务提供了可解释性强的解决方案。
以上内容由遇见数据集搜集并总结生成



