i-CIR

github2025-11-05 更新2025-11-06 收录

下载链接：

https://github.com/billpsomas/icir

下载链接

链接失效反馈

官方服务：

资源简介：

i-CIR是一个实例级组合图像检索基准数据集，每个实例是视觉上难以区分的特定对象（如波塞冬神庙）。每个查询将实例图像与文本修改组合。为每个实例策划共享数据库，定义组合正样本和丰富的难负样本集——视觉负样本（相同/相似对象，错误文本）、文本负样本（正确文本语义，不同实例——通常同类别）和组合负样本（几乎匹配两部分但失败一部分）。该数据集通过人工策划和LAION自动检索结合构建，经过质量/重复/PII过滤和正负样本手动验证，具有紧凑但挑战性强的特点。关键统计：202个实例，约75万张图像，1,883个组合查询，每个查询平均约3.7K图像数据库。

i-CIR is a benchmark dataset for instance-level compositional image retrieval. Each instance refers to a specific visually indistinguishable object (e.g., the Temple of Poseidon). Each query combines an instance image with a textual modification. For each instance, a curated shared database is established, with defined compositional positive samples and a rich set of hard negative samples: visual negatives (same or similar objects with incorrect text), textual negatives (correct text semantics but different instances, typically from the same category), and compositional negatives (nearly matching both components but failing in one aspect). This dataset is constructed through a combination of manual curation and automated retrieval from LAION, followed by quality, duplicate, and PII filtering as well as manual validation of positive and negative samples, featuring a compact yet highly challenging profile. Key statistics: 202 instances, approximately 750,000 images, 1,883 compositional queries, with an average of ~3.7K images in the database per query.

创建时间：

2025-11-02

原始信息汇总

i-CIR数据集概述

数据集基本信息

数据集名称: i-CIR (Instance-Level Composed Image Retrieval)
版本: v1.0.0
发布年份: 2025
论文会议: NeurIPS 2025
数据集许可证: CC BY-NC-SA 4.0
代码许可证: MIT

数据集简介

i-CIR是一个实例级别的组合图像检索基准数据集，专注于特定视觉上不可区分的对象实例（如波塞冬神庙）。每个查询由一个实例图像和文本修改组合而成。

数据集特点

精心策划

每个实例共享一个数据库
定义组合正样本
提供丰富的困难负样本集：
- 视觉负样本（相同/相似对象，错误文本）
- 文本负样本（正确文本语义，不同实例）
- 组合负样本（几乎匹配两部分但失败一个）

紧凑但困难

结合人工策划和LAION自动检索构建
经过质量/重复/PII过滤和手动验证
对于简单基线，相当于在超过4000万干扰图像中搜索

真正组合性

性能在中间文本-图像融合权重处达到峰值
相比最佳单模态基线显示出大的组合增益

数据集统计

实例数量: 202
总图像数量: ~750,000
组合查询数量: 1,883
每个实例的图像查询数量: 1-46
每个实例的文本查询数量: 1-5
每个组合查询的正样本数量: 1-127
每个实例的困难负样本数量: 951-10,045
每个查询的平均数据库大小: ~3,700张图像

数据集下载

下载地址: https://vrg.fel.cvut.cz/icir/icir_v1.0.0.tar.gz
文件结构:

icir/ ├── database/ ├── query/ ├── database_files.csv ├── query_files.csv ├── VERSION.txt ├── LICENSE └── checksums.sha256

性能结果

在i-CIR数据集上的mAP性能：

Text: 3.01%
Image: 3.04%
Text + Image: 8.20%
Text × Image: 17.48%
BASIC: 31.64%
BASIC† (无查询扩展): 34.35%

引用格式

bibtex @inproceedings{ psomas2025instancelevel, title={Instance-Level Composed Image Retrieval}, author={Bill Psomas and George Retsinas and Nikos Efthymiadis and Panagiotis Filntisis and Yannis Avrithis and Petros Maragos and Ondrej Chum and Giorgos Tolias}, booktitle={The Thirty-ninth Annual Conference on Neural Information Processing Systems}, year={2025} }

搜集汇总

数据集介绍

构建方式

在实例级组合图像检索领域，i-CIR数据集的构建融合了人工筛选与自动化检索技术。研究团队首先从LAION数据源中提取候选图像，通过质量过滤、去重及隐私信息移除等步骤进行初步清理。随后针对每个视觉上不可区分的特定实例（如波塞冬神庙），人工验证并定义组合正样本，同时精心构建包含视觉、文本及组合类型的困难负样本集合，确保数据集的严谨性与挑战性。

使用方法

使用i-CIR数据集时，需遵循标准化流程：首先通过特征提取脚本生成图像与文本的嵌入表示，支持CLIP或SigLIP等视觉语言模型。检索阶段可选用预设的BASIC方法，其通过特征中心化、对比主成分投影及哈里斯角融合等多步骤优化跨模态查询。用户亦可尝试图像-文本求和、乘积等基线方法，通过调整融合参数探索模型在组合检索中的敏感性，最终结果以平均精度指标量化评估。

背景与挑战

背景概述

实例级组合图像检索（i-CIR）数据集由捷克技术大学等研究机构于2025年提出，聚焦于多模态信息融合的前沿问题。该数据集通过结合视觉与文本模态，旨在解决复杂场景下的细粒度图像检索任务，其核心研究问题在于如何精准理解用户对特定实例的语义修改需求。作为NeurIPS会议认可的标准基准，i-CIR通过严谨的实例标注和负样本设计，显著推动了跨模态检索领域的算法评估体系发展。

当前挑战

在组合图像检索领域，模型需同时应对视觉相似性干扰与语义歧义性挑战，例如区分外观相近但属性不同的实例。数据集构建过程中，研究团队面临三大难题：首先是从海量LAION数据中筛选视觉不可区分的实例样本，需保证每张图像具有明确的实例归属；其次是人工验证正负样本的语义一致性，避免标注偏差；最后是设计具有强干扰性的负样本集合，包括视觉相似但文本不匹配、文本匹配但实例不同等复杂情形，以提升基准的判别能力。

常用场景

经典使用场景

在视觉-语言跨模态检索领域，i-CIR数据集作为实例级组合图像检索的基准测试平台，其经典应用场景聚焦于评估模型对复杂多模态查询的理解能力。该数据集通过将特定实例图像与文本修饰组合构成查询任务，要求检索系统在包含视觉、文本及组合型困难负样本的数据库中精准定位目标，有效模拟了现实世界中用户通过图文混合指令搜索特定对象的场景。

解决学术问题

该数据集针对组合图像检索中模态融合不充分、困难负样本缺失等核心学术难题，通过构建实例级检索任务与多类型困难负样本体系，推动研究者深入探索视觉与语言模态的协同机制。其紧凑而高难度的特性显著提升了模型跨模态理解能力的评估信度，为解构多模态表征学习中的组合泛化问题提供了关键实验范本。

实际应用

在电子商务与数字资产管理等实际场景中，i-CIR支撑的检索技术能精准响应“寻找与此款式相似但采用皮革材质的手提包”等复杂需求。其构建的实例级检索框架可直接应用于商品跨模态搜索、博物馆数字典藏系统等垂直领域，通过理解用户输入的图文混合意图，显著提升复杂场景下的信息检索效率与准确性。

数据集最近研究