EDIR

Name: EDIR
Creator: 中国科学院自动化研究所; 阿里巴巴集团·通义实验室; 香港科技大学·广州; 南洋理工大学; 耶鲁大学
Published: 2026-01-23 01:26:52
License: 暂无描述

arXiv2026-01-23 更新2026-01-24 收录

下载链接：

https://github.com/sighingsnow/edir

下载链接

链接失效反馈

官方服务：

更多采购需求

资源简介：

EDIR是由阿里巴巴通义实验室等机构联合构建的细粒度组合图像检索基准数据集，旨在解决现有基准类别覆盖不足和模态偏差问题。该数据集包含5000条结构化查询，涵盖5个主类别和15个子类别，数据来源通过图像编辑技术合成，确保修改类型的精确控制和多样性。其构建流程包括种子图像筛选、原始三元组生成、查询重写及人工验证，最终应用于评估多模态嵌入模型在复杂真实场景下的组合推理能力，尤其针对电商、创意搜索等领域的细粒度需求。

EDIR is a fine-grained compositional image retrieval benchmark dataset jointly constructed by Alibaba's Tongyi Lab and other institutions, designed to address the problems of insufficient category coverage and modal bias in existing benchmarks. This dataset includes 5,000 structured queries covering 5 main categories and 15 sub-categories. Its data is synthesized via image editing technologies, ensuring precise control and diversity of modification types. The construction pipeline of EDIR comprises seed image screening, original triplet generation, query rewriting and manual verification, and it is ultimately applied to evaluate the compositional reasoning capabilities of multi-modal embedding models in complex real-world scenarios, especially targeting the fine-grained demands of fields such as e-commerce and creative search.

提供机构：

中国科学院自动化研究所; 阿里巴巴集团·通义实验室; 香港科技大学·广州; 南洋理工大学; 耶鲁大学

创建时间：

2026-01-23

原始信息汇总

EDIR 数据集概述

数据集基本信息

数据集名称：EDIR
官方论文：Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
论文链接：https://arxiv.org/abs/2601.16125
论文状态：ACL 2025
数据集状态：将于未来两个月内在Hugging Face平台发布

数据集用途

核心任务：组合图像检索评估
特点：一个从图像编辑任务中衍生出的细粒度基准数据集

数据集获取与使用

获取方式：需通过指定链接下载至 dataset/edir 目录
评估脚本：使用 main.py 脚本进行评估
评估命令示例： sh python main.py --model_id "rzen-7b" --model_name_or_path "" --dataset edir --dataset_path [图像路径]
自定义模型评估：参考 models 目录实现自有模型
自定义数据集添加：参考 test 目录的数据格式

引用信息

如需引用本工作，请使用以下BibTeX条目： bibtex @misc{song2026edir, title={Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing}, author={Tingyu Song and Yanzhao Zhang and Mingxin Li and Zhuoning Guo and Dingkun Long and Pengjun Xie and Siyue Zhang and Yilun Zhao and Shu Wu}, year={2026}, eprint={2601.16125}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.16125}, }

搜集汇总

数据集介绍

构建方式

在组合图像检索领域，现有基准常因类别覆盖狭窄与数据规模有限而难以全面评估模型能力。EDIR数据集通过创新的自动化数据合成流程构建，该流程深度融合了图像编辑技术。具体而言，研究团队首先从LAION-400M中筛选高质量源图像，并基于一个涵盖五大主类、十五个子类的细粒度分类体系，利用多模态大语言模型生成多样化的编辑指令。随后，借助先进的图像编辑模型（如Qwen-Image-Edit）将指令应用于源图像，生成目标图像，并通过两阶段的大语言模型过滤与人工验证确保数据质量。最终，该流程生成了5000个高质量查询三元组，并构建了一个包含178,645张图像的检索库。

特点

EDIR数据集的核心特点在于其精细的类别划分与均衡的数据分布。该数据集构建了一个层次化的分类体系，涵盖属性、对象、关系、全局环境和复杂查询五大类别，并进一步细分为颜色、材质、形状、纹理、添加、移除、替换、计数、空间、动作、视角、风格、时间、天气及复杂组合等十五个子类。每个子类均包含300个查询，复杂类别则包含800个查询，确保了评估的全面性与平衡性。与现有基准相比，EDIR显著扩展了细粒度修改类型的覆盖范围，特别是强化了移除、空间关系、纹理等以往被忽视的类别。同时，其构建方法有效避免了模态偏差，要求模型必须综合理解图像与文本信息，而非依赖单一模态的捷径，从而提供了对组合图像检索能力更严谨、更真实的评估。

使用方法

EDIR数据集主要作为评估组合图像检索模型性能的基准。研究人员可使用该数据集对各类多模态嵌入模型进行细粒度评估，重点关注模型在不同修改类别上的表现差异。评估时，模型接收一个由参考图像和文本修改描述组成的查询，并从大规模图像库中检索出最匹配的目标图像。标准评估指标为Recall@1。该数据集不仅可用于衡量模型的整体检索能力，更能通过分析模型在十五个子类上的性能表现，诊断其在处理否定、组合推理、多约束条件及细粒度细节等方面的具体弱点。此外，EDIR支持领域内训练实验，通过在其合成数据上微调模型，可以区分哪些挑战可通过增加特定数据解决，哪些则揭示了当前模型架构的内在局限，从而为未来模型开发提供明确方向。

背景与挑战

背景概述

组合图像检索作为多模态理解领域的关键任务，其评估体系长期受限于现有基准的粗粒度与规模不足。为弥合这一评估鸿沟，阿里巴巴通义实验室联合中国科学院自动化研究所等机构于2026年提出了EDIR基准。该数据集通过创新的图像编辑驱动合成流程构建，涵盖5,000个高质量查询，并依据属性、对象、关系、全局环境与复杂组合五大类别及其十五个子类进行精细划分。EDIR的创立旨在为组合图像检索模型提供全面、细粒度的评估框架，其均衡的类别分布与大规模图像库显著提升了评估的严谨性与现实贴合度，对推动多模态嵌入模型向更精准的语义组合理解发展产生了深远影响。

当前挑战

EDIR基准所应对的核心领域挑战在于提升组合图像检索任务中模型对细粒度、多类别语义修改的精确理解与匹配能力。具体而言，模型需克服对否定指令的处理缺陷、在计数、空间关系等任务上组合推理能力的不足，以及同时满足多重约束条件时的性能局限。在数据集构建层面，主要挑战集中于实现自动化、可扩展的细粒度查询合成，这要求对图像编辑过程进行精确控制以生成语义明确的目标图像，并需通过多阶段过滤与人工验证确保查询与图像对的高质量对齐，避免模态偏差与类别覆盖不全等问题，从而构建出能够真实反映模型组合泛化能力的评估基准。

常用场景

经典使用场景

在组合图像检索领域，EDIR数据集作为一项细粒度评估基准，其经典使用场景在于系统性地评测多模态嵌入模型对复杂视觉-语言组合指令的理解与执行能力。该数据集通过图像编辑技术构建了涵盖属性、物体、关系、全局环境和复杂组合五大类别共十五个子类别的查询，要求模型依据参考图像和文本修改描述，从大规模图库中精准检索出符合多重约束的目标图像。这种结构化的评估框架能够深入揭示模型在颜色变换、物体增删、空间关系调整、风格迁移等具体任务上的性能边界，为模型能力的诊断与比较提供了标准化平台。

实际应用

EDIR数据集所模拟的细粒度组合检索能力，在诸多实际应用场景中具有重要价值。在电子商务领域，用户可通过上传商品图片并描述期望的修改（如“将这件衬衫换成蓝色亚麻材质”），系统能据此精准推荐满足要求的商品。在创意设计与内容创作中，设计师可基于参考图稿提出复杂的修改指令（如“调整建筑视角为仰视，并添加黄昏天空效果”），以快速检索或生成符合构思的视觉素材。此外，在交互式图像编辑、智能相册管理以及增强现实等场景中，EDIR所评测的模型能力能够支持更自然、更精准的以图搜图和人机交互体验，推动相关技术向实用化、智能化方向发展。

衍生相关工作

EDIR数据集的提出，激发并支撑了一系列围绕细粒度组合图像检索的衍生研究工作。在模型架构方面，催生了如EDIR-MLLM等专门针对其复杂查询进行域内训练的模型，探索了利用合成数据提升模型在特定类别上性能的可行性。在评估方法论上，EDIR促使学界更深入地分析现有基准的局限性（如CIRCO的模态偏见、CIRR的类别覆盖不足），推动了更鲁棒、更全面的评估协议的发展。同时，其构建过程中采用的基于大语言模型与图像编辑模型的数据合成管道，也为后续大规模、高质量多模态数据集的自动构建提供了可借鉴的技术范式，影响了数据合成策略在视觉-语言任务中的应用研究。

以上内容由遇见数据集搜集并总结生成

社区讨论

#经验分享

【我遇到的问题】 • 现象：该数据集的下载链接已失效【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72

5,000+

优质数据集

54 个

任务类型

进入经典数据集