EDIR
收藏github2026-01-23 更新2026-01-27 收录
下载链接:
https://github.com/SighingSnow/edir
下载链接
链接失效反馈官方服务:
资源简介:
EDIR是一个用于重新思考组合图像检索评估的细粒度基准数据集,源自图像编辑任务。
EDIR is a fine-grained benchmark dataset for rethinking the evaluation of compositional image retrieval, derived from image editing tasks.
创建时间:
2026-01-23
原始信息汇总
EDIR数据集概述
数据集基本信息
- 数据集名称:EDIR
- 关联论文:Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing
- 论文状态:ACL 2025
- arXiv标识:2601.16125
- 论文链接:https://arxiv.org/abs/2601.16125
- 官方仓库:https://github.com/SighingSnow/edir
数据集状态与获取
- 发布状态:数据集将在未来两个月内于Hugging Face平台发布。
- 获取方式:发布后需从指定链接下载,并存放于
dataset/edir目录。
数据集用途与评估
-
核心用途:用于组合图像检索的细粒度评估基准,源自图像编辑任务。
-
评估方法:通过运行提供的
main.py脚本进行评估。 -
评估命令示例: sh python main.py --model_id "rzen-7b" --model_name_or_path "" --dataset edir --dataset_path [图像路径]
-
自定义扩展:用户可参考
models目录实现自有模型进行评估,或参考test目录格式添加新数据集。
引用信息
若使用本数据集或相关研究,请引用以下论文: bibtex @misc{song2026edir, title={Rethinking Composed Image Retrieval Evaluation: A Fine-Grained Benchmark from Image Editing}, author={Tingyu Song and Yanzhao Zhang and Mingxin Li and Zhuoning Guo and Dingkun Long and Pengjun Xie and Siyue Zhang and Yilun Zhao and Shu Wu}, year={2026}, eprint={2601.16125}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2601.16125}, }
搜集汇总
数据集介绍

构建方式
在计算机视觉领域,图像编辑技术的快速发展催生了对于组合图像检索任务更精细评估的需求。EDIR数据集正是基于这一背景,通过图像编辑过程构建而成,其核心方法是从原始图像出发,依据文本指令进行编辑操作,生成修改后的图像,并以此形成查询-目标对。该过程模拟了现实应用中用户通过自然语言描述对图像进行特定修改后检索相似图像的场景,确保了数据对组合检索任务的实际代表性。构建过程中,编辑指令与图像变化被精心设计以覆盖多样化的语义修改类型,从而为评估模型对细粒度视觉-语言对齐的理解能力提供了坚实基础。
特点
EDIR数据集的特点在于其专注于从图像编辑中衍生出的细粒度评估基准。与传统的组合图像检索数据集不同,它强调对图像进行具体编辑操作后产生的视觉变化与文本指令之间的微妙关联,要求模型不仅能理解全局语义,还需捕捉细节层面的修改。数据集中包含的查询对涵盖了广泛的编辑类型,如对象添加、属性修改或场景变换,这为评估模型在复杂、动态的视觉语言理解任务上的鲁棒性和精确性提供了多维度的测试环境。其结构设计旨在推动检索模型超越粗粒度匹配,实现更深层次的语义推理。
使用方法
使用EDIR数据集时,研究人员需首先从指定平台下载数据至本地目录,并按照提供的代码库结构进行配置。通过运行评估脚本,指定模型标识与数据集路径,即可对模型在EDIR上的性能进行自动化测试。数据集支持自定义模型的集成,用户可参照现有模型实现方式,将自身模型适配到评估框架中。此外,数据集的格式清晰规范,便于扩展新的测试样本或调整评估指标,从而灵活支持不同研究需求,促进组合图像检索领域的算法比较与进步。
背景与挑战
背景概述
在计算机视觉与信息检索交叉领域,组合图像检索任务旨在根据文本指令对参考图像进行修改,并检索出符合描述的图像,这对多模态理解提出了更高要求。EDIR数据集由Tingyu Song等研究人员于2026年构建,其核心研究问题聚焦于从图像编辑角度重新评估组合图像检索的细粒度性能。该数据集通过提供精细的文本-图像对,推动了模型在复杂语义对齐与视觉细节保持方面的研究,为多模态检索领域的评估标准化与模型优化奠定了重要基础。
当前挑战
组合图像检索领域长期面临语义鸿沟与细粒度对齐的挑战,模型需精准理解文本指令对图像内容的细微调整,如物体属性替换或场景局部修改,同时保持整体视觉一致性。在数据集构建过程中,从图像编辑任务中生成高质量、多样化的文本-图像对需要克服标注一致性难题,确保编辑描述与图像变化之间的精确对应,避免歧义与噪声干扰,这对数据采集与验证流程提出了严格的技术要求。
常用场景
经典使用场景
在计算机视觉与信息检索交叉领域,EDIR数据集为组合图像检索任务提供了精细化的评估基准。该数据集通过图像编辑操作生成查询对,模拟真实世界中用户基于文本指令修改参考图像并检索目标图像的场景。研究者利用EDIR评估模型在复杂语义变换下的检索性能,例如测试模型能否准确理解“将图中的蓝天替换为黄昏”这类细粒度编辑意图,从而推动组合检索技术向更高语义理解层次发展。
解决学术问题
EDIR数据集主要解决了组合图像检索领域长期存在的评估粒度不足问题。传统基准往往局限于简单属性修改,难以衡量模型对复杂编辑指令的语义解析能力。该数据集通过构建多维度编辑操作(如对象替换、场景转换、风格迁移等),为学术界提供了可量化、可复现的评估框架,显著提升了检索任务在细粒度语义对齐方面的研究深度,促进了跨模态理解模型的技术演进。
衍生相关工作
围绕EDIR数据集,学术界已衍生出多类经典研究工作。一方面,研究者基于其细粒度评估特性提出了新型跨模态对齐模型,如融合视觉-语言预训练架构的检索框架;另一方面,该数据集催生了针对编辑语义解耦、渐进式检索优化的方法论探索。相关成果不仅发表于ACL、CVPR等顶级会议,更推动了如ComposeAE、TIRG等经典检索模型的迭代升级,形成了以细粒度编辑感知为核心的技术生态。
以上内容由遇见数据集搜集并总结生成



