MIRAGE-Bench

github2026-04-08 更新2026-03-23 收录

下载链接：

https://github.com/ZiqianLiu666/MIRAGE

下载链接

链接失效反馈

官方服务：

资源简介：

MIRAGE-Bench包含100个样本，每个样本由一张图像、一个由五个子指令组成的复合编辑指令和相应的地面真实掩码组成。该基准测试旨在在更复杂的参考表达场景中评估图像编辑模型。

MIRAGE-Bench consists of 100 samples, each of which comprises an image, a compositional editing instruction composed of five sub-instructions, and the corresponding ground truth mask. This benchmark is designed to evaluate image editing models in more complex referring expression scenarios.

创建时间：

2026-03-20

原始信息汇总

MIRAGE数据集概述

数据集基本信息

数据集名称：MIRAGE-Bench
核心用途：评估和基准测试多实例图像编辑模型在复杂场景下的性能
主要挑战：针对涉及多个相似实例和组合编辑指令的场景，现有先进模型常出现过度编辑和空间错位问题

数据集内容与结构

样本数量：100个样本
样本构成：每个样本包含一张图像、一条由五个子指令组合而成的复合编辑指令，以及对应的真实掩码
设计目标：在更复杂的指代表达场景中评估图像编辑模型

数据生成方法

生成流程：基于自动图像合成管道构建
管道步骤：
1. 图像描述生成
2. 图像生成
3. 编辑指令生成
4. 掩码生成
替代方案：用户可直接下载已构建的基准数据集，跳过合成管道步骤

数据集获取与使用

下载地址：https://drive.google.com/file/d/1VK8Vu7Vdw35GWb7IapZLFSugoJTblTDx/view?usp=sharing
集成框架：提供MIRAGE（多实例区域对齐引导编辑）训练免费框架，用于实现精确的局部化编辑
支持模型：框架集成了FLUX.2[klein]-9B、Flux.2[Dev]和Qwen-Image-Edit-2511等基础图像编辑模型

评估方法

基于LLM的指标：使用本地开源Qwen模型计算PF和Cons，使用GPT API评估PQ
传统指标：计算MSE、LPIPS、PSNR等像素级相似度指标

搜集汇总

数据集介绍

构建方式

在指令引导的图像编辑领域，现有模型在处理多相似实例及复合指令时面临挑战。MIRAGE-Bench的构建依托于一套自动化的图像合成流程，该流程首先通过精心设计的提示模板批量生成图像描述，随后利用先进的文本到图像模型生成包含多个相似实例的原始图像。在此基础上，结合图像语义与源提示生成复合编辑指令，并通过边界框检测算法自动生成目标区域的地面实况掩码，最终形成包含图像、指令与掩码的完整样本集合。

特点

该数据集专为评估多实例场景下的细粒度编辑一致性而设计，其核心特点在于样本均包含多个外观相似的实例以及由多个子指令组合而成的复合编辑指令，这模拟了现实应用中复杂的指代表达需求。每个样本均配有精确的目标区域掩码，为模型性能的定量评估提供了可靠基准。数据集的构建高度自动化，确保了规模的可扩展性与标注的一致性，为深入研究多实例编辑中的空间对齐与背景保持问题提供了标准化测试平台。

使用方法

研究人员可通过下载链接获取完整的MIRAGE-Bench数据集，直接用于模型评估。数据集的使用遵循标准的推理与评估流程：首先利用提供的脚本进行目标定位与图像裁剪，随后将裁剪区域与全局图像输入集成了MIRAGE框架的基础编辑模型进行推理。评估阶段支持基于大型语言模型的感知指标与传统的像素级相似度指标计算，用户可根据需要配置相应的模型与API密钥，以全面衡量编辑结果在指令遵循、实例级精度与背景一致性等方面的表现。

背景与挑战

背景概述

在人工智能驱动的图像编辑领域，指令引导的图像编辑技术近年来取得了显著进展，涌现出如FLUX.2和Qwen-Image-Edit等先进模型。然而，这些模型在处理涉及多个相似实例的复杂场景时仍面临严峻挑战，例如需要对每个实例进行独立编辑的复合指令情境。为了系统评估并推动该领域的发展，研究人员Ziqian Liu与Stephan Alaniz等人于近期共同创建了MIRAGE-Bench数据集。该数据集的核心研究问题聚焦于多实例、多指令设置下的细粒度一致性编辑，旨在填补现有基准在评估模型处理复杂指代表达与空间对齐能力方面的空白。通过提供一个包含合成图像、复合编辑指令及真实掩码的标准化测试集，MIRAGE-Bench为提升模型在真实世界复杂编辑任务中的精确性与鲁棒性奠定了重要基础。

当前挑战

MIRAGE-Bench所针对的领域挑战在于解决多实例图像编辑中的精确指代与空间对齐问题。现有先进模型在面临多个相同实例和复合指令时，常出现严重的过度编辑和空间错位，导致对非目标区域的意外修改。构建该数据集的过程同样面临一系列挑战：首要挑战在于自动化合成高质量、语义丰富的多实例图像及其对应的复合编辑指令，这需要设计精密的流水线以确保图像与指令在语义和空间上的一致性。其次，生成精确的地面实况掩码以支持像素级评估，需克服实例分割与边界标注的准确性难题。此外，确保数据集的多样性与复杂性，以全面反映真实编辑场景的挑战，也对合成策略的设计提出了较高要求。

常用场景

经典使用场景

在指令引导的图像编辑领域，MIRAGE-Bench作为一个专门设计的基准测试集，其经典使用场景聚焦于评估和提升模型在复杂多实例环境下的编辑能力。该数据集通过合成包含多个相似对象的图像，并配以组合式编辑指令，模拟了现实世界中需要对图像中不同实例进行差异化修改的挑战性任务。研究者利用这一基准，能够系统地测试模型在保持背景一致性的同时，实现对特定实例的精准、局部化编辑，从而推动多实例图像编辑技术向更精细、更可靠的方向发展。

解决学术问题

MIRAGE-Bench的构建，旨在解决当前图像生成与编辑模型在面临多实例和复合指令时普遍存在的学术难题，例如严重的过度编辑和空间错位问题。该数据集通过提供精确的实例级掩码和结构化指令，为量化模型在细粒度一致性上的表现建立了标准。其意义在于填补了多实例编辑评估体系的空白，使得学术界能够客观比较不同方法的性能，并引导模型设计朝着理解复杂场景语义、实现精准区域对齐的方向演进，对提升生成模型的可靠性与可控性具有深远影响。

衍生相关工作

围绕MIRAGE-Bench数据集及其提出的MIRAGE框架，已衍生出一系列关注多实例编辑与区域对齐的经典研究工作。这些工作主要沿着两个方向展开：一是改进基准测试方法，提出了更全面的评估指标（如PF、Cons、PQ）来量化编辑的精准度与一致性；二是发展新的模型架构与训练策略，例如基于视觉语言模型进行指令分解，或采用多分支并行去噪等无需训练的技术，以实现对目标区域的潜在表示注入，同时保持背景的完整性。这些衍生工作共同深化了对于复杂指令下图像编辑本质的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集