REditBench

Name: REditBench
Creator: 香港科技大学; 南京理工大学; 新加坡国立大学
Published: 2025-05-23 19:41:26
License: 暂无描述

arXiv2025-05-23 更新2025-05-28 收录

下载链接：

https://dongzhang89.github.io/RGenie.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

REditBench是一个全面的基准数据集，用于评估推理引导的生成图像编辑。该数据集由1070个精心策划的图像-指令-编辑三元组组成，包括丰富的推理上下文和现实世界知识。数据集涵盖了两种基本的编辑类型：原子编辑和复合编辑，分别涉及简单的更改和多步推理以及上下文理解。REditBench的构建利用了指代图像分割数据集，并使用最先进的修复模型生成了高保真编辑图像。该数据集旨在支持推理引导的生成图像编辑任务，帮助理解用户意图并执行上下文推理。

提供机构：

香港科技大学; 南京理工大学; 新加坡国立大学

创建时间：

2025-05-23

搜集汇总

数据集介绍

构建方式

REditBench数据集的构建采用了多阶段精心设计的流程，融合了合成数据生成与人工标注的双重优势。研究团队首先基于RefCOCO/RefCOCO+等指代图像分割数据集建立空间定位基础，随后运用Stable-Diffusion-XL-1.0等先进修复模型生成高保真编辑图像。为确保数据质量，专业标注人员进一步对复杂推理指令及对应图像变换进行人工校验，最终形成包含1,070个图像-指令-编辑三元组的平衡数据集。该数据集按7:2比例划分为训练集与验证集，并通过CLIP语义一致性验证和人工评审双重机制保障数据可靠性。

特点

REditBench的核心特征体现在其深度整合了世界知识与上下文推理的编辑指令体系。数据集包含原子编辑和复合编辑两大类型，前者处理简单对象替换（如'将图中人物替换为马克·扎克伯格'），后者需要多步推理（如'识别图中富含蛋白质的食物并用香蕉替换'）。每个样本均包含隐含意图的自然语言指令、原始图像及经过精确空间对齐的编辑结果，其中35%的样本涉及需要常识推理的复合编辑任务。数据集特别设计了220个验证样本，专门用于测试组合推理能力和泛化性能。

使用方法

使用REditBench时，研究者可通过标准化接口加载图像-指令对及其对应编辑目标。数据集支持端到端训练推理引导的图像编辑模型，特别适用于评估模型在隐含意图理解、常识推理和像素级精确编辑方面的综合能力。基准测试包含CLIP相似度、L2背景损失、美学评分和RISEBench综合分数四项指标，建议采用交叉验证策略确保结果可靠性。对于复合编辑任务，可额外引入链式思维（Chain-of-Thought）提示策略来分解多步推理过程。

背景与挑战

背景概述

REditBench是由香港科技大学、南京理工大学和新加坡国立大学的研究团队于2025年提出的一个专注于推理引导生成式图像编辑的数据集。该数据集包含1070个精心构建的图像-指令-编辑三元组，旨在解决当前图像编辑方法在处理需要世界知识和上下文推理的复杂文本指令时的局限性。REditBench的构建基于RefCOCO/RefCOCO+等参考图像分割数据集，并利用Stable-Diffusion-XL-1.0等先进模型生成高质量编辑结果。该数据集的推出为评估模型在理解隐含用户意图和执行基于推理的精确图像编辑方面的能力提供了系统化的基准。

当前挑战

REditBench面临的挑战主要体现在两个方面：领域问题方面，当前图像编辑方法难以处理需要复杂推理的隐含指令，如涉及世界知识（识别富含蛋白质的食物）或上下文推理（判断公共场合禁止的行为）的编辑请求；构建过程方面，数据集的创建需要平衡合成数据与人工标注样本，确保编辑指令的多样性和复杂性，同时保持视觉一致性和语义准确性。此外，评估模型的推理能力和编辑质量也需要设计新的度量标准，如背景保留损失和语义一致性评分等。

常用场景

经典使用场景

在生成式图像编辑领域，REditBench数据集为研究复杂推理引导的编辑任务提供了标准化的评估基准。该数据集通过精心设计的图像-指令-编辑三元组，支持模型处理隐含用户意图和上下文推理的编辑请求，例如根据抽象属性识别目标对象（如“将颜色类似橙子的猫替换为狗”）或执行多步骤语义操作（如“识别不适合军事任务的人物并移除”）。其结构化设计填补了传统文本引导编辑与需要世界知识的复杂推理任务之间的评估空白。

衍生相关工作

REditBench催生了多个跨模态推理与生成融合的创新研究。基于该数据集开发的R-Genie框架首次实现了推理注意力机制与分层推理模块的协同，启发了后续工作如SmartEdit的语义约束保持技术。数据集构建方法为MagicBrush-V2的复合指令标注提供了范式参考，其评估指标被RISEBench等基准采纳。在基础模型层面，该工作推动了OmniGen等统一框架对编辑任务中离散-连续模态对齐机制的探索。

数据集最近研究