UniREditBench

Name: UniREditBench
Creator: 复旦大学, 上海创新研究院, 浙江大学, 加州大学伯克利分校
Published: 2025-11-03 15:24:57
License: 暂无描述

arXiv2025-11-03 更新2025-11-19 收录

下载链接：

https://hf-mirror.com/datasets/maplebb/UniREditBench

下载链接

链接失效反馈

官方服务：

资源简介：

UniREditBench是一个统一的推理图像编辑评估基准，由复旦大学、上海创新研究院、浙江大学和加州大学伯克利分校的研究人员提出。该数据集包含2700个精心策划的样本，涵盖现实世界和游戏世界的8个主要维度和18个子维度，旨在评估多模态生成模型在处理复杂图像编辑任务时的推理能力。数据集的设计考虑了多对象交互和游戏世界场景，并引入了多模态双重参考评估，为每个样本评估提供文本和真实图像参考。此外，还设计了一个自动化的多场景数据合成流程，构建了一个包含高质量思维链（CoT）推理注释的大型合成数据集UniREdit-Data-100K，并通过在数据集上微调Bagel模型，开发了UniREdit-Bagel，证明了数据集的有效性和可靠性。

UniREditBench is a unified benchmark for reasoning-oriented image editing evaluation, proposed by researchers from Fudan University, Shanghai Research Institute, Zhejiang University, and the University of California, Berkeley. This dataset consists of 2,700 carefully curated samples, covering 8 major dimensions and 18 sub-dimensions across both real-world and game-world scenarios, with the core goal of evaluating the reasoning capabilities of multimodal generative models when handling complex image editing tasks. The dataset design accounts for multi-object interactions and game-world scenarios, and introduces multimodal dual-reference evaluation, which provides both textual descriptions and real reference images for the assessment of each sample. Additionally, an automated multi-scenario data synthesis pipeline was designed to construct a large-scale synthetic dataset, UniREdit-Data-100K, which contains high-quality Chain-of-Thought (CoT) reasoning annotations. By fine-tuning the Bagel model on this dataset, UniREdit-Bagel was developed, thus verifying the validity and reliability of the benchmark.

提供机构：

复旦大学, 上海创新研究院, 浙江大学, 加州大学伯克利分校

创建时间：

2025-11-03

搜集汇总

数据集介绍

构建方式

在构建UniREditBench数据集过程中，研究团队设计了多场景数据合成流程以覆盖真实世界与游戏世界两大领域。针对真实世界场景，采用文本引导的图像生成策略：首先人工编写包含原始图像描述、编辑指令和效果文本参考的三元组，通过视觉语言模型进行规模扩展后，利用生成模型合成符合文本描述的图像对。对于游戏世界场景，则通过Python程序自动生成具有逻辑约束的图像对与指令，并借助程序化推理链确保规则一致性。所有样本均经过基于视觉语言模型的质量过滤与人工校验，最终形成包含2700个高质量样本的基准数据集。

使用方法

使用该数据集时，研究者可通过其结构化评估框架系统检验图像编辑模型的推理能力。评估过程聚焦三个核心维度：指令遵循度通过对比生成图像与文本参考及真实效果图像的匹配程度，衡量编辑指令的准确执行；视觉一致性评估非编辑区域的保留质量，检验模型的局部编辑能力；视觉质量则从感知完整性角度判断生成结果的合理性。采用视觉语言模型作为评估器时，需同时输入原始图像、编辑指令、生成图像及双参考数据，通过加权计算得出综合评分。这种多维度评估方法能有效揭示模型在不同推理场景下的优势与局限，为改进方向提供实证依据。

背景与挑战

背景概述

UniREditBench由复旦大学与上海创新研究院等机构于2025年联合提出，旨在构建统一的基于推理的图像编辑评估基准。该数据集针对多模态生成模型在复杂推理任务中的局限性，通过涵盖现实世界与游戏世界场景的8个主要维度和18个子维度，系统化评估模型对多对象交互及规则逻辑的理解能力。其创新的双参考评估机制结合文本与真实图像参照，显著提升了评估可靠性，为图像编辑技术的演进提供了关键支撑。

当前挑战

该数据集致力于解决复杂推理图像编辑任务中的两大核心挑战：其一，传统基准局限于单对象属性编辑，难以覆盖多对象动态交互及游戏规则驱动的逻辑推理场景；其二，构建过程中需克服数据合成质量与评估一致性的难题，例如在游戏世界场景中需通过程序化生成确保规则遵循性，而双参考评估框架的设计需平衡视觉对齐与语义连贯性的双重约束。

常用场景

经典使用场景

在图像编辑领域，UniREditBench作为首个统一推理基准，其经典应用场景聚焦于评估生成模型在复杂多对象交互和游戏世界逻辑推理任务中的表现。该数据集通过涵盖真实世界与虚拟游戏场景的8个主要维度，系统检验模型对物理规律和人为规则的隐式理解能力，例如在真实场景中模拟船桨划水产生的流体动力学效应，或在推箱子游戏中执行符合空间约束的路径规划。

解决学术问题

该数据集有效解决了当前图像编辑研究中存在的两大核心问题：传统基准局限于单对象属性编辑而忽视多对象动态交互，以及纯文本参考评估在复杂推理任务中的系统性误判。通过引入包含2700个样本的多模态双参考评估体系，它为模型在时空推理、逻辑策略等认知层面的能力提供了标准化度量，显著推进了生成式AI在因果推理与符号逻辑融合方向的研究进程。

实际应用

在实际应用层面，UniREditBench支撑的模型优化已展现出广泛的应用前景。基于该数据集训练的UniREdit-Bagel模型能够准确执行工业设计中的器械操作模拟、教育领域的物理实验可视化，以及游戏开发中的动态场景生成。其特有的链式思维注释机制更使模型具备可解释的决策过程，为自动驾驶仿真、医疗影像分析等高风险领域提供可靠的技术基础。

数据集最近研究