Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation Benchmark

Name: Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation Benchmark
Creator: 弗吉尼亚大学; 哥伦比亚大学; 范德比尔特大学; 奥多比研究院; 杜比实验室; 思科研究院; 南加州大学; 威斯康星大学麦迪逊分校; 俄勒冈大学; 德州农工大学
Published: 2026-02-13 23:34:32
License: 暂无描述

arXiv2026-02-13 更新2026-02-17 收录

下载链接：

https://github.com/mllmasajudge-anonymous/MLLM-as-a-Judge

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由多所顶尖高校和研究机构联合构建，旨在通过细粒度多模态大语言模型（MLLM）评估框架解决图像编辑模型评估的挑战。数据集整合了人类评估、MLLM评分、模型输出及传统指标，覆盖图像保留、编辑质量和指令忠实度等12个维度。其创新性在于将主观评价分解为可解释的语义因子，并通过大规模人类研究验证了MLLM评估与人类判断的高度一致性。该资源支持离线（有真值）和在线（无真值）双场景，为图像编辑算法的研究、比较与优化提供了标准化基准。

This dataset was jointly constructed by multiple top-tier universities and research institutions, aiming to address the challenges in evaluating image editing models via a fine-grained multimodal large language model (MLLM)-based evaluation framework. The dataset integrates human evaluations, MLLM scores, model outputs and traditional metrics, covering 12 dimensions including image preservation, editing quality, instruction faithfulness and others. Its innovation lies in decomposing subjective evaluations into interpretable semantic factors, and verifying through large-scale human studies that MLLM-based evaluations have a high degree of consistency with human judgments. This resource supports two scenarios: offline (with ground truth) and online (without ground truth), providing a standardized benchmark for the research, comparison and optimization of image editing algorithms.

提供机构：

弗吉尼亚大学; 哥伦比亚大学; 范德比尔特大学; 奥多比研究院; 杜比实验室; 思科研究院; 南加州大学; 威斯康星大学麦迪逊分校; 俄勒冈大学; 德州农工大学

创建时间：

2026-02-13

搜集汇总

数据集介绍

构建方式

在图像编辑评估领域，传统指标常因粒度粗糙且难以解释而无法捕捉人类感知的关键维度。为此，该数据集构建了一套细粒度多模态大语言模型（MLLM）评估框架，通过整合人类标注、MLLM评分、模型输出及传统指标，形成了一个全面覆盖多种编辑任务的高质量基准。具体而言，研究团队从HumanEdit数据集中均匀采样了100个涵盖添加、移除、替换、动作、计数和关系六类编辑任务的图像-指令对，并利用生成模型为每对生成编辑后图像，进而招募25名标注者对每个编辑结果在12个细粒度因子上进行人工评分，最终构建了包含人类判断、MLLM评估和传统指标对比的统一基准数据集。

特点

该数据集的核心特点在于其精细的评估维度划分与高度的人类对齐性。它将图像编辑质量分解为图像保留、编辑质量和指令忠实度三大类别下的12个可解释因子，如未改变区域、全局一致性、尺度真实感等，每个因子均采用7点李克特量表评分，并附有详细的评分准则。通过大规模人工研究验证，数据集中MLLM法官的评分与人类评估在细粒度上表现出紧密的一致性，尤其在图像保留和编辑质量类别中吻合度最高。此外，数据集不仅支持离线（有真值参考）和在线（无真值参考）两种评估场景，还提供了传统指标与MLLM法官的对比分析，揭示了传统像素级指标在语义编辑评估中的局限性。

使用方法

该数据集可作为评估图像编辑模型的基准工具，用于系统比较不同模型在细粒度编辑质量上的表现。研究者可通过加载数据集中的原始图像、编辑指令和编辑后图像，调用提供的MLLM法官框架或传统指标计算各因子的得分，进而分析模型在特定编辑类型（如添加、移除等）上的优势与不足。同时，数据集支持对MLLM法官进行微调或验证，其人类标注数据可作为监督信号用于训练更精准的评估模型。此外，数据集的结构化设计便于进行错误模式分析，帮助识别模型在指令遵循、语义一致性等方面的常见失败案例，为改进图像编辑方法提供实证依据。

背景与挑战

背景概述

随着生成式图像编辑模型的快速发展，基于自然语言指令的图像编辑已成为研究热点，然而传统评估指标如PSNR、SSIM等因局限于像素级相似性，难以捕捉人类感知中至关重要的语义一致性和编辑意图对齐。为应对这一挑战，由弗吉尼亚大学、哥伦比亚大学、Adobe研究院等机构的研究团队于2026年共同提出了Human-Aligned MLLM Judges for Fine-Grained Image Editing Evaluation Benchmark。该数据集旨在构建一个细粒度、可解释的多模态大语言模型评估框架，通过分解图像编辑质量至十二个具体维度，涵盖图像保留、编辑质量和指令忠实性三大范畴，从而为图像编辑模型的可靠评估提供标准化基准。该工作不仅推动了图像编辑评估从粗粒度向细粒度语义理解的转变，也为后续研究提供了高质量的人类标注数据与多维度评估体系。

当前挑战

该数据集致力于解决图像编辑评估中传统指标与人类判断脱节的核心问题，其挑战主要体现在两方面：在领域层面，图像编辑评估需兼顾指令忠实性、语义合理性与视觉保真度，而传统指标往往无法全面衡量这些复杂维度，导致评估结果与人类感知存在显著偏差；在构建过程中，数据集的创建面临细粒度标注体系的设计与验证难题，需将主观的人类评判分解为可量化的因子，并确保多标注者间的一致性。此外，协调多模态大语言模型与人类评估的对齐，以及在缺乏真实参考图像的在线场景下实现可靠评估，均是构建过程中需要克服的关键技术障碍。

常用场景

经典使用场景

在生成式图像编辑领域，该数据集为评估指令引导的图像编辑质量提供了精细化的基准框架。其经典使用场景在于通过多模态大语言模型作为评判者，将编辑质量分解为十二个可解释的语义维度，如未修改区域的保持、全局一致性、尺度真实感等，从而实现对编辑结果的细粒度诊断。该框架支持在线和离线两种评估设置，能够系统比较人类评判、MLLM评判与传统指标之间的差异，为图像编辑模型的性能对比与优化提供了标准化的评估环境。

衍生相关工作

该数据集衍生了一系列围绕细粒度图像编辑评估的经典研究工作。基于其提出的十二因子评判框架，后续研究扩展了MLLM评判在复杂编辑任务中的应用，如场景重组、风格迁移和多轮交互编辑。同时，该基准促进了评估方法论的创新，例如结合强化学习的人类反馈优化、基于评判因子的课程学习策略，以及跨模型泛化能力的研究。这些工作共同推动了图像编辑评估向更可解释、更可靠的方向发展。

数据集最近研究