Edit-Compass and EditReward-Compass

Name: Edit-Compass and EditReward-Compass
Creator: 杭州电子科技大学; 北京大学; Kling团队; 中国科学院自动化研究所
Published: 2026-05-13 14:33:54
License: 暂无描述

arXiv2026-05-13 更新2026-05-15 收录

下载链接：

https://github.com/bxhsort/Edit-Compass-and-EditReward-Compass

下载链接

链接失效反馈

官方服务：

资源简介：

Edit-Compass与EditReward-Compass是由杭州电子科技大学、北京大学、Kling团队及中国科学院自动化研究所联合构建的统一评估套件，旨在系统评估图像编辑模型与奖励模型。Edit-Compass包含2,388个精细标注实例，涵盖六大渐进式挑战性任务类别，如通用编辑、动态操作、世界知识推理、算法视觉推理及多图像理解等，数据来源于人工构建的多样化视觉场景；EditReward-Compass则包含2,251个偏好对，模拟强化学习优化中的实际决策场景。该数据集通过结构化推理与评分准则支持细粒度多维评估，主要应用于前沿图像编辑系统的能力评测与奖励模型优化，致力于解决现有基准在任务难度、评估可靠性及与人类判断对齐方面的不足。

提供机构：

杭州电子科技大学; 北京大学; Kling团队; 中国科学院自动化研究所

创建时间：

2026-05-13

原始信息汇总

Edit-Compass & EditReward-Compass 数据集概述

数据集简介

Edit-Compass 和 EditReward-Compass 是一个统一的图像编辑与奖励模型基准测试集，旨在评估前沿图像编辑模型和奖励模型的性能。

数据集构成

基准测试	评估目标	样本数量
Edit-Compass	图像编辑模型评估	2,388
EditReward-Compass	奖励模型评估	2,251

任务分类

Edit-Compass

包含六大类逐步递进难度的任务：

Part1 - 通用任务：包括添加（ADD）、移除（Remove）等基础编辑操作
Part2 - 动态操作任务
Part3 - 世界知识推理任务
Part4 - 算法视觉推理任务
Part5 - 多图像任务
Part6 - 复杂任务

每项任务均经过精细的人工标注，并采用结构化推理和评分标准进行多维度的细粒度评估。

EditReward-Compass

包含2,251对偏好数据对，模拟基于强化学习的图像编辑优化过程中的真实奖励建模场景。

评估范围

Edit-Compass：已评估29个前沿图像编辑模型（涵盖闭源和开源系统）
EditReward-Compass：已评估21个奖励模型

主要发现

评估结果揭示了当前图像编辑模型在以下方面存在持续性弱点：

世界知识理解
视觉推理
多图像编辑

同时，原生多模态大语言模型可作为强大的奖励评估器。

数据获取

Edit-Compass 数据集: https://huggingface.co/datasets/DogNeverSleep/Edit-Compass
EditReward-Compass 数据集: https://huggingface.co/datasets/DogNeverSleep/EditReward-Compass

论文信息

论文标题：Edit-Compass & EditReward-Compass: A Unified Benchmark for Image Editing and Reward Modeling

arXiv 论文链接: https://arxiv.org/abs/2605.13062

搜集汇总

数据集介绍

构建方式

在图像编辑与奖励模型评估领域，现有基准因任务难度不足与评估粒度粗疏而难以忠实反映人类判断。Edit-Compass与EditReward-Compass作为统一的评测套件应运而生。Edit-Compass通过三条精心设计的构建管线完成数据采集：对于通用与复杂任务，从在线资源收集真实图像并借助Gemini 3 Pro与GPT-5.1生成指令，经人工核验；对于动态操作、世界知识与多图像任务，由图像编辑专家设计场景并由增强提示生成源图像；对于算法视觉推理任务，通过Python程序化生成源图像及真实标注。最终构建了包含2,388个精细标注实例、涵盖36个子任务类别的评测集。

特点

该数据集最显著的特点在于其渐进式难度设计与细粒度多维评估框架。数据集横跨六大任务类别，从通用编辑、动态操作到世界知识推理、算法视觉推理、多图像理解与复杂指令，层层递进，全面覆盖了从浅层感知到深层认知的编辑能力。尤为突出的是，其采用基于链式推理和精心设计的评分规则进行多维度评估，从指令遵循、视觉一致性到视觉质量，实现了对模型能力更可靠、更具解释性的衡量，从而显著提升了对前沿模型的区分度。

使用方法

在应用层面，该数据集为图像编辑模型与奖励模型提供了统一的评估舞台。对于图像编辑模型，研究者可依据其任务分类，通过MLLM裁判依据维度化评分规则对编辑结果逐项打分，综合衡量模型在不同难度与能力维度的表现。对于奖励模型，EditReward-Compass提供了2,251个偏好对，模拟强化学习优化中的实际决策场景，通过相同的评分框架评估奖励模型在指令遵循、视觉一致性与感知质量上的对齐能力。评估结果能清晰揭示开源与闭源系统之间的性能鸿沟，并诊断模型在推理密集型与多图像编辑中的薄弱环节。

背景与挑战

背景概述

图像编辑领域近年来取得了令人瞩目的进展，前沿模型已从简单的指令驱动编辑演化为具备多模态理解、复杂推理及多图像编辑能力的智能系统。然而，现有基准如MagicBrush、ICE-Bench等，由于任务难度不足与评估粒度粗放，导致其评分与人工判断之间存在显著偏差，尤其难以区分强模型间的细微能力差异。为弥合这一鸿沟，由北京大学、中国科学院自动化研究所及Kling团队联合创建的Edit-Compass与EditReward-Compass统一评测套件应运而生。该工作由Xuehai Bai、Yang Shi及Yi-Fan Zhang等人领衔，于2025至2026年间发布。Edit-Compass包含2,388个精心标注的样本，横跨六大类36个子任务，覆盖世界知识推理、视觉推理及多图像编辑等深层能力维度。该基准套件的提出，为系统性评估前沿图像编辑模型及奖励模型提供了与人判断高度对齐的可靠框架。

当前挑战

当前图像编辑领域面临的核心挑战体现在两个层面。首先，在领域问题层面，现有模型在感知层面的浅层编辑任务上表现尚可，但在世界知识推理、算法视觉推理及多图像理解等需要深层认知能力的任务上仍捉襟见肘，例如，开源模型在世界知识推理任务中的得分（1.74）与顶尖闭源模型（3.89）之间存在巨大鸿沟。其次，在基准构建层面，现有评测范式普遍存在任务覆盖不足、评估协议粗糙的缺陷，且奖励模型评测常采用跨模型采样的非现实设定，偏离了强化学习优化中同一模型内候选比较的实际场景。Edit-Compass通过引入结构化推理与精细评分准则的多维度评估框架，并结合流式GRPO启发的采样策略构建EditReward-Compass，力求在任务多样性、评估可靠性与场景真实性之间取得平衡，从而更忠实地反映模型真实能力。

常用场景

经典使用场景

在图像编辑领域，Edit-Compass被广泛用于评估前沿图像编辑模型在多种复杂任务上的综合性能，涵盖一般编辑、动态操作、世界知识推理、算法视觉推理、多图像编辑及复合指令等六大类别。研究者利用该基准对包括闭源与开源在内的29种模型进行系统评测，以判断其在指令遵循、视觉一致性与视觉质量等维度的表现。其经典用法在于通过结构化的推理评分设计，揭示模型在深度推理、跨图像理解及世界知识应用等挑战性任务上的真实能力边界，从而实现更贴近人类判断的评估。

实际应用

在实际应用中，Edit-Compass与EditReward-Compass为图像编辑模型的研发与选型提供了全方位的评测支持。产品团队可利用该基准对模型进行细粒度能力诊断，识别其在世界知识理解、视觉推理及多图像编辑等场景中的薄弱环节，从而指导模型迭代与数据增强。同时，EditReward-Compass可用于奖励模型的离线评估与在线对比，辅助强化学习驱动的图像编辑系统在内容生成、虚拟试穿和交互式设计等商业场景中实现更优的编辑质量与用户体验。

衍生相关工作

围绕Edit-Compass与EditReward-Compass，衍生出了一系列推动图像编辑评估与优化进步的经典工作。其一，研究者基于该基准的评估框架开发了专门化的图像编辑评判模型，以替代依赖API的多模态大语言模型评判方式，提升评估的稳定性与可复现性。其二，该基准中奖励模型评估的设置启发了更符合实际强化学习场景的偏好数据构建策略，促进了如FlowGRPO等在线优化方法的改进。此外，针对基准揭示的世界知识与推理短板，催生了融合外部知识图谱与符号推理引擎的图像编辑模型，显著增强了模型在复杂指令下的编辑能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集