Edit-Compass and EditReward-Compass

github2026-05-14 更新2026-05-15 收录

下载链接：

https://github.com/bxhsort/Edit-Compass-and-EditReward-Compass

下载链接

链接失效反馈

官方服务：

资源简介：

Edit-Compass是一个用于评估图像编辑模型的数据集，包含2,388个经过精心标注的实例，涵盖六个逐步挑战性的任务类别，包括世界知识推理、视觉推理、动态操作、多图像编辑等编辑能力，采用细粒度多维评估和结构化推理与评分标准。EditReward-Compass是一个用于评估奖励模型的数据集，包含2,251个偏好对，旨在模拟基于强化学习的图像编辑优化中的实际奖励建模场景。

Edit-Compass is a dataset for evaluating image editing models, consisting of 2,388 carefully annotated instances. It encompasses six progressively challenging task categories covering editing capabilities such as world knowledge reasoning, visual reasoning, dynamic manipulation, multi-image editing and more, and adopts fine-grained multi-dimensional evaluation as well as structured reasoning and scoring criteria. EditReward-Compass is a dataset for evaluating reward models, containing 2,251 preference pairs, which aims to simulate real-world reward modeling scenarios in reinforcement learning-based image editing optimization.

创建时间：

2026-05-12

原始信息汇总

数据集详情概述

数据集简介

Edit-Compass & EditReward-Compass 是一个用于图像编辑和奖励建模的统一基准测试套件，包含两个核心数据集，旨在评估前沿图像编辑模型和奖励模型的性能。

数据集构成

基准测试	目标	样本数量
Edit-Compass	图像编辑模型评估	2,388 个精心标注的实例
EditReward-Compass	奖励模型评估	2,251 个偏好对

Edit-Compass 任务分类

涵盖六个难度递增的任务类别：

Part1: 通用任务（General Tasks），包含添加（ADD）、移除（Remove）等子任务
Part2: 动态操作任务（Dynamic Manipulation Tasks）
Part3: 世界知识推理任务（World Knowledge Reasoning Tasks）
Part4: 算法视觉推理任务（Algorithm Visual Reasoning Tasks）
Part5: 多图像任务（Multi-Image Tasks）
Part6: 复杂任务（Complex Tasks）

评估规模

29 个前沿图像编辑模型 使用 Edit-Compass 进行评估（涵盖专有和开源系统）
21 个奖励模型 使用 EditReward-Compass 进行评估

评估指标

Edit-Compass 采用细粒度多维评估，包含结构化推理和评分标准。EditReward-Compass 的评估维度包括：IA、VC、VQ 等。

主要发现

图像编辑模型在世界知识理解、视觉推理和多图像编辑方面存在持续弱点
原生多模态大语言模型可充当强大的奖励评估器

数据获取

Edit-Compass 数据集: https://huggingface.co/datasets/DogNeverSleep/Edit-Compass
EditReward-Compass 数据集: https://huggingface.co/datasets/DogNeverSleep/EditReward-Compass

相关论文

论文地址: https://arxiv.org/abs/2605.13062

搜集汇总

数据集介绍

构建方式

图像编辑领域的迅猛发展对评估体系提出了更高要求。Edit-Compass与EditReward-Compass数据集由杭州电子科技大学、北京大学、快手可灵团队及中国科学院自动化研究所联合构建，旨在统一图像编辑与奖励模型的评估标准。Edit-Compass精心收集了2,388个手工标注实例，涵盖世界知识推理、视觉推理、动态操控、多图像编辑等六大递进难度任务类别，采用结构化推理与评分量规实现细粒度多维评估。EditReward-Compass则构造了2,251个偏好对，模拟强化学习优化中奖励建模的真实场景，为评估奖励模型的判别能力提供了标准化测试集。

特点

该数据集具备显著的层次化与综合性特征。Edit-Compass通过六大任务类别系统性地覆盖从基础操控到复杂认知的编辑能力，每个实例均附有精细的多维度评分标准，克服了传统基准任务过于简单、评分粒度粗糙的局限。EditReward-Compass专注于奖励建模评估，其偏好对设计紧密贴合实际强化学习优化流程，弥补了现有奖励模型基准与实用场景脱节的不足。两者分别对29个前沿图像编辑模型与21个奖励模型进行了全面评估，揭示了模型在世界知识理解、视觉推理和多图像编辑等领域的持久短板。

使用方法

使用Edit-Compass时，首先需要在gen_image.py中配置模型加载与推理，通过gen_image.sh脚本指定数据路径、模型检查点及GPU参数生成编辑图像，随后运行eval.sh设置评估指标与API配置完成自动评分，最后通过summary.sh汇总各任务部分的中英文评分结果。EditReward-Compass可直接通过eval.py脚本执行，需指定评估JSON路径、输出路径、模型名称及所需评估维度（如IA、VC、VQ），实现对奖励模型的快速评估。所有结果可导出为结构化JSON文件便于分析比较。

背景与挑战

背景概述

图像编辑领域在指令跟随、多模态理解与复杂视觉编辑等方面取得了日新月异的进步，然而现有基准测试在多维评估方面渐显乏力，其任务简单化、评分粗略化以及偏离人类判断的弊端逐渐暴露。为填补这一空白，杭州电子科技大学、北京大学、可灵团队及中国科学院自动化研究所的联合团队于2026年构建了Edit-Compass与EditReward-Compass统一基准。Edit-Compass聚焦于图像编辑模型的精细化评测，基于2388条精心标注的样本，横跨世界知识推理、视觉推理、动态操作、多图像编辑等六大递进式类别；EditReward-Compass则着力于奖励模型的评估，包含2251对偏好样本，真实模拟强化学习驱动的图像编辑优化场景。该基准通过对29个前沿图像编辑模型及21个奖励模型的系统评测，深刻揭示了现有模型在世界知识理解、视觉推理与多图像编辑方面的顽固缺陷，为领域发展树立了新的度量标杆。

当前挑战

该基准所应对的核心挑战在于：现有图像编辑任务往往过于简单，无法充分检验先进模型的复杂理解与执行能力；评分协议粗放，难以捕捉编辑质量在结构、语义与美学等多维度的细微差异；评测结果与人类主观判断之间常存在显著偏差，削弱了基准的实用参考价值。构建过程中亦面临诸多难关：需要设计涵盖世界知识、视觉算法、动态操作等多样化任务来避免评测偏狭，确保任务难度层层递进；需构建精细化的多维评分体系，整合结构化推理与打分准则；还需针对奖励模型模拟真实优化场景，收集高度匹配训练实践的偏好对，同时兼顾中英双语语境与文化差异，保障数据集的文化普适性与评测公正性。

常用场景

经典使用场景

在图像编辑领域，Edit-Compass作为一项全面且层级化的基准测试，被广泛用于评估前沿图像编辑模型的综合能力。该数据集精心构建了2,388个注释实例，横跨六大逐步升级的任务类别，包括通用编辑、动态操控、世界知识推理、视觉推理、多图像编辑及复杂场景编辑。研究者利用该基准，能够对模型在多维度的指令遵循能力、多模态理解水平以及复杂视觉编辑效果上进行细粒度的量化评估，从而精准定位现有模型的性能边界与薄弱环节。

解决学术问题

Edit-Compass与EditReward-Compass共同致力于解决当前图像编辑评价体系中的核心学术难题。一方面，现有基准任务过于简单、评分协议粗糙且结果常与人类判断脱节；另一方面，基于强化学习的图像编辑优化中，奖励模型的评估设定往往偏离实际训练情境。该数据集通过引入结构化推理与精细评分标准，首次实现了对图像编辑模型与奖励模型在真实RL优化场景下的系统对齐评估，为领域内模型性能的可靠比较与可重复研究奠定了坚实基础。

衍生相关工作

该数据集的发布已催生了一系列重要的衍生研究工作。研究人员基于Edit-Compass的多维度评估框架，系统比较了29个前沿图像编辑模型与21个奖励模型的性能，揭示了原生多模态大语言模型在充当奖励评估器时的显著优势。这些发现直接推动了对更强世界知识理解能力的编辑模型架构设计，以及结合结构化奖励信号的强化学习训练范式的探索。此外，数据集的细粒度任务划分也为后续研究提供了参考模板，促进了针对动态操控、多图像编辑等特定能力的专项模型改进与优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集