GEditBench v2

github2026-04-01 更新2026-04-01 收录

下载链接：

https://github.com/ZhangqiJiang07/GEditBench_v2

下载链接

链接失效反馈

官方服务：

资源简介：

GEditBench v2是一个全面的基准测试，包含1,200个真实用户查询，涵盖23个任务，并包括一个专门的开放集类别，用于超出预定义任务的无约束、分布外编辑指令。此外，还提出了PVC-Judge，一个开源的视觉一致性成对评估模型，并通过两个新颖的区域解耦偏好数据合成管道进行训练。此外，还构建了VCReward-Bench，包含3,506个专家标注的偏好对，用于评估视觉一致性维度的图像编辑评估模型。

GEditBench v2 is a comprehensive benchmark that encompasses 1,200 real-world user queries covering 23 tasks, alongside a dedicated open-set category designed for unconstrained, out-of-distribution editing instructions that fall outside predefined task scopes. Furthermore, PVC-Judge, an open-source pairwise evaluation model tailored for visual consistency, is proposed and trained using two novel regional decoupled preference data synthesis pipelines. Additionally, VCReward-Bench is constructed, a resource that includes 3,506 expert-annotated preference pairs for evaluating image editing assessment models on the visual consistency dimension.

创建时间：

2026-03-27

原始信息汇总

GEditBench v2 数据集概述

数据集基本信息

数据集名称：GEditBench v2
核心定位：一个人类对齐的通用图像编辑基准
论文链接：https://arxiv.org/abs/2603.28547
项目主页：https://zhangqijiang07.github.io/gedit2_web/
HuggingFace 数据集地址：https://huggingface.co/datasets/GEditBench-v2/GEditBench-v2
HuggingFace 评估基准地址：https://huggingface.co/datasets/GEditBench-v2/VCReward-Bench
HuggingFace 评估模型地址：https://huggingface.co/GEditBench-v2/PVC-Judge

数据集规模与构成

查询数量：1,200 个真实世界用户查询
任务类别：涵盖 23 种任务
特色类别：包含一个专用的开放集类别，用于处理预定义任务之外的、无约束的、分布外的编辑指令

核心贡献与组件

GEditBench v2 基准：包含上述规模与构成的图像编辑指令基准。
PVC-Judge 评估模型：一个用于视觉一致性评估的开源成对评估模型。该模型通过两种新颖的区域解耦偏好数据合成流程进行训练。
VCReward-Bench 评估基准：一个用于在视觉一致性维度上评估图像编辑评估模型的基准，包含 3,506 个专家标注的偏好对。

仓库内容与工作流

该仓库提供了一个端到端的工作流，支持以下循环：

从多样化的源图像-指令对中进行采样或过滤。
使用图像编辑模型生成多个编辑后的候选图像。
使用特定于任务的流程自动标注视觉一致性。
将分组结果转换为成对偏好数据。
在这些偏好对上训练一个视觉语言模型评估器。
在 GEditBench v2 或奖励基准上评估训练出的评估器。

主要命令行工具

autogen CLI：用于数据过滤和候选图像生成。
autopipeline CLI：用于标注、评估和成对数据构建。
autotrain CLI：用于视觉语言模型的 LoRA 微调训练启动。

数据来源

开放集类别中的大部分编辑指令来源于以下开源项目：

搜集汇总

数据集介绍

构建方式

在通用图像编辑领域，GEditBench v2的构建过程体现了严谨的数据工程方法论。该数据集从多个开源资源中系统性地整合原始图像-指令对，包括UnicEdit-10M和Nano-Consistency-150k等大规模集合。通过自动化过滤流程，利用先进的视觉语言嵌入模型对原始数据进行清洗与筛选，确保样本的多样性与质量。随后，借助多种图像编辑模型生成多样化的编辑候选结果，覆盖23种具体任务及开放集类别。最终，通过对象中心与人类中心两种区域解耦的偏好数据合成管道，自动标注视觉一致性，并转化为专家级偏好对，形成结构化的评估基准。

使用方法

该数据集的使用遵循系统化评估框架，为图像编辑模型提供标准化测试环境。研究人员首先通过autogen命令行工具从候选池中筛选图像-指令对，并调用多种编辑模型生成候选图像。随后利用autopipeline工具执行自动化标注，通过对象中心或人类中心管道评估视觉一致性，并将分组结果转化为偏好对数据。训练阶段可通过autotrain配置LoRA微调视觉语言模型，构建定制化评估器。最终评估环节支持在GEditBench v2或VCReward-Bench上进行模型对比，通过自动化流水线计算Elo分数，实现多模型在视觉一致性维度的量化排名。整个流程提供完整配置模板与脚本支持，确保评估过程的可复现性与扩展性。

背景与挑战

背景概述

在通用图像编辑领域，随着生成式人工智能技术的飞速发展，评估模型编辑能力与人类意图对齐的需求日益凸显。GEditBench v2 基准由相关研究团队于2024年构建，旨在通过涵盖23类任务的1200条真实用户查询，系统性地评估图像编辑模型在开放场景下的综合性能。该数据集特别引入了开放集类别，以应对超出预定义任务的、无约束的编辑指令，从而推动模型泛化能力的深入研究。其配套的开源评估模型PVC-Judge与专家标注的偏好数据集VCReward-Bench，共同为视觉一致性评估提供了可复现的标准化框架，显著降低了以往对私有API的依赖，对促进图像编辑技术的透明化与公平比较具有重要影响力。

当前挑战

通用图像编辑基准的构建面临双重挑战。在领域问题层面，核心挑战在于如何精准量化模型输出与人类视觉感知的一致性，即视觉一致性评估。这要求基准不仅能覆盖多样化的编辑任务，如主体添加、背景替换等，还需有效处理开放集指令，避免评估偏差并捕捉模型在未知分布上的真实性能。在构建过程中，挑战体现在大规模、高质量偏好数据的获取与标注上。研究团队需设计新颖的区域解耦偏好数据合成流程，如对象中心与人类中心管道，以自动化生成可靠的训练对，同时确保数据多样性、减少标注成本，并维持评估的客观性与可扩展性。

常用场景

经典使用场景

在通用图像编辑领域，GEditBench v2作为一个综合性基准测试集，其经典使用场景在于评估和比较各类图像编辑模型的性能。该数据集通过涵盖23种任务类型的1200条真实用户查询，包括开放集类别，为研究者提供了一个标准化测试平台。研究人员通常利用该数据集生成编辑后的图像候选，并借助其内置的PVC-Judge评估模型进行视觉一致性评分，从而系统性地衡量不同模型在多样化编辑指令下的表现。

解决学术问题

GEditBench v2主要解决了通用图像编辑研究中缺乏标准化、大规模且人类对齐的评估基准这一核心学术问题。传统评估往往依赖有限的任务类型或主观的人工评判，难以全面反映模型在真实场景下的编辑能力。该数据集通过构建覆盖广泛任务和开放集指令的基准，并引入开源的双重评估模型PVC-Judge，为视觉一致性评估提供了可复现、可扩展的解决方案，显著提升了该领域研究的严谨性和可比性。

实际应用

在实际应用层面，GEditBench v2为图像编辑工具和服务的开发提供了关键的质量评估框架。例如，在内容创作、广告设计或社交媒体图像处理等场景中，开发者可以利用该基准测试不同编辑算法在复杂指令下的输出质量，确保其产品能够满足用户对视觉一致性和编辑准确性的要求。同时，其提供的端到端工作流程和评估工具，能够直接集成到产品开发周期中，用于持续监控和优化模型性能。

数据集最近研究