GEditBench v2
收藏github2026-04-01 更新2026-04-01 收录
下载链接:
https://github.com/ZhangqiJiang07/GEditBench_v2
下载链接
链接失效反馈官方服务:
资源简介:
GEditBench v2是一个全面的基准测试,包含1,200个真实用户查询,涵盖23个任务,并包括一个专门的开放集类别,用于超出预定义任务的无约束、分布外编辑指令。此外,还提出了PVC-Judge,一个开源的视觉一致性成对评估模型,并通过两个新颖的区域解耦偏好数据合成管道进行训练。此外,还构建了VCReward-Bench,包含3,506个专家标注的偏好对,用于评估视觉一致性维度的图像编辑评估模型。
GEditBench v2 is a comprehensive benchmark that encompasses 1,200 real-world user queries covering 23 tasks, alongside a dedicated open-set category designed for unconstrained, out-of-distribution editing instructions that fall outside predefined task scopes. Furthermore, PVC-Judge, an open-source pairwise evaluation model tailored for visual consistency, is proposed and trained using two novel regional decoupled preference data synthesis pipelines. Additionally, VCReward-Bench is constructed, a resource that includes 3,506 expert-annotated preference pairs for evaluating image editing assessment models on the visual consistency dimension.
创建时间:
2026-03-27
原始信息汇总
GEditBench v2 数据集概述
数据集基本信息
- 数据集名称:GEditBench v2
- 核心定位:一个人类对齐的通用图像编辑基准
- 论文链接:https://arxiv.org/abs/2603.28547
- 项目主页:https://zhangqijiang07.github.io/gedit2_web/
- HuggingFace 数据集地址:https://huggingface.co/datasets/GEditBench-v2/GEditBench-v2
- HuggingFace 评估基准地址:https://huggingface.co/datasets/GEditBench-v2/VCReward-Bench
- HuggingFace 评估模型地址:https://huggingface.co/GEditBench-v2/PVC-Judge
数据集规模与构成
- 查询数量:1,200 个真实世界用户查询
- 任务类别:涵盖 23 种任务
- 特色类别:包含一个专用的开放集类别,用于处理预定义任务之外的、无约束的、分布外的编辑指令
核心贡献与组件
- GEditBench v2 基准:包含上述规模与构成的图像编辑指令基准。
- PVC-Judge 评估模型:一个用于视觉一致性评估的开源成对评估模型。该模型通过两种新颖的区域解耦偏好数据合成流程进行训练。
- VCReward-Bench 评估基准:一个用于在视觉一致性维度上评估图像编辑评估模型的基准,包含 3,506 个专家标注的偏好对。
仓库内容与工作流
该仓库提供了一个端到端的工作流,支持以下循环:
- 从多样化的源图像-指令对中进行采样或过滤。
- 使用图像编辑模型生成多个编辑后的候选图像。
- 使用特定于任务的流程自动标注视觉一致性。
- 将分组结果转换为成对偏好数据。
- 在这些偏好对上训练一个视觉语言模型评估器。
- 在 GEditBench v2 或奖励基准上评估训练出的评估器。
主要命令行工具
autogenCLI:用于数据过滤和候选图像生成。autopipelineCLI:用于标注、评估和成对数据构建。autotrainCLI:用于视觉语言模型的 LoRA 微调训练启动。
数据来源
开放集类别中的大部分编辑指令来源于以下开源项目:
搜集汇总
数据集介绍

构建方式
在通用图像编辑领域,GEditBench v2的构建过程体现了严谨的数据工程方法论。该数据集从多个开源资源中系统性地整合原始图像-指令对,包括UnicEdit-10M和Nano-Consistency-150k等大规模集合。通过自动化过滤流程,利用先进的视觉语言嵌入模型对原始数据进行清洗与筛选,确保样本的多样性与质量。随后,借助多种图像编辑模型生成多样化的编辑候选结果,覆盖23种具体任务及开放集类别。最终,通过对象中心与人类中心两种区域解耦的偏好数据合成管道,自动标注视觉一致性,并转化为专家级偏好对,形成结构化的评估基准。
使用方法
该数据集的使用遵循系统化评估框架,为图像编辑模型提供标准化测试环境。研究人员首先通过autogen命令行工具从候选池中筛选图像-指令对,并调用多种编辑模型生成候选图像。随后利用autopipeline工具执行自动化标注,通过对象中心或人类中心管道评估视觉一致性,并将分组结果转化为偏好对数据。训练阶段可通过autotrain配置LoRA微调视觉语言模型,构建定制化评估器。最终评估环节支持在GEditBench v2或VCReward-Bench上进行模型对比,通过自动化流水线计算Elo分数,实现多模型在视觉一致性维度的量化排名。整个流程提供完整配置模板与脚本支持,确保评估过程的可复现性与扩展性。
背景与挑战
背景概述
在通用图像编辑领域,随着生成式人工智能技术的飞速发展,评估模型编辑能力与人类意图对齐的需求日益凸显。GEditBench v2 基准由相关研究团队于2024年构建,旨在通过涵盖23类任务的1200条真实用户查询,系统性地评估图像编辑模型在开放场景下的综合性能。该数据集特别引入了开放集类别,以应对超出预定义任务的、无约束的编辑指令,从而推动模型泛化能力的深入研究。其配套的开源评估模型PVC-Judge与专家标注的偏好数据集VCReward-Bench,共同为视觉一致性评估提供了可复现的标准化框架,显著降低了以往对私有API的依赖,对促进图像编辑技术的透明化与公平比较具有重要影响力。
当前挑战
通用图像编辑基准的构建面临双重挑战。在领域问题层面,核心挑战在于如何精准量化模型输出与人类视觉感知的一致性,即视觉一致性评估。这要求基准不仅能覆盖多样化的编辑任务,如主体添加、背景替换等,还需有效处理开放集指令,避免评估偏差并捕捉模型在未知分布上的真实性能。在构建过程中,挑战体现在大规模、高质量偏好数据的获取与标注上。研究团队需设计新颖的区域解耦偏好数据合成流程,如对象中心与人类中心管道,以自动化生成可靠的训练对,同时确保数据多样性、减少标注成本,并维持评估的客观性与可扩展性。
常用场景
经典使用场景
在通用图像编辑领域,GEditBench v2作为一个综合性基准测试集,其经典使用场景在于评估和比较各类图像编辑模型的性能。该数据集通过涵盖23种任务类型的1200条真实用户查询,包括开放集类别,为研究者提供了一个标准化测试平台。研究人员通常利用该数据集生成编辑后的图像候选,并借助其内置的PVC-Judge评估模型进行视觉一致性评分,从而系统性地衡量不同模型在多样化编辑指令下的表现。
解决学术问题
GEditBench v2主要解决了通用图像编辑研究中缺乏标准化、大规模且人类对齐的评估基准这一核心学术问题。传统评估往往依赖有限的任务类型或主观的人工评判,难以全面反映模型在真实场景下的编辑能力。该数据集通过构建覆盖广泛任务和开放集指令的基准,并引入开源的双重评估模型PVC-Judge,为视觉一致性评估提供了可复现、可扩展的解决方案,显著提升了该领域研究的严谨性和可比性。
实际应用
在实际应用层面,GEditBench v2为图像编辑工具和服务的开发提供了关键的质量评估框架。例如,在内容创作、广告设计或社交媒体图像处理等场景中,开发者可以利用该基准测试不同编辑算法在复杂指令下的输出质量,确保其产品能够满足用户对视觉一致性和编辑准确性的要求。同时,其提供的端到端工作流程和评估工具,能够直接集成到产品开发周期中,用于持续监控和优化模型性能。
数据集最近研究
最新研究方向
在通用图像编辑领域,GEditBench v2作为一项人类对齐的基准测试,正推动着评估范式的革新。该数据集通过涵盖23类任务的1200条真实用户查询,并引入开放式类别以应对非预设的编辑指令,有效模拟了现实场景的复杂性。前沿研究聚焦于减少对专有API评估的依赖,通过提出的PVC-Judge开源视觉一致性评估模型,以及基于区域解耦偏好数据合成流程构建的VCReward-Bench,为视觉一致性维度提供了可复现的评估框架。这些进展不仅促进了开源评估工具的发展,也为图像生成模型的公平比较与优化奠定了重要基础,在推动生成式人工智能的透明化与标准化进程中具有深远意义。
以上内容由遇见数据集搜集并总结生成



