GEditBench-v2

Hugging Face2026-03-29 更新2026-03-30 收录

下载链接：

https://huggingface.co/datasets/GEditBench-v2/GEditBench-v2

下载链接

链接失效反馈

官方服务：

资源简介：

GEditBench v2 是一个全面的通用图像编辑基准数据集，包含 1,200 个真实世界用户查询，涵盖 23 种任务，并专门设有一个开放集类别，用于处理超出预定义任务范围的无约束、分布外编辑指令。数据集包含以下字段：'key'（键）、'instruction'（指令）、'source_image'（源图像）和 'task'（任务）。数据集分为一个训练集，包含 1,200 个样本，总大小为 11,886,569,896 字节，下载大小为 12,050,701,080 字节。该数据集适用于通用图像编辑任务的研究和评估。

创建时间：

2026-03-28

原始信息汇总

GEditBench v2 数据集概述

数据集基本信息

数据集名称：GEditBench v2: A Human-Aligned Benchmark for General Image Editing
发布平台：Hugging Face
数据集地址：https://huggingface.co/datasets/GEditBench-v2/GEditBench-v2

数据集描述

GEditBench v2 是一个全面的人工对齐通用图像编辑基准。它包含 1,200 个真实世界的用户查询，涵盖 23 个任务，并专门设有一个 开放集类别，用于处理预定义任务之外的、无约束的、分布外的编辑指令。

数据集结构

特征（Features）

key：字符串类型。
instruction：字符串类型。
source_image：图像类型。
task：字符串类型。

数据划分（Splits）

训练集（train）
- 样本数量：1200
- 数据集大小：11886569896 字节
- 下载大小：12050701080 字节

相关资源

项目主页：https://zhangqijiang07.github.io/gedit2_web/
GitHub 仓库：https://github.com/ZhangqiJiang07/GEditBench_v2
相关数据集：VCReward Bench (https://huggingface.co/datasets/GEditBench-v2/VCReward-Bench)
相关模型：PVC Judge (https://huggingface.co/GEditBench-v2/PVC-Judge)

搜集汇总

数据集介绍

构建方式

在图像编辑领域，构建一个能够反映真实用户需求且具备广泛覆盖性的评测基准至关重要。GEditBench v2的构建过程严谨而系统，研究团队精心收集了涵盖23种不同编辑任务的1200条真实用户查询，特别引入了一个开放集类别，专门容纳超出预定义任务范围的无约束、分布外编辑指令。这种构建方式确保了数据集不仅覆盖了常见的图像编辑操作，还能够捕捉到用户在实际应用场景中可能提出的多样化、非标准化的编辑需求，为评估图像编辑模型的泛化能力提供了坚实的基础。

特点

作为一项面向通用图像编辑的评测基准，GEditBench v2展现出鲜明的特点。其核心在于与人类需求的对齐，通过囊括大量源自真实世界的用户指令，确保了评测任务与现实应用场景的高度相关性。数据集的结构化设计体现在对23种具体编辑任务的明确划分，同时其前瞻性地设置了开放集类别，用以挑战模型处理未见过的、自由形式指令的能力。这种兼顾广度与深度的设计，使得该基准能够全面检验图像编辑模型在遵循复杂意图、处理多样化任务方面的综合性能。

使用方法

对于研究者和开发者而言，利用GEditBench v2进行模型评估遵循清晰的路径。数据集以标准的格式组织，包含指令、源图像和任务标签等关键字段，便于直接加载与处理。用户可以将待评估的图像编辑模型在数据集提供的1200个样本上进行推理，生成编辑后的图像。随后，通过结合项目提供的专门评估工具，如VCReward-Bench或PVC-Judge，对生成结果进行自动化或人工辅助的评测，从而量化模型在多种编辑任务上的性能，特别是在处理开放集指令时的鲁棒性与创造性。

背景与挑战

背景概述

在人工智能与计算机视觉的交叉领域，图像编辑技术正经历从专业工具向通用智能助理的深刻转型。GEditBench v2作为一项前沿基准测试，由研究人员于近期构建，旨在系统评估模型在多样化真实世界场景下的图像编辑能力。该数据集聚焦于通用图像编辑这一核心研究问题，涵盖了23类具体任务及开放集指令，其设计反映了对模型泛化性与人类意图对齐的高度重视，为推进生成模型与人类价值观的协同进化提供了关键的数据基础。

当前挑战

通用图像编辑领域面临的核心挑战在于如何使模型精准理解并执行开放域、多模态的人类编辑指令，同时保持生成结果的真实性、一致性与审美品质。在数据集构建过程中，挑战体现为大规模高质量配对数据（指令-源图像-目标图像）的采集与标注难度，以及如何有效定义并平衡涵盖广泛编辑操作（如对象替换、风格迁移、内容添加等）的任务分类体系，确保基准既能反映现实复杂性，又具备可重复的评估标准。

常用场景

经典使用场景

在图像编辑领域，GEditBench v2作为一个综合性基准测试集，其经典使用场景在于评估和比较各类通用图像编辑模型的性能。该数据集涵盖了23种任务类别，包括风格转换、对象添加移除、背景替换等多样化编辑指令，为研究者提供了一个标准化的测试平台。通过使用该数据集，研究人员能够系统性地分析模型在处理真实世界用户查询时的表现，尤其是在面对开放集类别中未预定义的编辑任务时，模型的泛化能力和适应性得以充分检验。

衍生相关工作

围绕GEditBench v2，已衍生出多项经典研究工作，例如VCReward-Bench和PVC-Judge等评估框架。这些工作专注于开发更精细的奖励模型和评判标准，以量化图像编辑结果与人类偏好的一致性。它们扩展了原始数据集的用途，不仅用于模型性能测试，还促进了编辑质量自动评估方法的发展，为图像生成与编辑领域的评估体系构建了坚实基础，并激发了后续在跨模态对齐和可解释性评估方面的深入探索。

数据集最近研究