gpt-image-edit-benchmark-results

Name: gpt-image-edit-benchmark-results
Creator: UCSC-VLAA
Published: 2025-07-31 09:25:22
License: 暂无描述

Hugging Face2025-07-31 更新2025-08-01 收录

下载链接：

https://huggingface.co/datasets/UCSC-VLAA/gpt-image-edit-benchmark-results

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-Image-Edit-1.5M是一个百万规模、由GPT生成的图像数据集，用于图像编辑任务。该数据集包含了四个标准图像编辑基准的评估结果，分别为GEdit-EN、Complex-Edit、ImgEdit-Full和OmniContext，涵盖了多种编辑操作和评价指标。

提供机构：

UCSC-VLAA

创建时间：

2025-07-31

原始信息汇总

GPT-Image-Edit — Benchmark Results 数据集概述

数据集基本信息

pipeline_tag: image-to-image
library_name: transformers
license: apache-2.0

基准测试内容

数据集包含以下四个标准图像编辑基准测试的评估结果，所有分数均使用各基准提供的官方评估脚本计算：

基准测试名称	评估指标	数据文件夹
GEdit-EN	12种编辑类别 + 平均值	`gedit/`
Complex-Edit	IF, IP, PQ, Overall	`complex_edit/`
ImgEdit-Full	10种编辑操作 + 总体评分	`imgedit/`
OmniContext	上下文编辑评分	`omnicontext_single/`

引用信息

如需使用这些基准测试结果，请引用以下论文：

bibtex @misc{wang2025gptimageedit15mmillionscalegptgeneratedimage, title={GPT-IMAGE-EDIT-1.5M: A Million-Scale, GPT-Generated Image Dataset}, author={Yuhan Wang and Siwei Yang and Bingchen Zhao and Letian Zhang and Qing Liu and Yuyin Zhou and Cihang Xie}, year={2025}, eprint={2507.21033}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2507.21033}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，GPT-Image-Edit基准测试结果的构建采用了严谨的评估流程。该数据集通过整合四个权威图像编辑基准测试（GEdit-EN、Complex-Edit、ImgEdit-Full和OmniContext）的官方评估脚本，系统性地收集了GPT-Image-Edit模型的性能数据。每个基准测试都针对特定编辑任务设计了专业指标，如GEdit-EN涵盖12种编辑类别，Complex-Edit则关注图像保真度(IF)、图像感知(IP)和感知质量(PQ)等维度。数据采集过程严格遵循各基准测试的标准化协议，确保评估结果的可靠性和可比性。

特点

作为多维度评估图像编辑模型的基准数据集，其显著特点体现在覆盖范围的全面性和评估指标的精细化。数据集囊括了从基础编辑操作到复杂上下文感知编辑的多样化任务，其中GEdit-EN提供细粒度分类评估，Complex-Edit侧重综合质量分析，而OmniContext则专注于上下文一致性检测。各子集均保留原始基准的评分体系，既支持单项能力分析，又能通过加权平均进行整体性能评估。这种模块化设计使研究者能够针对性地考察模型在不同场景下的表现。

使用方法

该数据集主要服务于图像生成与编辑算法的性能验证工作。研究者可通过HuggingFace平台获取结构化评估结果，按照子目录分类查阅各基准测试的详细得分。使用时应先确定目标评估维度，如选择GEdit-EN分析特定编辑类别的表现，或参考Complex-Edit获取综合质量评分。所有数据均采用标准化格式存储，支持直接与现有研究成果进行横向对比。引用时需遵循学术规范，注明原始论文及基准测试来源，以确保研究可复现性。

背景与挑战

背景概述

GPT-Image-Edit-Benchmark-Results数据集由Yuhan Wang等研究人员于2025年提出，旨在评估GPT生成图像编辑模型在多种标准图像编辑任务中的性能表现。该数据集依托于GPT-Image-Edit-1.5M大规模图像数据集，涵盖了包括GEdit-EN、Complex-Edit、ImgEdit-Full和OmniContext在内的四个主流图像编辑评测基准。通过提供统一的评估框架，该数据集为生成式图像编辑领域的研究提供了重要的基准参考，推动了基于GPT的图像生成与编辑技术的发展。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，生成式图像编辑任务需兼顾语义一致性、视觉质量和编辑准确性，这对模型的上下文理解与细节生成能力提出了极高要求；在构建过程中，如何设计涵盖多样化编辑类别且具有判别力的评估指标，以及确保大规模生成数据的质量与多样性，是研究人员需要解决的关键技术难题。

常用场景

经典使用场景

在计算机视觉领域，图像编辑技术的评估一直是研究热点。GPT-Image-Edit基准测试结果数据集被广泛应用于评估生成式图像编辑模型的性能，特别是在多类别编辑任务中。研究者通过该数据集可以系统性地比较不同模型在12种编辑类别上的表现，为模型优化提供量化依据。

实际应用

在实际应用中，该数据集支撑了各类商业图像编辑系统的开发与优化。基于其提供的评估指标，企业能够精准定位产品在复杂场景编辑、上下文感知等方面的技术短板。特别是在广告设计、影视后期等专业领域，这些量化结果直接指导了实际工作流程的改进。

衍生相关工作

围绕该数据集已衍生出多项重要研究，包括基于注意力机制的编辑质量提升方法、多模态融合的编辑指令理解框架等。其中Wang等人提出的百万规模GPT生成图像数据集，已成为该领域引用率最高的基准工作之一，为后续研究奠定了数据基础。

以上内容由遇见数据集搜集并总结生成