GPT-ImgEval

Name: GPT-ImgEval
Creator: 北京大学深圳研究生院, 中山大学, Rabbitpre AI, 上海人工智能实验室, 深圳大学, 香港科技大学（广州）
Published: 2025-04-04 01:23:16
License: 暂无描述

arXiv2025-04-04 更新2025-04-07 收录

下载链接：

https://github.com/PicoTrex/GPT-ImgEval

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-ImgEval是一个全面评估GPT-4o在图像生成方面的能力的基准，包含文本到图像生成、基于指令的图像编辑以及世界知识指导的语义合成三个核心任务。该数据集由北京大学深圳研究生院、中山大学等机构创建，旨在诊断GPT-4o在图像生成方面的性能，涵盖生成质量、编辑熟练度和世界知识信息化的语义合成等方面。数据集通过自动化脚本与GPT-4o的web接口交互，以实现大规模的可重复评估。

提供机构：

北京大学深圳研究生院, 中山大学, Rabbitpre AI, 上海人工智能实验室, 深圳大学, 香港科技大学（广州）

创建时间：

2025-04-04

搜集汇总

数据集介绍

构建方式

GPT-ImgEval数据集的构建采用了多维度评估框架，通过整合GenEval、Reason-Edit和WISE三个核心子集，系统性地覆盖了文本到图像生成、指令编辑和世界知识引导合成三大任务。研究团队开发了自动化脚本与GPT-4o网页接口交互，实现了大规模可重复的评估流程，每个提示对应独立生成窗口以消除上下文干扰。数据采集过程严格遵循基准测试规范，其中GenEval侧重物体组合属性评估，Reason-Edit设计七类编辑挑战，WISE则聚焦知识驱动的语义合成任务。

特点

该数据集的核心特征体现在其三重评估维度设计：生成质量维度通过细粒度对象共现、空间排列等指标量化构图能力；编辑维度包含空间理解、尺寸调整等七类复杂指令；知识维度则评估文化背景、时空推理等高级语义理解。数据集包含10,000余组生成样本，附带人工标注的质量评分和错误分析，其独特价值在于首次揭示了GPT-4o在扩散解码头架构、超分辨率偏好等方面的生成特性，并系统记录了比例失调、自动裁剪等12类典型生成缺陷。

使用方法

使用该数据集需遵循三阶段流程：首先通过开源自动化脚本复现生成实验，配置预设提示模板与评估参数；继而调用集成评估模块计算GPT Score、WiScore等指标，其中编辑任务需额外计算非编辑区域一致性；最终利用提供的错误分类体系进行定性分析。研究者可重点对比Table 1中的基线模型表现，或基于图10的缺陷模式开展针对性改进。数据集支持跨任务联合分析，如探究知识理解与生成质量的关联性，但需注意不同子集的评估指标不可直接比较。

背景与挑战

背景概述

GPT-ImgEval是由北京大学、中山大学、上海人工智能实验室等机构的研究团队于2025年提出的首个针对GPT-4o图像生成能力的综合性评估基准。该数据集旨在系统评估GPT-4o在文本到图像生成、指令引导编辑和世界知识引导合成三个关键维度的性能表现。研究团队通过整合GenEval、Reason-Edit和WISE三个专业子数据集，构建了一个多维度的评估框架。该工作不仅揭示了GPT-4o在图像生成控制和质量方面的卓越表现，还通过实证分析推测了其潜在的混合架构（自回归主干与扩散解码头的结合），为多模态大模型的研究提供了重要参考。

当前挑战

GPT-ImgEval面临的挑战主要体现在两个方面：领域问题方面，需要解决多模态模型在复杂场景生成中的空间推理一致性、细粒度属性绑定以及世界知识视觉化等难题；构建过程方面，由于GPT-4o缺乏官方API，研究团队需开发定制化自动化脚本与网页界面交互，同时要克服评估过程中窗口上下文干扰、生成图像分辨率自适应等工程挑战。此外，基准设计还需平衡自动指标与人工评估，确保能准确捕捉模型在保持编辑一致性、比例控制和多轮交互等方面的微妙缺陷。

常用场景

经典使用场景

GPT-ImgEval作为首个针对GPT-4o图像生成能力的多维度评估基准，其经典应用场景聚焦于系统性诊断多模态大模型在文本到图像生成、指令编辑及知识引导合成三大核心任务中的表现。通过整合GenEval、Reason-Edit和WISE三个子数据集，该基准支持对模型构图合理性、细粒度属性控制、空间推理能力以及世界知识融合度的量化评估，为研究社区提供了标准化的性能对比框架。

实际应用

在实际应用层面，GPT-ImgEval的评估框架已被广泛应用于AI内容生成工具的研发优化。数字艺术创作平台通过该基准的编辑一致性指标改进局部修改算法，教育领域利用其知识合成评估模块开发可视化教学工具。特别在安全领域，该数据集揭示的生成伪影特征为AIGC检测模型提供了关键训练数据，助力提升深度伪造内容的识别准确率。

衍生相关工作

基于GPT-ImgEval的评估范式，后续研究衍生出多个重要方向：JanusFlow等工作借鉴其混合架构验证方法探索多模态模型设计；Effort检测模型利用该基准发现的超分辨率伪影特征提升检测性能；WISE数据集进一步扩展为跨文化知识可视化评估工具。这些工作共同推动了生成模型可解释性和安全性的研究进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集