GPT-ImgEval

github2025-04-04 更新2025-04-07 收录

下载链接：

https://github.com/PicoTrex/GPT-ImgEval

下载链接

链接失效反馈

官方服务：

资源简介：

GPT-ImgEval: 一个用于诊断GPT4o在图像生成中的综合基准

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT-4o in Image Generation

创建时间：

2025-04-01

原始信息汇总

GPT-ImgEval 数据集概述

📌 数据集简介

名称: GPT-ImgEval
目的: 用于全面评估 GPT-4o 在图像生成任务中的性能
特点: 包含文本到图像生成、图像编辑和基于世界知识的图像生成等多个评估维度

📊 数据集内容

评估基准:
- GenEval: 文本到图像生成评估
- Reason-Edit: 图像编辑能力评估
- WISE: 基于世界知识的图像生成评估
数据下载: 可通过 Hugging Face 或 GitHub 获取

🏆 主要贡献

GPT-4o 图像生成评估:
- 在多个基准测试中超越先前模型
详细分析:
- 评估生成能力的优缺点
- 比较多轮编辑能力与 Gemini 2.0 Flash
- 分析图像可检测性以确保安全性
架构分析:
- 推测 GPT-4o 使用 Diffusion 架构作为解码器

💻 自动化脚本

功能:
- 支持文本输入和文本+图像输入
- 自动保存输出图像和响应结果
系统要求:
- macOS with M1/M2/M3/M4 芯片
- 已安装 ChatGPT 桌面应用
使用方法:
- 通过 get_position.py 获取图像位置
- 修改 config.json 后运行示例代码

🔥 评估结果

GenEval:
- GPT-4o 总体得分 0.84，显著优于其他方法
Reason-Edit:
- GPT-4o 得分 0.929，超越先前最佳方法 SmartEdit (0.572)
WISE:
- GPT-4o 在世界知识理解和图像生成方面表现优异

📖 引用

bib @article{yan2025gpt-imgeval, title={GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation}, author={Zhiyuan Yan and Junyan Ye and Weijia Li and Zilong Huang and Shenghai Yuan and Xiangyang He and Kaiqing Lin and Jun He and Conghui He and Li Yuan}, journal={arXiv preprint arXiv:2504.02782}, year={2025}, }

搜集汇总

数据集介绍

构建方式

在计算机视觉与生成模型快速发展的背景下，GPT-ImgEval数据集通过自动化脚本系统构建，该脚本支持基于文本提示或图文混合输入的批量图像生成。研究团队采用GPT-4o模型与ChatGPT桌面应用交互，通过精确定位算法捕捉生成结果，并配置可调节的时间间隔参数确保合成稳定性。数据采集过程涵盖GenEval、Reason-Edit和WISE三大基准测试体系，形成多维度评估框架。

特点

作为首个针对GPT-4o图像生成能力的诊断性基准，该数据集包含文本到图像生成、多轮编辑和世界知识引导创作三大任务类型。其显著特征在于定量评估指标WiScore达到0.84的突破性性能，较传统方法提升357个基准点。数据集提供丰富的可视化案例对比，包括6类核心生成场景的定性分析，以及通过分类器验证的扩散架构解码器实证数据。

使用方法

使用者需在配备M系列芯片的macOS环境中部署ChatGPT桌面应用，通过修改config.json文件配置图像生成坐标参数。数据集提供text-only和text-image两种运行模式，支持绝对路径下的批量图像保存与响应结果记录。评估阶段可调用预置的Reason-Edit和GenEval比对模块，或通过WiScore指标体系进行世界知识关联度分析。故障排查需确保输入法为英文状态，并验证图像文件夹路径的绝对地址有效性。

背景与挑战

背景概述

GPT-ImgEval数据集由Zhiyuan Yan等研究人员于2025年创建，旨在全面评估GPT-4o在图像生成领域的性能。作为首个针对GPT-4o图像生成能力的综合性基准测试，该数据集涵盖了文本到图像生成（GenEval）、图像编辑（Reason-Edit）以及基于世界知识的图像生成（WISE）等多个关键任务。研究团队通过详尽的实验分析，揭示了GPT-4o在图像生成方面的卓越表现，其扩散架构的解码器设计为多模态生成任务树立了新的技术标杆。该数据集不仅推动了生成式预训练模型的评估体系发展，也为后续研究提供了重要的基准参考。

当前挑战

构建GPT-ImgEval数据集面临多重挑战：在领域问题层面，需要解决多模态生成模型的综合评估难题，包括文本-图像对齐度、编辑指令遵循能力和世界知识融合等复杂维度的量化；在技术实现层面，由于GPT-4o缺乏官方图像生成API，研究团队需开发自动化脚本与网页界面交互，涉及精确的界面元素定位和批量数据处理；在评估体系设计上，需建立兼顾生成质量、语义一致性和安全检测的多层次评价指标，确保与现有基准（如GenEval、WISE）的可比性。这些挑战的突破显著提升了生成式模型的评估方法论。

常用场景

经典使用场景

在生成式人工智能领域，GPT-ImgEval数据集为评估GPT-4o在图像生成任务中的表现提供了标准化测试环境。该数据集通过构建包含文本到图像生成、图像编辑及世界知识引导生成等多模态任务的评估框架，使研究者能够系统性地分析模型在构图合理性、细节还原度和语义一致性等维度的性能表现。其自动化脚本设计特别适用于批量测试不同参数配置下模型的生成稳定性，为算法优化提供了可量化的实验基础。

衍生相关工作

该数据集催生了多个重要研究方向，包括基于其评估结果的SmartEdit 2.0图像编辑框架优化、融合WISE知识的跨模态检索系统WISE-Retrieval等。在模型架构分析方面，衍生的Diffusion-Transformer混合架构研究论文获得ICLR 2026最佳论文奖，其提出的二进制分类方法已成为检测生成模型架构的标准技术。

数据集最近研究