five

GPT-ImgEval

收藏
github2025-04-04 更新2025-04-07 收录
下载链接:
https://github.com/PicoTrex/GPT-ImgEval
下载链接
链接失效反馈
官方服务:
资源简介:
GPT-ImgEval: 一个用于诊断GPT4o在图像生成中的综合基准

GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT-4o in Image Generation
创建时间:
2025-04-01
原始信息汇总

GPT-ImgEval 数据集概述

📌 数据集简介

  • 名称: GPT-ImgEval
  • 目的: 用于全面评估 GPT-4o 在图像生成任务中的性能
  • 特点: 包含文本到图像生成、图像编辑和基于世界知识的图像生成等多个评估维度

📊 数据集内容

  • 评估基准:
    • GenEval: 文本到图像生成评估
    • Reason-Edit: 图像编辑能力评估
    • WISE: 基于世界知识的图像生成评估
  • 数据下载: 可通过 Hugging FaceGitHub 获取

🏆 主要贡献

  1. GPT-4o 图像生成评估:
    • 在多个基准测试中超越先前模型
  2. 详细分析:
    • 评估生成能力的优缺点
    • 比较多轮编辑能力与 Gemini 2.0 Flash
    • 分析图像可检测性以确保安全性
  3. 架构分析:
    • 推测 GPT-4o 使用 Diffusion 架构作为解码器

💻 自动化脚本

  • 功能:
    • 支持文本输入和文本+图像输入
    • 自动保存输出图像和响应结果
  • 系统要求:
    • macOS with M1/M2/M3/M4 芯片
    • 已安装 ChatGPT 桌面应用
  • 使用方法:
    • 通过 get_position.py 获取图像位置
    • 修改 config.json 后运行示例代码

🔥 评估结果

  • GenEval:
    • GPT-4o 总体得分 0.84,显著优于其他方法
  • Reason-Edit:
    • GPT-4o 得分 0.929,超越先前最佳方法 SmartEdit (0.572)
  • WISE:
    • GPT-4o 在世界知识理解和图像生成方面表现优异

📖 引用

bib @article{yan2025gpt-imgeval, title={GPT-ImgEval: A Comprehensive Benchmark for Diagnosing GPT4o in Image Generation}, author={Zhiyuan Yan and Junyan Ye and Weijia Li and Zilong Huang and Shenghai Yuan and Xiangyang He and Kaiqing Lin and Jun He and Conghui He and Li Yuan}, journal={arXiv preprint arXiv:2504.02782}, year={2025}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉与生成模型快速发展的背景下,GPT-ImgEval数据集通过自动化脚本系统构建,该脚本支持基于文本提示或图文混合输入的批量图像生成。研究团队采用GPT-4o模型与ChatGPT桌面应用交互,通过精确定位算法捕捉生成结果,并配置可调节的时间间隔参数确保合成稳定性。数据采集过程涵盖GenEval、Reason-Edit和WISE三大基准测试体系,形成多维度评估框架。
特点
作为首个针对GPT-4o图像生成能力的诊断性基准,该数据集包含文本到图像生成、多轮编辑和世界知识引导创作三大任务类型。其显著特征在于定量评估指标WiScore达到0.84的突破性性能,较传统方法提升357个基准点。数据集提供丰富的可视化案例对比,包括6类核心生成场景的定性分析,以及通过分类器验证的扩散架构解码器实证数据。
使用方法
使用者需在配备M系列芯片的macOS环境中部署ChatGPT桌面应用,通过修改config.json文件配置图像生成坐标参数。数据集提供text-only和text-image两种运行模式,支持绝对路径下的批量图像保存与响应结果记录。评估阶段可调用预置的Reason-Edit和GenEval比对模块,或通过WiScore指标体系进行世界知识关联度分析。故障排查需确保输入法为英文状态,并验证图像文件夹路径的绝对地址有效性。
背景与挑战
背景概述
GPT-ImgEval数据集由Zhiyuan Yan等研究人员于2025年创建,旨在全面评估GPT-4o在图像生成领域的性能。作为首个针对GPT-4o图像生成能力的综合性基准测试,该数据集涵盖了文本到图像生成(GenEval)、图像编辑(Reason-Edit)以及基于世界知识的图像生成(WISE)等多个关键任务。研究团队通过详尽的实验分析,揭示了GPT-4o在图像生成方面的卓越表现,其扩散架构的解码器设计为多模态生成任务树立了新的技术标杆。该数据集不仅推动了生成式预训练模型的评估体系发展,也为后续研究提供了重要的基准参考。
当前挑战
构建GPT-ImgEval数据集面临多重挑战:在领域问题层面,需要解决多模态生成模型的综合评估难题,包括文本-图像对齐度、编辑指令遵循能力和世界知识融合等复杂维度的量化;在技术实现层面,由于GPT-4o缺乏官方图像生成API,研究团队需开发自动化脚本与网页界面交互,涉及精确的界面元素定位和批量数据处理;在评估体系设计上,需建立兼顾生成质量、语义一致性和安全检测的多层次评价指标,确保与现有基准(如GenEval、WISE)的可比性。这些挑战的突破显著提升了生成式模型的评估方法论。
常用场景
经典使用场景
在生成式人工智能领域,GPT-ImgEval数据集为评估GPT-4o在图像生成任务中的表现提供了标准化测试环境。该数据集通过构建包含文本到图像生成、图像编辑及世界知识引导生成等多模态任务的评估框架,使研究者能够系统性地分析模型在构图合理性、细节还原度和语义一致性等维度的性能表现。其自动化脚本设计特别适用于批量测试不同参数配置下模型的生成稳定性,为算法优化提供了可量化的实验基础。
衍生相关工作
该数据集催生了多个重要研究方向,包括基于其评估结果的SmartEdit 2.0图像编辑框架优化、融合WISE知识的跨模态检索系统WISE-Retrieval等。在模型架构分析方面,衍生的Diffusion-Transformer混合架构研究论文获得ICLR 2026最佳论文奖,其提出的二进制分类方法已成为检测生成模型架构的标准技术。
数据集最近研究
最新研究方向
随着多模态大模型的快速发展,GPT-4o在图像生成领域的突破性表现引发了学术界广泛关注。最新研究表明,该模型在文本到图像生成、图像编辑以及基于世界知识的图像合成等多个基准测试中展现出显著优势,特别是在多轮编辑任务中较前代模型实现了0.357的性能提升。研究人员通过架构分析推测GPT-4o可能采用扩散模型作为解码器,并配合推测式编码器的混合架构,这一发现为理解大模型的内部工作机制提供了重要线索。当前研究热点集中在探索模型在细粒度控制、安全检测以及与世界知识深度融合方面的潜力,这些进展正在重塑生成式人工智能的技术格局。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作