five

GPT-ImgEval

收藏
arXiv2025-04-04 更新2025-04-07 收录
下载链接:
https://github.com/PicoTrex/GPT-ImgEval
下载链接
链接失效反馈
官方服务:
资源简介:
GPT-ImgEval是一个全面评估GPT-4o在图像生成方面的能力的基准,包含文本到图像生成、基于指令的图像编辑以及世界知识指导的语义合成三个核心任务。该数据集由北京大学深圳研究生院、中山大学等机构创建,旨在诊断GPT-4o在图像生成方面的性能,涵盖生成质量、编辑熟练度和世界知识信息化的语义合成等方面。数据集通过自动化脚本与GPT-4o的web接口交互,以实现大规模的可重复评估。
提供机构:
北京大学深圳研究生院, 中山大学, Rabbitpre AI, 上海人工智能实验室, 深圳大学, 香港科技大学(广州)
创建时间:
2025-04-04
搜集汇总
数据集介绍
main_image_url
构建方式
GPT-ImgEval数据集的构建采用了多维度评估框架,通过整合GenEval、Reason-Edit和WISE三个核心子集,系统性地覆盖了文本到图像生成、指令编辑和世界知识引导合成三大任务。研究团队开发了自动化脚本与GPT-4o网页接口交互,实现了大规模可重复的评估流程,每个提示对应独立生成窗口以消除上下文干扰。数据采集过程严格遵循基准测试规范,其中GenEval侧重物体组合属性评估,Reason-Edit设计七类编辑挑战,WISE则聚焦知识驱动的语义合成任务。
特点
该数据集的核心特征体现在其三重评估维度设计:生成质量维度通过细粒度对象共现、空间排列等指标量化构图能力;编辑维度包含空间理解、尺寸调整等七类复杂指令;知识维度则评估文化背景、时空推理等高级语义理解。数据集包含10,000余组生成样本,附带人工标注的质量评分和错误分析,其独特价值在于首次揭示了GPT-4o在扩散解码头架构、超分辨率偏好等方面的生成特性,并系统记录了比例失调、自动裁剪等12类典型生成缺陷。
使用方法
使用该数据集需遵循三阶段流程:首先通过开源自动化脚本复现生成实验,配置预设提示模板与评估参数;继而调用集成评估模块计算GPT Score、WiScore等指标,其中编辑任务需额外计算非编辑区域一致性;最终利用提供的错误分类体系进行定性分析。研究者可重点对比Table 1中的基线模型表现,或基于图10的缺陷模式开展针对性改进。数据集支持跨任务联合分析,如探究知识理解与生成质量的关联性,但需注意不同子集的评估指标不可直接比较。
背景与挑战
背景概述
GPT-ImgEval是由北京大学、中山大学、上海人工智能实验室等机构的研究团队于2025年提出的首个针对GPT-4o图像生成能力的综合性评估基准。该数据集旨在系统评估GPT-4o在文本到图像生成、指令引导编辑和世界知识引导合成三个关键维度的性能表现。研究团队通过整合GenEval、Reason-Edit和WISE三个专业子数据集,构建了一个多维度的评估框架。该工作不仅揭示了GPT-4o在图像生成控制和质量方面的卓越表现,还通过实证分析推测了其潜在的混合架构(自回归主干与扩散解码头的结合),为多模态大模型的研究提供了重要参考。
当前挑战
GPT-ImgEval面临的挑战主要体现在两个方面:领域问题方面,需要解决多模态模型在复杂场景生成中的空间推理一致性、细粒度属性绑定以及世界知识视觉化等难题;构建过程方面,由于GPT-4o缺乏官方API,研究团队需开发定制化自动化脚本与网页界面交互,同时要克服评估过程中窗口上下文干扰、生成图像分辨率自适应等工程挑战。此外,基准设计还需平衡自动指标与人工评估,确保能准确捕捉模型在保持编辑一致性、比例控制和多轮交互等方面的微妙缺陷。
常用场景
经典使用场景
GPT-ImgEval作为首个针对GPT-4o图像生成能力的多维度评估基准,其经典应用场景聚焦于系统性诊断多模态大模型在文本到图像生成、指令编辑及知识引导合成三大核心任务中的表现。通过整合GenEval、Reason-Edit和WISE三个子数据集,该基准支持对模型构图合理性、细粒度属性控制、空间推理能力以及世界知识融合度的量化评估,为研究社区提供了标准化的性能对比框架。
实际应用
在实际应用层面,GPT-ImgEval的评估框架已被广泛应用于AI内容生成工具的研发优化。数字艺术创作平台通过该基准的编辑一致性指标改进局部修改算法,教育领域利用其知识合成评估模块开发可视化教学工具。特别在安全领域,该数据集揭示的生成伪影特征为AIGC检测模型提供了关键训练数据,助力提升深度伪造内容的识别准确率。
衍生相关工作
基于GPT-ImgEval的评估范式,后续研究衍生出多个重要方向:JanusFlow等工作借鉴其混合架构验证方法探索多模态模型设计;Effort检测模型利用该基准发现的超分辨率伪影特征提升检测性能;WISE数据集进一步扩展为跨文化知识可视化评估工具。这些工作共同推动了生成模型可解释性和安全性的研究进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作