GEBench
收藏GEBench 数据集概述
数据集基本信息
- 数据集名称:GEBench
- 核心任务:GUI 生成基准测试
- 官方描述:用于将图像生成模型作为 GUI 环境进行基准测试的数据集。
- 许可证:MIT
- 相关论文:arXiv:2602.09007
- 项目页面:YOUR_PROJECT_PAGE_URL
- 数据集地址:HuggingFace Datasets Hub
数据集主要特性
- 5 种数据类型:
- Type 1:单步生成
- Type 2:多步生成
- Type 3:文本-虚构应用轨迹
- Type 4:文本-真实应用轨迹
- Type 5:基础数据
- 双语支持:根据文件夹命名自动选择中文或英文提示。
- 5 维评估指标:目标达成度、逻辑性、一致性、用户界面、质量。
数据获取与使用
-
数据下载命令: bash git clone https://huggingface.co/datasets/stepfun-ai/GEBench ./data
-
数据生成脚本:
scripts/generate.py,支持为不同类型数据调用图像生成模型(如 Gemini API)生成图像。 -
结果评估脚本:
scripts/evaluate.py,支持使用 OpenAI API 对不同类型数据的生成结果进行评估。
基准测试主要结果
数据集提供了在中文和英文子集上对多个图像生成模型的基准测试结果,评估维度包括单步、多步、虚构应用、真实应用、基础数据以及综合 GE 分数。
中文子集结果
表现最佳的模型为 Nano Banana pro,其在单步、多步、虚构应用和基础数据任务上均取得最高分,综合 GE 分数为 69.62。GPT-image-1.5 在多项任务中表现次优。
英文子集结果
在英文子集中,Nano Banana pro 在单步、多步和基础数据任务上领先,而 GPT-image-1.5 在虚构应用、真实应用任务及综合 GE 分数上表现最佳,其综合 GE 分数为 63.16。
引用信息
如果使用本数据集,请引用以下论文: bibtex @article{li2026gebench, title={GEBench: Benchmarking Image Generation Models as GUI Environments}, author={Haodong Li and Jingwei Wu and Quan Sun and Guopeng Li and Juanxi Tian and Huanyu Zhang and Yanlin Lai and Ruichuan An and Hongbo Peng and Yuhong Dai and Chenxi Li and Chunmei Qing and Jia Wang and Ziyang Meng and Zheng Ge and Xiangyu Zhang and Daxin Jiang}, journal={arXiv preprint arXiv:2602.09007}, year={2026} }

- 1GEBench: Benchmarking Image Generation Models as GUI EnvironmentsStepFun; 华南理工大学; 北京大学; 清华大学; 中国科学院·自动化研究所; 芝加哥大学; 南洋理工大学 · 2026年



