GEBench

github2026-02-25 更新2026-02-26 收录

下载链接：

https://github.com/stepfun-ai/GEBench

下载链接

链接失效反馈

官方服务：

资源简介：

GEBench是一个用于图像生成模型的基准测试数据集，支持双语（中文/英文）提示选择，包含5种数据类型和5维度的评估指标。

GEBench is a benchmark dataset for image generation models. It supports bilingual (Chinese/English) prompt selection, and contains five types of data as well as evaluation metrics across five dimensions.

创建时间：

2026-02-09

原始信息汇总

GEBench 数据集概述

数据集基本信息

数据集名称：GEBench
核心任务：GUI 生成
主要用途：作为基准测试，用于评估图像生成模型作为 GUI 环境的能力。

数据集特性

数据多样性：包含 5 种数据类型。
- Type 1：单步生成
- Type 2：多步生成
- Type 3：基于文本的虚构应用生成
- Type 4：基于文本的真实应用生成
- Type 5：基础数据
语言支持：支持中英双语。系统会根据文件夹命名自动选择中文或英文提示。
评估维度：采用 5 维评估指标，包括目标达成度、逻辑性、一致性、用户界面和生成质量。

数据获取与使用

数据源：数据集托管于 HuggingFace。
下载地址：https://huggingface.co/datasets/stepfun-ai/GEBench
下载方式：可通过 git clone 命令将数据克隆至本地指定目录。

主要评估结果

数据集提供了在中文和英文子集上对多个图像生成模型的基准测试结果。

中文子集结果

下表展示了各模型在中文子集上五种数据类型的得分及综合 GE 分数。

模型	单步生成	多步生成	虚构应用	真实应用	基础数据	GE 分数
Nano Banana pro	84.50	68.65	65.75	64.35	64.83	69.62
Nano Banana	64.36	34.16	64.82	65.89	54.48	56.74
GPT-image-1.5	83.79	56.97	60.11	55.65	53.33	63.22
GPT-image-1.0	64.72	49.20	57.31	59.04	31.68	52.39
Seedream 4.5	63.64	53.11	56.48	53.44	52.90	55.91
Seedream 4.0	62.04	48.64	49.28	50.93	53.53	52.88
Wan 2.6	64.20	50.11	52.72	50.40	59.58	55.40
Flux-2-pro	68.83	55.07	58.13	55.41	50.24	57.54
Bagel	34.84	13.45	27.36	33.52	35.10	28.85
UniWorld-V2	55.33	24.95	32.03	21.39	49.60	36.66
Qwen-Image-Edit	41.12	26.79	23.78	26.10	50.80	33.72
Longcat-Image	48.76	12.75	30.03	30.00	51.02	34.51

英文子集结果

下表展示了各模型在英文子集上五种数据类型的得分及综合 GE 分数。

模型	单步生成	多步生成	虚构应用	真实应用	基础数据	GE 分数
Nano Banana pro	84.32	69.51	46.33	47.20	58.64	61.20
Nano Banana	64.80	50.75	48.88	47.12	49.04	52.12
GPT-image-1.5	80.80	58.87	63.68	58.93	49.23	63.16
GPT-image-1.0	60.92	64.33	58.94	56.16	37.84	55.64
Seedream 4.5	49.49	45.30	53.81	51.80	49.63	50.01
Seedream 4.0	53.28	37.57	47.92	49.36	44.17	46.46
Wan 2.6	60.17	44.36	49.55	44.80	53.36	50.45
Flux-2-pro	61.00	52.17	49.92	47.16	45.67	51.18
Bagel	32.91	8.61	26.08	35.12	37.30	28.00
UniWorld-V2	42.68	14.14	30.08	26.83	47.04	32.15
Qwen-Image-Edit	40.12	18.61	25.80	25.95	54.55	33.01
Longcat-Image	36.69	8.44	37.30	36.83	47.12	33.28

相关资源

论文：https://arxiv.org/pdf/2602.09007
项目主页：https://stepfun-ai.github.io/GEBench/
许可证：Apache 2.0

搜集汇总

数据集介绍

构建方式

在图形用户界面生成领域，评估模型的性能需要系统化的基准测试框架。GEBench数据集通过精心设计的五种数据类型构建而成，涵盖单步生成、多步生成、虚构应用文本、真实应用文本以及视觉定位任务。数据收集过程融合了真实应用场景与人工设计的虚构任务，确保覆盖界面生成的多样性与复杂性。数据集以中英双语形式呈现，通过文件夹命名自动识别语言类型，为跨语言评估提供了结构化基础。

特点

该数据集展现出多维度评估的显著特点，其核心在于五个专项指标：目标达成度、逻辑连贯性、界面一致性、用户界面质量以及整体生成品质。数据类型的分层设计允许研究者针对不同生成场景进行细粒度分析，从简单指令到复杂交互轨迹均有所涵盖。双语支持机制进一步拓展了其应用范围，使得模型在跨语言环境下的泛化能力得以检验。这种结构化的评估体系为图像生成模型在GUI环境中的性能提供了全面而深入的洞察。

使用方法

研究者可通过克隆代码库并配置Python环境快速启用该数据集。使用流程包含两个主要阶段：首先利用提供的脚本调用生成模型API，根据指定的数据类型和文件夹路径产生界面图像；随后通过评估脚本对生成结果进行多维度量化分析。评估过程整合了自动化评分机制，支持多线程处理以提升效率。数据集托管于HuggingFace平台，便于直接下载与集成，整个工作流设计旨在实现端到端的基准测试，助力模型迭代与比较研究。

背景与挑战

背景概述

在人工智能与图形用户界面交叉研究领域，GEBench数据集由StepFun AI团队于2026年构建并发布，旨在系统性地评估图像生成模型作为GUI环境的生成能力。该数据集围绕核心研究问题——如何量化评估生成模型在创建功能性、逻辑性及视觉一致性兼备的用户界面图像方面的性能，填补了现有基准在GUI生成任务上的空白。通过引入五种数据类型与五维评估指标，GEBench为多模态生成模型的研究提供了标准化测试平台，推动了人机交互与自动化界面设计领域的算法进步。

当前挑战

GEBench致力于解决GUI图像生成领域的评估挑战，其核心在于如何精准衡量生成界面在目标达成、逻辑连贯、视觉质量等多维度的表现。构建过程中面临数据多样性与真实性的平衡难题，需涵盖从单步指令到多步轨迹、从虚构应用到真实应用的复杂场景，同时确保中英文双语支持以评估模型的语言泛化能力。此外，设计能够全面捕捉界面功能性与美学属性的自动化评估指标，避免主观偏差，亦是数据集构建中的关键挑战。

常用场景

经典使用场景

在图形用户界面（GUI）生成领域，GEBench数据集为评估图像生成模型在模拟GUI环境中的表现提供了标准化基准。其经典使用场景集中于对多模态生成模型进行系统性评测，通过涵盖单步生成、多步交互、虚构应用描述、真实应用轨迹以及视觉基础任务等五种数据类型，全面检验模型在理解复杂界面指令、保持逻辑连贯性以及生成高质量UI元素方面的能力。研究人员借助该数据集能够量化比较不同模型在生成功能性界面图像时的性能差异，从而推动生成式人工智能在界面设计自动化方向的发展。

解决学术问题

该数据集有效解决了当前GUI生成研究中缺乏统一、多维评估标准的学术难题。传统评估往往侧重于图像质量或文本对齐的单一维度，而GEBench引入了目标达成度、逻辑一致性、界面合理性等五个维度的综合度量体系，使得对生成模型在复杂任务中表现的评价更为科学和全面。其意义在于为学术界提供了一个可复现的基准框架，促进了生成模型在理解结构化任务、执行多步推理以及实现精确视觉基础等核心问题上的深入研究，从而加速了智能界面生成技术的理论进展与方法创新。

衍生相关工作

围绕GEBench数据集，学术界已衍生出一系列探索生成模型GUI能力的经典研究工作。这些工作不仅包括对现有大型图像生成模型（如GPT-image系列、Nano Banana等）在该基准上的深入分析与性能排名，更催生了针对多步任务理解、轨迹一致性建模以及视觉基础对齐等特定挑战的改进模型与算法。相关研究进一步推动了以任务为导向的图像生成、具身智能交互以及人机协作界面设计等交叉领域的发展，为构建更智能、更可靠的界面生成系统奠定了坚实的实验基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集