GEBench

Name: GEBench
Creator: StepFun; 华南理工大学; 北京大学; 清华大学; 中国科学院·自动化研究所; 芝加哥大学; 南洋理工大学
Published: 2026-02-10 23:30:57
License: 暂无描述

arXiv2026-02-10 更新2026-02-12 收录

下载链接：

https://github.com/stepfun-ai/GEBench

下载链接

链接失效反馈

官方服务：

资源简介：

GEBench是由StepFun团队联合国内外高校开发的GUI生成评估基准数据集，包含700个高质量样本，涵盖单步交互、多步轨迹规划等5类任务场景。该数据集通过真实用户交互记录和专家标注构建，注重界面状态转换的逻辑一致性与空间定位精度。其核心价值在于填补了生成模型在离散式GUI跳转评估领域的空白，为提升自主代理训练的仿真环境保真度提供量化标准。

提供机构：

StepFun; 华南理工大学; 北京大学; 清华大学; 中国科学院·自动化研究所; 芝加哥大学; 南洋理工大学

创建时间：

2026-02-10

原始信息汇总

GEBench 数据集概述

数据集基本信息

数据集名称：GEBench
核心任务：GUI 生成基准测试
官方描述：用于将图像生成模型作为 GUI 环境进行基准测试的数据集。
许可证：MIT
相关论文：arXiv:2602.09007
项目页面：YOUR_PROJECT_PAGE_URL
数据集地址：HuggingFace Datasets Hub

数据集主要特性

5 种数据类型：
1. Type 1：单步生成
2. Type 2：多步生成
3. Type 3：文本-虚构应用轨迹
4. Type 4：文本-真实应用轨迹
5. Type 5：基础数据
双语支持：根据文件夹命名自动选择中文或英文提示。
5 维评估指标：目标达成度、逻辑性、一致性、用户界面、质量。

数据获取与使用

数据下载命令： bash git clone https://huggingface.co/datasets/stepfun-ai/GEBench ./data
数据生成脚本：scripts/generate.py，支持为不同类型数据调用图像生成模型（如 Gemini API）生成图像。
结果评估脚本：scripts/evaluate.py，支持使用 OpenAI API 对不同类型数据的生成结果进行评估。

基准测试主要结果

数据集提供了在中文和英文子集上对多个图像生成模型的基准测试结果，评估维度包括单步、多步、虚构应用、真实应用、基础数据以及综合 GE 分数。

中文子集结果

表现最佳的模型为 Nano Banana pro，其在单步、多步、虚构应用和基础数据任务上均取得最高分，综合 GE 分数为 69.62。GPT-image-1.5 在多项任务中表现次优。

英文子集结果

在英文子集中，Nano Banana pro 在单步、多步和基础数据任务上领先，而 GPT-image-1.5 在虚构应用、真实应用任务及综合 GE 分数上表现最佳，其综合 GE 分数为 63.16。

引用信息

如果使用本数据集，请引用以下论文： bibtex @article{li2026gebench, title={GEBench: Benchmarking Image Generation Models as GUI Environments}, author={Haodong Li and Jingwei Wu and Quan Sun and Guopeng Li and Juanxi Tian and Huanyu Zhang and Yanlin Lai and Ruichuan An and Hongbo Peng and Yuhong Dai and Chenxi Li and Chunmei Qing and Jia Wang and Ziyang Meng and Zheng Ge and Xiangyu Zhang and Daxin Jiang}, journal={arXiv preprint arXiv:2602.09007}, year={2026} }

搜集汇总

数据集介绍

构建方式

在图形用户界面生成领域，构建高质量数据集是评估模型作为交互环境能力的基础。GEBench的构建遵循严谨的流程，从原始屏幕录制开始，捕获移动和桌面平台上的真实交互数据。随后通过任务标注阶段，将用户操作如点击图标或滚动界面转化为结构化的JSON元数据。为确保数据质量，采用三阶段质量控制机制：基于规则的预处理自动过滤不一致样本，人工专家手动验证动作与视觉状态转换的匹配度，最后通过统计校准调整数据分布以减轻潜在偏差。经过这一系列精炼步骤，最终形成涵盖五个任务类别的700个样本集合。

使用方法

使用GEBench进行评估时，首先将图像生成模型视为交互式GUI环境，模型接收当前GUI状态的视觉观察结果及特定用户指令，以合成后续状态。评估涵盖五个任务类型：单步视觉转换测试细粒度指令跟随能力；多步规划评估长期规划与时间一致性；零样本虚拟GUI检验分布外泛化能力；稀有轨迹合成考察逻辑推理而非模式模仿；基于坐标的生成则评估空间感知与精确像素定位渲染。评估过程采用VLM作为评判者，依据GE-Score的五维标准对生成结果进行量化评分，从而系统揭示模型在GUI生成中的优势与瓶颈。

背景与挑战

背景概述

随着图像生成模型的飞速发展，其已能依据用户指令预测图形用户界面的未来状态，这为构建低成本、高灵活性的GUI模拟环境提供了可能。然而，现有基准主要关注通用领域的视觉保真度，未能深入评估GUI交互中特有的状态转换逻辑与时间一致性。为填补这一空白，由StepFun、华南理工大学、北京大学等机构的研究团队于2026年共同提出了GEBench基准。该基准旨在系统评估图像生成模型作为动态GUI环境的能力，其核心研究问题聚焦于如何量化模型在离散、动作触发的界面跳转中的功能逻辑与连贯性。GEBench包含700个精心构建的样本，涵盖五种任务类型，并提出了多维度的GE-Score评估指标，为生成式GUI模拟器的研发奠定了重要的评估基础，推动了自主GUI智能体训练领域的发展。

当前挑战

GEBench所针对的领域问题在于评估图像生成模型作为可靠GUI环境的能力，其核心挑战在于确保生成界面在离散状态跳转中保持严格的功能逻辑与时间一致性。具体而言，模型需在图标语义理解、文本精确渲染以及基于坐标的空间定位等任务上实现高保真度，而现有模型在这些方面表现显著不足。在数据集构建过程中，挑战主要源于高质量交互轨迹的采集与标注。这要求从原始屏幕录制中提取精确的动作序列，并通过多阶段质量控制（包括规则预处理、专家验证与统计校准）来确保样本在视觉连贯性与交互逻辑上的真实性，最终形成涵盖单步、多步、虚构应用等多样场景的均衡数据分布。

常用场景

经典使用场景

在图形用户界面生成领域，GEBench作为首个专注于评估图像生成模型作为GUI环境的基准测试，其经典使用场景在于系统性地衡量模型在模拟动态交互序列时的表现。该基准通过涵盖单步视觉转换、多步规划、零样本虚拟GUI、稀有轨迹合成以及基于坐标的生成等五大任务类别，全面考察模型在离散状态跳转、时空一致性和空间感知方面的能力。研究者利用GEBench提供的700个高质量样本，能够深入分析模型在遵循用户指令、维持界面逻辑连贯性以及处理长时程交互方面的性能瓶颈，从而推动生成式GUI模拟器向高保真、高可靠性的方向发展。

解决学术问题

GEBench致力于解决当前图像生成模型在GUI环境模拟中存在的关键学术问题，特别是传统基准测试在评估功能逻辑和状态转换一致性方面的不足。该数据集通过引入GE-Score这一五维评估指标，系统性地验证了模型在目标达成、交互逻辑、内容一致性、界面合理性和视觉质量等维度的表现，弥补了现有研究在离散界面跳转和严格文本渲染要求上的评估空白。其意义在于为生成式GUI模拟器的可靠性提供了量化依据，揭示了模型在图标语义理解、坐标定位精度和多步规划逻辑连贯性等方面的核心缺陷，为后续研究指明了提升交互真实性和时空一致性的重要方向。

实际应用

在实际应用层面，GEBench为开发基于生成模型的GUI模拟环境提供了关键评估工具，能够支持自主GUI智能体的规模化训练。例如，在自动化软件测试、交互式原型设计以及智能助手开发等场景中，研究者可利用该基准测试生成模型的动态界面预测能力，模拟真实用户操作轨迹，从而降低对物理硬件或固定软件栈的依赖。通过识别模型在文本渲染、图标解释和空间定位等方面的弱点，GEBench助力工程团队优化生成架构，提升合成GUI的功能可行性和视觉保真度，最终推动低成本、高灵活性的虚拟交互环境在工业界的落地应用。

数据集最近研究