AUI-Gym

Name: AUI-Gym
Creator: 新加坡国立大学Show实验室、微软、牛津大学
Published: 2025-11-20 00:00:02
License: 暂无描述

arXiv2025-11-20 更新2025-11-21 收录

下载链接：

https://github.com/showlab/AUI

下载链接

链接失效反馈

官方服务：

资源简介：

AUI-Gym是由新加坡国立大学与微软等机构联合开发的自动图形界面评估基准，涵盖52个跨领域应用程序。该数据集包含1560项由GPT-5生成并经人工验证的交互任务，每个任务配备基于规则的功能验证器确保可执行性。数据集通过结构化查询生成完整功能网站，重点考察计算机使用代理的导航成功率和任务可解性，旨在推动面向智能体的人机交互界面自动设计与评估范式革新。

AUI-Gym is an automatic graphical user interface (GUI) evaluation benchmark co-developed by the National University of Singapore, Microsoft and other institutions, covering 52 cross-domain applications. This dataset includes 1,560 interactive tasks generated by GPT-5 and manually verified, with each task paired with a rule-based functional validator to ensure executability. The dataset generates complete functional websites through structured queries, focusing on evaluating the navigation success rate and task solvability of computer-use AI agents, aiming to promote the paradigm innovation of automatic design and evaluation for human-computer interaction interfaces targeting AI agents.

提供机构：

新加坡国立大学Show实验室、微软、牛津大学

创建时间：

2025-11-20

原始信息汇总

AUI 数据集概述

数据集基本信息

数据集名称: AUI (Computer-Use Agents as Judges for Generative User Interface)
研究领域: 生成式用户界面评估框架
核心功能: 端到端评估智能体生成的网页应用

数据集规模

应用数量: 52个应用
任务数量: 每个应用30个任务
编码器模型: 3个模型 (GPT-5, Qwen, GPT-4o)

评估流程架构

阶段0 (准备阶段)

生成初始网站 (多模型并行)
为每个应用生成30个任务 (使用GPT-5)

阶段1 (指标1)

评估器在初始网站上提取任务-状态规则
评分标准: 具有有效规则的任务数量

阶段2 (指标2)

计算机使用代理仅执行支持的任务
基于规则的神谕评估，无视觉语言模型回退

阶段3 (指标3.1和3.2)

基于失败和不支持的任务修订初始网站
重新评估和重新执行计算机使用代理测试

数据组织结构

初始数据

v0/{v0_dir}/ websites/{app}/{model}/index.html tasks/{app}/tasks.json states/{model}/rules.json v0_cua_results/{model}/{cua_model}/

实验数据

experiments/{experiment}/ runs/{run_key}/ stage3_0/{app}/{model}/v1_website/index.html stage3_1/{app}/{model}/rules.json stage3_2/{cua_model}/{app}/{model}/trajectories/

修订类型

不支持任务修订: 基于阶段1评估器标记的任务
计算机使用代理修订: 基于计算机使用代理失败轨迹，默认启用去样式化和适应屏幕
集成修订: 合并不支持任务和计算机使用代理修订

技术组件

评估器: 默认使用GPT-5
计算机使用代理: 使用UI-TARS 1.5 7B模型
编码器: 支持Qwen3-Coder-30B等模型
评论器消融: 支持纯文本和纯截图模式

关键特性

默认并行处理 (#模型 × #应用)
模型-应用-任务粒度的增量保存
严格无回退分支
不截断HTML或限制任务数量

搜集汇总

数据集介绍

构建方式

在图形用户界面自动化研究领域，AUI-Gym通过结构化流程构建了涵盖52个应用程序的基准测试集。首先采用GPT-5模型生成1560项模拟真实场景的任务指令，覆盖工具、游戏、应用等六大领域；随后通过人工审核确保任务质量，剔除模糊或超出应用范围的指令；最终为每个任务开发程序化验证器，通过分析HTML元素状态与交互路径，生成可执行性检查规则，形成闭环验证机制。

使用方法

研究实践中，该数据集支持端到端的自动界面开发评估流程。开发者将编程语言模型作为设计主体生成初始界面，计算机使用代理则作为评估主体执行导航任务；通过分析代理的交互轨迹与任务完成状态，生成包含功能缺失提示与界面优化建议的双重反馈；最终利用可视化仪表盘压缩多步交互历史，以自适应缩放的关键区域高亮技术呈现核心问题，驱动界面迭代优化。

背景与挑战

背景概述

AUI-Gym数据集由牛津大学、新加坡国立大学Show Lab及微软研究院于2025年联合发布，聚焦于自动图形用户界面开发的前沿领域。该数据集旨在探索编码导向语言模型与计算机使用代理的协同机制，通过构建涵盖52个应用场景的测试平台，推动人机交互范式从以人类为中心向以代理原生效率为核心的转型。其创新性在于将界面设计重构为可调优环境，为智能体参与数字环境设计奠定了实证基础。

当前挑战

该数据集致力于解决自动GUI开发中功能完整性与代理导航效率的双重挑战。在领域问题层面，需克服人类中心设计导致的代理行为冗余问题，通过任务可解性验证与导航轨迹分析提升界面功能密度。构建过程中面临多模态轨迹压缩的技术瓶颈，为此开发了CUA仪表盘将交互历史压缩为单一图像，在保留关键语义的同时降低76.2%视觉冗余度，并需确保1560项任务的程序化验证器在多样化应用场景中的泛化能力。

常用场景

经典使用场景

在图形用户界面自动化研究领域，AUI-Gym作为评估基准，其经典应用场景聚焦于验证计算机使用代理与编码语言模型协同工作的效能。该数据集通过模拟52个跨领域应用程序的1560项任务，系统化地检验智能体在网页环境中的导航能力与功能完整性，为界面设计的自动化迭代提供了标准化测试平台。

解决学术问题

该数据集有效解决了传统GUI研究中人机交互范式固化的学术难题，突破了智能体被动适应人类中心设计的局限。通过构建可编程验证的任务生态，显著提升了界面功能完备性与任务可解性的量化评估精度，为探索智能体原生界面设计范式奠定了方法论基础。

实际应用

在工业实践层面，该框架已应用于网页开发自动化流程，通过编码器与计算机使用代理的协作循环，显著提升了企业级应用界面的功能鲁棒性。其任务验证机制与导航轨迹分析技术，为金融、电商等领域的界面自动化测试提供了可扩展的解决方案。

数据集最近研究