AutoGUI-v2

Name: AutoGUI-v2
Creator: 中国科学院大学; 模式识别国家重点实验室·中国科学院自动化研究所; 多模态人工智能系统国家重点实验室·中国科学院自动化研究所; 香港科学及创新研究院·中国科学院自动化研究所; 香港理工大学; 上海人工智能实验室
Published: 2026-04-27 21:06:27
License: 暂无描述

arXiv2026-04-27 更新2026-04-29 收录

下载链接：

https://github.com/ZJULiHongxin/AutoGUI-v2

下载链接

链接失效反馈

官方服务：

资源简介：

AutoGUI-v2是由中国科学院大学等机构联合构建的多模态GUI功能理解基准数据集，旨在评估智能代理对图形用户界面的深层功能理解能力。该数据集包含2753项跨六种操作系统的任务，涵盖区域级和元素级语义标注，数据来源于ScreenSpot-Pro、OSWorld-G等多平台GUI截图。通过创新的VLM-人类协作流水线，数据集递归解析分层功能区域并生成动态交互任务，重点解决GUI状态预测和复杂交互逻辑理解问题，为下一代数字自主代理的开发提供标准化评估框架。

AutoGUI-v2 is a multimodal GUI functionality understanding benchmark dataset jointly constructed by the University of Chinese Academy of Sciences and other institutions, aiming to evaluate the deep functional understanding capabilities of AI agents towards graphical user interfaces. This dataset contains 2,753 tasks across six operating systems, covering region-level and element-level semantic annotations, with data sourced from multi-platform GUI screenshots such as ScreenSpot-Pro and OSWorld-G. Through an innovative VLM-human collaboration pipeline, the dataset recursively parses hierarchical functional regions and generates dynamic interaction tasks, focusing on solving the problems of GUI state prediction and complex interaction logic understanding, providing a standardized evaluation framework for the development of next-generation digital autonomous agents.

提供机构：

中国科学院大学; 模式识别国家重点实验室·中国科学院自动化研究所; 多模态人工智能系统国家重点实验室·中国科学院自动化研究所; 香港科学及创新研究院·中国科学院自动化研究所; 香港理工大学; 上海人工智能实验室

创建时间：

2026-04-27

原始信息汇总

AutoGUI-v2 数据集概述

AutoGUI-v2 是一个专注于功能性 GUI 理解的多模态基准数据集，旨在测试模型区分外观相似但功能不同的 GUI 元素的能力。

核心特点

层级化标注流水线：利用大语言模型（LLM）将任意 GUI 截图自动分解为功能性区域的树状结构，并附带质量验证
功能性元素定位（FuncElemGnd）：元素级基准测试，干扰项是视觉相似但功能不同的元素
功能性元素描述（FuncElemCap）：测试模型预测与特定元素交互结果的能力
区域级任务（FuncRegionGnd / FuncRegionCap）：基于层级标注构建，通过语义聚类和视觉验证确保聚类质量

基准任务

FuncElemGnd — 功能性元素定位

给定 GUI 截图和一个功能性问题，从一组视觉相似的干扰项中定位正确元素。包含三种问题变体：

FuncGnd：关于点击功能直接提问
DescGnd：基于描述的定位（元素外观 + 功能）
IntentGnd：行为意图定位

FuncElemCap — 功能性元素描述

多项选择问答：给定元素，预测交互结果。干扰项是视觉相似兄弟元素的描述。

FuncRegionGnd / FuncRegionCap — 区域级任务

从层级分解树构建，通过以下步骤验证：

语义聚类（Qwen3-Embedding-8B）
视觉验证（Gemini Vision）
LLM 生成问题（定位和开放式问答）

支持的源数据集

数据集	领域	规模
ScreenSpot-Pro	Web, 移动, 桌面	专业级 GUI
OSWorld-G	桌面操作系统	250 张唯一截图
AgentNet	混合	大规模轨迹
AMEX	移动	动作与环境

数据获取

数据集已公开发布在 HuggingFace 平台：

FuncElemGnd: https://huggingface.co/datasets/AutoGUI/AutoGUIv2-FuncElemGnd
FuncRegionGnd: https://huggingface.co/datasets/HongxinLi/AutoGUIv2-FuncRegionGnd-v2
FuncRegionCap: https://huggingface.co/datasets/HongxinLi/AutoGUIv2-FuncRegionCap-v2

评估指标

报告指标包括：中心准确率（Center Accuracy）、IoU@0.5、平均 IoU，并按动作类型、元素密度和相似元素数量细分。

引用

若使用本数据集，请引用： bibtex @misc{li2026autoguiv2comprehensivemultimodalgui, title={AutoGUI-v2: A Comprehensive Multi-Modal GUI Functionality Understanding Benchmark}, author={Hongxin Li and Xiping Wang and Jingran Su and Zheng Ju and Yuntao Chen and Qing Li and Zhaoxiang Zhang}, year={2026}, eprint={2604.24441}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2604.24441}, }

搜集汇总

数据集介绍

构建方式

AutoGUI-v2的构建采用了一种创新的人机协同流水线。首先，利用Gemini-2.5-Pro-Thinking对来自多平台（涵盖Windows、macOS、Linux等）的GUI截图进行递归式功能区域划分，生成层次化的区域结构。随后，通过独立的VLM评分器对划分质量进行自动验证，并辅以人工对边界框进行像素级修正，确保几何精度。最后，借助修正后的区域，由VLM重新生成与其上下文高度匹配的功能性描述，从而构建出高质量、层次化的标注数据集。

特点

该数据集的核心特点在于其对GUI功能理解的深度与全面性。它超越了传统的元素级外观或意图定位，将评估尺度从单一元素扩展至功能区域，并引入了交互结果预测任务。AutoGUI-v2包含2,753项任务，覆盖六个操作系统，并具有高分辨率（最高3840×2160）与丰富的任务类型（包括区域级与元素级的定位、描述及动态状态预测）。通过精心设计的视觉相似但功能迥异的“困难负样本”，数据集能够有效区分模型是基于表面视觉线索还是深层语义理解进行推断。

使用方法

在评估过程中，模型需要根据功能描述定位GUI区域或元素（输出归一化的边界框），或从多选项中预测特定区域/元素交互后的结果。评估指标采用交并比、定位中心点准确率以及多项选择问答准确率。该数据集适宜对各类视觉语言模型进行基准测试，尤其能揭示开源模型在功能定位与商业模型在功能描述能力上的差异，并可通过将性能按区域类型、交互动作及干扰密度进行分解，深入分析模型的失败模式。

背景与挑战

背景概述

在自主智能体与图形用户界面交互的研究领域，现有基准测试多聚焦于反应性的元素定位或黑箱式的任务完成，忽视了智能体对界面动态和隐含功能逻辑的深层理解。为填补这一空白，中国科学院大学、模式识别国家重点实验室等机构的研究人员于2026年提出了AutoGUI-v2数据集。该数据集由Hongxin Li等学者创建，核心研究问题在于评估多模态大模型在区域级与元素级上对GUI功能的深层理解能力，包括对交互结果的预测。通过构建涵盖六种操作系统、包含2753项评估任务的大规模基准，AutoGUI-v2揭示了当前模型在复杂交互逻辑理解上的显著短板，为推动下一代GUI智能体的发展提供了全新视角。

当前挑战

AutoGUI-v2所解决的领域核心挑战在于，现有基准无法评测智能体对GUI功能与状态变迁的深层理解，导致模型在复杂交互场景中表现不佳。具体而言，模型在面对不规则区域类型和罕见动作时性能骤降，暴露出其依赖显性视觉线索而忽略隐含功能的缺陷。在数据集构建过程中，挑战同样严峻：为实现高质量、层级化的功能区域标注，研究团队设计了一种多阶段人机协同流水线，但自动标注的边界框常出现偏移、不完整或过大等问题，仍需人工进行像素级修正，这显著限制了数据集的规模化扩展潜力。

常用场景

经典使用场景

AutoGUI-v2最经典的用途在于系统性地评估视觉语言模型对图形用户界面深层功能的理解能力。不同于仅关注元素定位或任务完成率的传统基准，该数据集通过构建跨越六个操作系统、涵盖区域与元素两级粒度的2753项任务，迫使模型不仅要识别所见之物，更要领悟界面区域的内在功能逻辑与交互后的状态变迁。研究人员可以借助这些精心设计的功能导向定位与动态预测题目，严谨地检验智能体是否具备超越表层视觉匹配的、真正意义上的数字世界理解力。

解决学术问题

该数据集精准地填补了现有GUI基准在评估深层功能理解上的关键空白。此前，学术界的研究被肢解为两类：或是考察黑箱式的任务执行成功率，或是局限于静态浅层的元素定位，两者均无法揭示智能体是否真正懂得界面为何如此运作。AutoGUI-v2通过引入“功能导向定位”与“状态预测”两大评估维度，首次提供了测量智能体对界面动态与隐含功能认知程度的标尺，揭示了当前顶尖模型在理解复杂交互逻辑与罕见操作方面的显著短板。

衍生相关工作

AutoGUI-v2的发布催生了一系列致力于弥合其揭示的能力鸿沟的开创性工作。其发现的开源模型在功能定位上占优而商业模型在功能描述上领先的“定位-推理”分化现象，直接激发了后续对强化学习范式在GUI代理中的应用探索，如UI-R1和GUI-R1等工作，试图将精确的定位能力与丰富的世界知识融合。同时，该基准对复杂操作失败的剖析，也促使研究者开发诸如OpenCUA、UI-Venus等更注重行为语义理解的新一代模型，推动整个领域向更深层次的GUI认知迈进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集