LearnGUI

Name: LearnGUI
Creator: 浙江大学, vivo AI Lab
Published: 2025-04-19 01:13:34
License: 暂无描述

arXiv2025-04-19 更新2025-04-22 收录

下载链接：

https://lgy0404.github.io/LearnAct

下载链接

链接失效反馈

官方服务：

资源简介：

LearnGUI是首个专门为研究移动GUI代理的少量示范学习而设计的综合数据集。它基于AMEX和AndroidWorld构建，包含2252个离线任务和101个在线任务，每个任务都带有高质量的人类示范。该数据集旨在为移动GUI代理的示范学习提供系统研究平台，支持不同示范数量和任务相似性的分析，以探究这些因素如何影响代理性能。

LearnGUI is the first comprehensive dataset specifically designed for research on few-shot demonstration learning for mobile GUI agents. Built upon AMEX and AndroidWorld, it includes 2252 offline tasks and 101 online tasks, each paired with high-quality human demonstrations. This dataset aims to provide a systematic research platform for demonstration learning of mobile GUI agents, supporting analyses of varying demonstration quantities and task similarities to explore how these factors impact agent performance.

提供机构：

浙江大学, vivo AI Lab

创建时间：

2025-04-19

搜集汇总

数据集介绍

构建方式

LearnGUI数据集通过系统化重构和增强AMEX数据集构建而成，专注于研究移动GUI代理的演示学习能力。首先对原始动作空间进行标准化处理，移除不一致的TASK_IMPOSSIBLE动作，并扩展TASK_COMPLETE功能以支持信息检索任务。随后通过恢复应用上下文、计算任务间指令相似度，构建了k-shot任务组合（k=1,2,3），确保每个查询任务都有k个最相似的演示作为支持。最后采用多维度相似性度量方法，包括基于TF-IDF的UI相似性和基于嵌入的动作相似性计算，形成了包含2,252个离线任务和101个在线任务的综合基准。

特点

LearnGUI作为首个专注于移动GUI代理演示学习研究的基准数据集，具有三个显著特征：其一，采用统一评估框架，标准化动作空间和评估协议，确保实验结果可比性；其二，支持系统化的k-shot学习研究，提供1/2/3-shot不同配置，便于探索演示数量对性能的影响；其三，创新性地引入多维度相似性分析，通过指令相似度、UI相似度和动作相似度的量化指标，支持研究不同相似性类型对知识迁移效果的影响。数据集覆盖73个应用程序，平均任务步骤达13.2步，充分体现了移动应用交互的复杂性。

使用方法

使用LearnGUI数据集时，研究者可通过三种主要方式开展实验：离线评估采用分步准确率指标，包括动作类型准确率和动作匹配准确率，严格验证代理的逐步执行能力；在线评估通过实时交互环境测量任务成功率，反映端到端的任务完成效果；相似性分析则利用预设的四类任务组合（UISHActSH/UISHActSL/UISLActSH/UISLActSL），探究不同相似性条件下知识迁移的规律。数据集已划分为训练集（2,001任务）和测试集（251任务），支持模型开发与验证的全流程。

背景与挑战

背景概述

LearnGUI数据集由浙江大学与vivo AI Lab的研究团队于2025年创建，旨在解决移动GUI智能体在多样化真实场景中的泛化挑战。该数据集聚焦于基于演示的少样本学习范式，包含2,252个离线任务和101个在线任务的高质量人工演示轨迹，覆盖73个移动应用场景。作为首个专门研究移动GUI智能体演示学习能力的基准，LearnGUI通过标准化动作空间、多维度相似性度量及动态交互环境设计，推动了智能体在跨应用迁移学习和个性化任务适应方面的研究进展。其创新性地将AMEX和AndroidWorld数据集重构为支持系统化少样本评估的框架，显著提升了移动自动化领域的研究效率。

当前挑战

LearnGUI主要应对两大核心挑战：在领域问题层面，移动GUI智能体面临长尾场景中的界面多样性问题，传统预训练或微调方法难以覆盖数百万移动应用的动态交互模式；在构建过程中，需解决动作空间标准化（如剔除不一致的TASK_IMPOSSIBLE标签）、跨应用上下文恢复（通过指令相似性分析重构任务组合）以及多模态对齐（协调屏幕截图、UI树与动作序列的语义表征）等技术难题。此外，在线任务需克服动态元素实时标注的复杂性，确保演示轨迹在交互环境中的可复现性。

常用场景

经典使用场景

在移动GUI自动化领域，LearnGUI数据集为研究人员提供了一个标准化的基准，用于评估基于演示学习的移动GUI代理性能。该数据集包含2,252个离线任务和101个在线任务，涵盖了多种移动应用场景，如智能家居控制、健康监测和企业软件操作。通过提供高质量的人类演示轨迹，LearnGUI使得研究者能够系统地研究移动GUI代理在少量演示情况下的学习能力。

衍生相关工作

LearnGUI数据集催生了一系列相关研究工作，特别是在移动GUI代理的演示学习领域。基于该数据集开发的LearnAct框架引入了三个专门组件：DemoParser用于知识提取、KnowSeeker用于相关知识检索、ActExecutor用于演示增强的任务执行。这些创新推动了移动GUI代理从基于规则的方法向基于学习的范式转变。后续研究如UI-TARS和Qwen2-VL等模型都在LearnGUI的基础上进行了扩展和改进，进一步推动了移动GUI自动化技术的发展。

数据集最近研究