LearnGUI
收藏arXiv2025-04-19 更新2025-04-22 收录
下载链接:
https://lgy0404.github.io/LearnAct
下载链接
链接失效反馈官方服务:
资源简介:
LearnGUI是首个专门为研究移动GUI代理的少量示范学习而设计的综合数据集。它基于AMEX和AndroidWorld构建,包含2252个离线任务和101个在线任务,每个任务都带有高质量的人类示范。该数据集旨在为移动GUI代理的示范学习提供系统研究平台,支持不同示范数量和任务相似性的分析,以探究这些因素如何影响代理性能。
LearnGUI is the first comprehensive dataset specifically designed for research on few-shot demonstration learning for mobile GUI agents. Built upon AMEX and AndroidWorld, it includes 2252 offline tasks and 101 online tasks, each paired with high-quality human demonstrations. This dataset aims to provide a systematic research platform for demonstration learning of mobile GUI agents, supporting analyses of varying demonstration quantities and task similarities to explore how these factors impact agent performance.
提供机构:
浙江大学, vivo AI Lab
创建时间:
2025-04-19
搜集汇总
数据集介绍

构建方式
LearnGUI数据集通过系统化重构和增强AMEX数据集构建而成,专注于研究移动GUI代理的演示学习能力。首先对原始动作空间进行标准化处理,移除不一致的TASK_IMPOSSIBLE动作,并扩展TASK_COMPLETE功能以支持信息检索任务。随后通过恢复应用上下文、计算任务间指令相似度,构建了k-shot任务组合(k=1,2,3),确保每个查询任务都有k个最相似的演示作为支持。最后采用多维度相似性度量方法,包括基于TF-IDF的UI相似性和基于嵌入的动作相似性计算,形成了包含2,252个离线任务和101个在线任务的综合基准。
特点
LearnGUI作为首个专注于移动GUI代理演示学习研究的基准数据集,具有三个显著特征:其一,采用统一评估框架,标准化动作空间和评估协议,确保实验结果可比性;其二,支持系统化的k-shot学习研究,提供1/2/3-shot不同配置,便于探索演示数量对性能的影响;其三,创新性地引入多维度相似性分析,通过指令相似度、UI相似度和动作相似度的量化指标,支持研究不同相似性类型对知识迁移效果的影响。数据集覆盖73个应用程序,平均任务步骤达13.2步,充分体现了移动应用交互的复杂性。
使用方法
使用LearnGUI数据集时,研究者可通过三种主要方式开展实验:离线评估采用分步准确率指标,包括动作类型准确率和动作匹配准确率,严格验证代理的逐步执行能力;在线评估通过实时交互环境测量任务成功率,反映端到端的任务完成效果;相似性分析则利用预设的四类任务组合(UISHActSH/UISHActSL/UISLActSH/UISLActSL),探究不同相似性条件下知识迁移的规律。数据集已划分为训练集(2,001任务)和测试集(251任务),支持模型开发与验证的全流程。
背景与挑战
背景概述
LearnGUI数据集由浙江大学与vivo AI Lab的研究团队于2025年创建,旨在解决移动GUI智能体在多样化真实场景中的泛化挑战。该数据集聚焦于基于演示的少样本学习范式,包含2,252个离线任务和101个在线任务的高质量人工演示轨迹,覆盖73个移动应用场景。作为首个专门研究移动GUI智能体演示学习能力的基准,LearnGUI通过标准化动作空间、多维度相似性度量及动态交互环境设计,推动了智能体在跨应用迁移学习和个性化任务适应方面的研究进展。其创新性地将AMEX和AndroidWorld数据集重构为支持系统化少样本评估的框架,显著提升了移动自动化领域的研究效率。
当前挑战
LearnGUI主要应对两大核心挑战:在领域问题层面,移动GUI智能体面临长尾场景中的界面多样性问题,传统预训练或微调方法难以覆盖数百万移动应用的动态交互模式;在构建过程中,需解决动作空间标准化(如剔除不一致的TASK_IMPOSSIBLE标签)、跨应用上下文恢复(通过指令相似性分析重构任务组合)以及多模态对齐(协调屏幕截图、UI树与动作序列的语义表征)等技术难题。此外,在线任务需克服动态元素实时标注的复杂性,确保演示轨迹在交互环境中的可复现性。
常用场景
经典使用场景
在移动GUI自动化领域,LearnGUI数据集为研究人员提供了一个标准化的基准,用于评估基于演示学习的移动GUI代理性能。该数据集包含2,252个离线任务和101个在线任务,涵盖了多种移动应用场景,如智能家居控制、健康监测和企业软件操作。通过提供高质量的人类演示轨迹,LearnGUI使得研究者能够系统地研究移动GUI代理在少量演示情况下的学习能力。
衍生相关工作
LearnGUI数据集催生了一系列相关研究工作,特别是在移动GUI代理的演示学习领域。基于该数据集开发的LearnAct框架引入了三个专门组件:DemoParser用于知识提取、KnowSeeker用于相关知识检索、ActExecutor用于演示增强的任务执行。这些创新推动了移动GUI代理从基于规则的方法向基于学习的范式转变。后续研究如UI-TARS和Qwen2-VL等模型都在LearnGUI的基础上进行了扩展和改进,进一步推动了移动GUI自动化技术的发展。
数据集最近研究
最新研究方向
在移动GUI自动化领域,LearnGUI数据集的最新研究聚焦于基于演示的少样本学习范式,旨在解决移动应用界面多样性和长尾场景下的泛化难题。研究通过构建包含2,252个离线任务和101个在线任务的基准数据集,探索了多智能体框架LearnAct在知识提取、检索与执行中的协同机制。实验表明,单次演示可使Gemini-1.5-Pro模型准确率提升198.9%,该突破性进展为个性化移动助手的发展提供了新范式,特别是在智能家居控制、健康监测等需要动态适配的场景中展现出显著优势。
相关研究论文
- 1LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark浙江大学, vivo AI Lab · 2025年
以上内容由遇见数据集搜集并总结生成



