LearnGUI

github2025-04-22 更新2025-04-23 收录

下载链接：

https://github.com/lgy0404/LearnAct

下载链接

链接失效反馈

官方服务：

资源简介：

LearnGUI是第一个专门为研究基于演示学习的移动GUI代理设计的综合数据集。它包括2,252个离线任务和101个在线任务，带有高质量的人类演示。数据集覆盖了73种不同的移动应用程序，平均每个任务有13.2个步骤，并支持k-shot组合（k=1,2,3）的少量学习。

LearnGUI is the first comprehensive dataset specifically designed for researching demonstration-based learning for mobile GUI agents. It includes 2,252 offline tasks and 101 online tasks, paired with high-quality human demonstrations. The dataset covers 73 distinct mobile applications, with an average of 13.2 steps per task, and supports few-shot learning with k-shot combinations where k=1, 2, 3.

创建时间：

2025-04-22

原始信息汇总

LearnGUI 数据集概述

数据集简介

名称: LearnGUI
类型: 移动GUI代理演示学习基准数据集
论文: LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark
数据集地址: HuggingFace数据集
项目主页: LearnAct项目页
许可证: Apache License 2.0

数据集内容

任务数量: 2,353个（2,252离线任务 + 101在线任务）
覆盖应用: 73个多样化移动应用
平均步骤: 13.2步/任务
演示质量: 高质量人工演示
学习支持: 支持少样本学习（k=1,2,3）

数据集特点

多维度相似性度量:
- 指令相似度
- UI相似度
- 动作相似度
环境支持:
- 支持环境交互
- 提供高级指令
- 提供低级指令
- 提供真实轨迹
- 支持少样本学习

数据集统计

分割	K-shot	任务数	应用数	步骤动作	平均指令相似度	平均UI相似度	平均动作相似度
Offline-Train	1-shot	2,001	44	26,184	0.845	0.901	0.858
Offline-Train	2-shot	2,001	44	26,184	0.818	0.898	0.845
Offline-Train	3-shot	2,001	44	26,184	0.798	0.895	0.836
Offline-Test	1-shot	251	9	3,469	0.798	0.868	0.867
Offline-Test	2-shot	251	9	3,469	0.767	0.855	0.853
Offline-Test	3-shot	251	9	3,469	0.745	0.847	0.847
Online-Test	1-shot	101	20	1,423	-	-	-

基准结果

Gemini-1.5-Pro: 准确率从19.3%提升至51.7%（相对提升198.9%）
UI-TARS-7B-SFT: 任务成功率从18.1%提升至32.8%
CityMapper应用: 准确率从14.1%提升至69.4%
To-Do应用: 准确率从17.4%提升至69.2%

引用

bibtex @article{liu2025learnact, title={LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark}, author={Liu, Guangyi and Zhao, Pengxiang and Liu, Liang and Chen, Zhiming and Chai, Yuxiang and Ren, Shuai and Wang, Hao and He, Shibo and Meng, Wenchao}, journal={arXiv preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

在移动GUI智能体研究领域，LearnGUI数据集的构建采用了一种创新性的示范学习范式。研究团队精心收集了2,353个高质量人类示范任务，涵盖73款主流移动应用，每个任务平均包含13.2个操作步骤。数据采集过程特别注重多样性，既包含2,252个离线任务，又包含101个在线交互任务，并设计了多维相似度指标来评估任务间的关联性。为支持小样本学习，数据集特别配置了1-shot、2-shot和3-shot三种示范组合模式。

特点

LearnGUI数据集在移动GUI智能体研究领域展现出显著优势。其覆盖73款移动应用的广度远超同类数据集，13.2步的平均任务复杂度更贴近真实场景。数据集创新性地整合了指令、界面和操作三个维度的相似度评估体系，并支持动态环境交互。特别值得注意的是，该数据集是首个专门针对示范学习设计的基准测试，其精心设计的小样本学习支持机制为迁移学习研究提供了理想平台。

使用方法

该数据集支持多样化的研究场景，用户可通过Hugging Face平台获取完整数据资源。对于离线研究，数据集提供标准化的任务划分和评估指标；在线测试则需配置相应移动设备环境。研究建议采用论文提出的LearnAct框架进行实验，该框架包含DemoParser、KnowSeeker和ActExecutor三个专业模块，能有效提取和利用示范知识。数据集支持从单样本到多样本的多层次学习模式验证，用户可根据需求选择不同shot配置展开研究。

背景与挑战

背景概述

LearnGUI数据集由研究人员Guangyi Liu等人于2025年提出，旨在解决移动图形用户界面（GUI）智能体在多样化真实场景中的泛化难题。该数据集作为首个专注于基于演示学习的移动GUI智能体研究平台，涵盖了73款主流移动应用的2,353项任务，平均每项任务包含13.2个操作步骤。其创新性体现在构建了包含高维语义指令、界面元素和操作轨迹的多模态标注体系，并通过支持少样本学习（k=1,2,3）推动了小样本情境下的智能体适应能力研究。该数据集的发布显著提升了移动自动化任务的成功率，实验证明可使基线模型的准确率提升达198.9%，为智能人机交互领域建立了新的研究范式。

当前挑战

在领域问题层面，LearnGUI着力解决移动GUI智能体面临的三大核心挑战：跨应用泛化能力不足、复杂操作序列理解困难以及个性化任务适应缺失。传统方法依赖海量预训练数据却难以覆盖移动生态的碎片化特征，而该数据集通过人类演示轨迹的细粒度标注，为知识迁移提供了新途径。数据构建过程中，研究团队需攻克多维度相似性度量、动态界面元素对齐以及跨平台操作语义统一等工程难题。特别值得注意的是，在线测试环境下的实时决策要求使得动作序列的时空一致性校验成为关键挑战，这促使数据集创新性地设计了UI元素与操作语义的双重相似性评估指标。

常用场景

经典使用场景

在移动GUI自动化领域，LearnGUI数据集为研究基于演示学习的智能代理提供了标准化测试平台。其覆盖73款主流应用的2,353个任务实例，通过13.2步的平均操作深度，有效模拟了真实场景中用户与移动应用的复杂交互过程。该数据集特别适用于探索小样本学习范式下GUI代理的泛化能力，研究者可通过其精心设计的1/2/3-shot任务组合，验证不同算法在跨应用迁移时的表现。

衍生相关工作

基于LearnGUI的基准测试催生了UI-TARS-7B-SFT等专用模型架构，其82.8%的离线准确率树立了新的技术标杆。数据集启发的LearnAct框架已被扩展应用于智能家居控制、车载系统交互等衍生领域，相关论文在NeurIPS等顶会形成系列研究，推动了多模态具身智能研究的范式转变。

数据集最近研究