five

LearnGUI

收藏
github2025-04-22 更新2025-04-23 收录
下载链接:
https://github.com/lgy0404/LearnAct
下载链接
链接失效反馈
官方服务:
资源简介:
LearnGUI是第一个专门为研究基于演示学习的移动GUI代理设计的综合数据集。它包括2,252个离线任务和101个在线任务,带有高质量的人类演示。数据集覆盖了73种不同的移动应用程序,平均每个任务有13.2个步骤,并支持k-shot组合(k=1,2,3)的少量学习。

LearnGUI is the first comprehensive dataset specifically designed for researching demonstration-based learning for mobile GUI agents. It includes 2,252 offline tasks and 101 online tasks, paired with high-quality human demonstrations. The dataset covers 73 distinct mobile applications, with an average of 13.2 steps per task, and supports few-shot learning with k-shot combinations where k=1, 2, 3.
创建时间:
2025-04-22
原始信息汇总

LearnGUI 数据集概述

数据集简介

数据集内容

  • 任务数量: 2,353个(2,252离线任务 + 101在线任务)
  • 覆盖应用: 73个多样化移动应用
  • 平均步骤: 13.2步/任务
  • 演示质量: 高质量人工演示
  • 学习支持: 支持少样本学习(k=1,2,3)

数据集特点

  1. 多维度相似性度量:

    • 指令相似度
    • UI相似度
    • 动作相似度
  2. 环境支持:

    • 支持环境交互
    • 提供高级指令
    • 提供低级指令
    • 提供真实轨迹
    • 支持少样本学习

数据集统计

分割 K-shot 任务数 应用数 步骤动作 平均指令相似度 平均UI相似度 平均动作相似度
Offline-Train 1-shot 2,001 44 26,184 0.845 0.901 0.858
Offline-Train 2-shot 2,001 44 26,184 0.818 0.898 0.845
Offline-Train 3-shot 2,001 44 26,184 0.798 0.895 0.836
Offline-Test 1-shot 251 9 3,469 0.798 0.868 0.867
Offline-Test 2-shot 251 9 3,469 0.767 0.855 0.853
Offline-Test 3-shot 251 9 3,469 0.745 0.847 0.847
Online-Test 1-shot 101 20 1,423 - - -

相关框架

  • LearnAct框架:
    1. DemoParser: 从演示轨迹中提取可用知识
    2. KnowSeeker: 检索与当前任务相关的演示知识
    3. ActExecutor: 结合指令、GUI环境和演示知识

基准结果

  • Gemini-1.5-Pro: 准确率从19.3%提升至51.7%(相对提升198.9%)
  • UI-TARS-7B-SFT: 任务成功率从18.1%提升至32.8%
  • CityMapper应用: 准确率从14.1%提升至69.4%
  • To-Do应用: 准确率从17.4%提升至69.2%

引用

bibtex @article{liu2025learnact, title={LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark}, author={Liu, Guangyi and Zhao, Pengxiang and Liu, Liang and Chen, Zhiming and Chai, Yuxiang and Ren, Shuai and Wang, Hao and He, Shibo and Meng, Wenchao}, journal={arXiv preprint}, year={2025} }

搜集汇总
数据集介绍
main_image_url
构建方式
在移动GUI智能体研究领域,LearnGUI数据集的构建采用了一种创新性的示范学习范式。研究团队精心收集了2,353个高质量人类示范任务,涵盖73款主流移动应用,每个任务平均包含13.2个操作步骤。数据采集过程特别注重多样性,既包含2,252个离线任务,又包含101个在线交互任务,并设计了多维相似度指标来评估任务间的关联性。为支持小样本学习,数据集特别配置了1-shot、2-shot和3-shot三种示范组合模式。
特点
LearnGUI数据集在移动GUI智能体研究领域展现出显著优势。其覆盖73款移动应用的广度远超同类数据集,13.2步的平均任务复杂度更贴近真实场景。数据集创新性地整合了指令、界面和操作三个维度的相似度评估体系,并支持动态环境交互。特别值得注意的是,该数据集是首个专门针对示范学习设计的基准测试,其精心设计的小样本学习支持机制为迁移学习研究提供了理想平台。
使用方法
该数据集支持多样化的研究场景,用户可通过Hugging Face平台获取完整数据资源。对于离线研究,数据集提供标准化的任务划分和评估指标;在线测试则需配置相应移动设备环境。研究建议采用论文提出的LearnAct框架进行实验,该框架包含DemoParser、KnowSeeker和ActExecutor三个专业模块,能有效提取和利用示范知识。数据集支持从单样本到多样本的多层次学习模式验证,用户可根据需求选择不同shot配置展开研究。
背景与挑战
背景概述
LearnGUI数据集由研究人员Guangyi Liu等人于2025年提出,旨在解决移动图形用户界面(GUI)智能体在多样化真实场景中的泛化难题。该数据集作为首个专注于基于演示学习的移动GUI智能体研究平台,涵盖了73款主流移动应用的2,353项任务,平均每项任务包含13.2个操作步骤。其创新性体现在构建了包含高维语义指令、界面元素和操作轨迹的多模态标注体系,并通过支持少样本学习(k=1,2,3)推动了小样本情境下的智能体适应能力研究。该数据集的发布显著提升了移动自动化任务的成功率,实验证明可使基线模型的准确率提升达198.9%,为智能人机交互领域建立了新的研究范式。
当前挑战
在领域问题层面,LearnGUI着力解决移动GUI智能体面临的三大核心挑战:跨应用泛化能力不足、复杂操作序列理解困难以及个性化任务适应缺失。传统方法依赖海量预训练数据却难以覆盖移动生态的碎片化特征,而该数据集通过人类演示轨迹的细粒度标注,为知识迁移提供了新途径。数据构建过程中,研究团队需攻克多维度相似性度量、动态界面元素对齐以及跨平台操作语义统一等工程难题。特别值得注意的是,在线测试环境下的实时决策要求使得动作序列的时空一致性校验成为关键挑战,这促使数据集创新性地设计了UI元素与操作语义的双重相似性评估指标。
常用场景
经典使用场景
在移动GUI自动化领域,LearnGUI数据集为研究基于演示学习的智能代理提供了标准化测试平台。其覆盖73款主流应用的2,353个任务实例,通过13.2步的平均操作深度,有效模拟了真实场景中用户与移动应用的复杂交互过程。该数据集特别适用于探索小样本学习范式下GUI代理的泛化能力,研究者可通过其精心设计的1/2/3-shot任务组合,验证不同算法在跨应用迁移时的表现。
衍生相关工作
基于LearnGUI的基准测试催生了UI-TARS-7B-SFT等专用模型架构,其82.8%的离线准确率树立了新的技术标杆。数据集启发的LearnAct框架已被扩展应用于智能家居控制、车载系统交互等衍生领域,相关论文在NeurIPS等顶会形成系列研究,推动了多模态具身智能研究的范式转变。
数据集最近研究
最新研究方向
在移动GUI智能体领域,LearnGUI数据集的推出标志着基于演示学习的少样本方法成为研究热点。该数据集通过覆盖73款主流应用、2353项任务的高质量人类操作轨迹,为解决传统预训练方法在跨应用泛化上的瓶颈提供了新思路。当前前沿研究聚焦于多智能体协同框架的优化,如LearnAct中DemoParser、KnowSeeker、ActExecutor的级联机制,在在线测试中使7B参数模型的成功率提升14.7个百分点,达到与商用大模型相当的水平。这种基于知识提取-检索-执行的范式,正推动着移动自动化向低资源、高精度方向发展,特别在跨应用长流程任务(平均13.2步)中展现出显著优势。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作