five

LearnGUI|移动GUI设计数据集|机器学习数据集

收藏
arXiv2025-04-19 更新2025-04-22 收录
移动GUI设计
机器学习
下载链接:
https://lgy0404.github.io/LearnAct
下载链接
链接失效反馈
资源简介:
LearnGUI是首个专门为研究移动GUI代理的少量示范学习而设计的综合数据集。它基于AMEX和AndroidWorld构建,包含2252个离线任务和101个在线任务,每个任务都带有高质量的人类示范。该数据集旨在为移动GUI代理的示范学习提供系统研究平台,支持不同示范数量和任务相似性的分析,以探究这些因素如何影响代理性能。
提供机构:
浙江大学, vivo AI Lab
创建时间:
2025-04-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
LearnGUI数据集通过系统化重构和增强AMEX数据集构建而成,专注于研究移动GUI代理的演示学习能力。首先对原始动作空间进行标准化处理,移除不一致的TASK_IMPOSSIBLE动作,并扩展TASK_COMPLETE功能以支持信息检索任务。随后通过恢复应用上下文、计算任务间指令相似度,构建了k-shot任务组合(k=1,2,3),确保每个查询任务都有k个最相似的演示作为支持。最后采用多维度相似性度量方法,包括基于TF-IDF的UI相似性和基于嵌入的动作相似性计算,形成了包含2,252个离线任务和101个在线任务的综合基准。
特点
LearnGUI作为首个专注于移动GUI代理演示学习研究的基准数据集,具有三个显著特征:其一,采用统一评估框架,标准化动作空间和评估协议,确保实验结果可比性;其二,支持系统化的k-shot学习研究,提供1/2/3-shot不同配置,便于探索演示数量对性能的影响;其三,创新性地引入多维度相似性分析,通过指令相似度、UI相似度和动作相似度的量化指标,支持研究不同相似性类型对知识迁移效果的影响。数据集覆盖73个应用程序,平均任务步骤达13.2步,充分体现了移动应用交互的复杂性。
使用方法
使用LearnGUI数据集时,研究者可通过三种主要方式开展实验:离线评估采用分步准确率指标,包括动作类型准确率和动作匹配准确率,严格验证代理的逐步执行能力;在线评估通过实时交互环境测量任务成功率,反映端到端的任务完成效果;相似性分析则利用预设的四类任务组合(UISHActSH/UISHActSL/UISLActSH/UISLActSL),探究不同相似性条件下知识迁移的规律。数据集已划分为训练集(2,001任务)和测试集(251任务),支持模型开发与验证的全流程。
背景与挑战
背景概述
LearnGUI数据集由浙江大学与vivo AI Lab的研究团队于2025年创建,旨在解决移动GUI智能体在多样化真实场景中的泛化挑战。该数据集聚焦于基于演示的少样本学习范式,包含2,252个离线任务和101个在线任务的高质量人工演示轨迹,覆盖73个移动应用场景。作为首个专门研究移动GUI智能体演示学习能力的基准,LearnGUI通过标准化动作空间、多维度相似性度量及动态交互环境设计,推动了智能体在跨应用迁移学习和个性化任务适应方面的研究进展。其创新性地将AMEX和AndroidWorld数据集重构为支持系统化少样本评估的框架,显著提升了移动自动化领域的研究效率。
当前挑战
LearnGUI主要应对两大核心挑战:在领域问题层面,移动GUI智能体面临长尾场景中的界面多样性问题,传统预训练或微调方法难以覆盖数百万移动应用的动态交互模式;在构建过程中,需解决动作空间标准化(如剔除不一致的TASK_IMPOSSIBLE标签)、跨应用上下文恢复(通过指令相似性分析重构任务组合)以及多模态对齐(协调屏幕截图、UI树与动作序列的语义表征)等技术难题。此外,在线任务需克服动态元素实时标注的复杂性,确保演示轨迹在交互环境中的可复现性。
常用场景
经典使用场景
在移动GUI自动化领域,LearnGUI数据集为研究人员提供了一个标准化的基准,用于评估基于演示学习的移动GUI代理性能。该数据集包含2,252个离线任务和101个在线任务,涵盖了多种移动应用场景,如智能家居控制、健康监测和企业软件操作。通过提供高质量的人类演示轨迹,LearnGUI使得研究者能够系统地研究移动GUI代理在少量演示情况下的学习能力。
衍生相关工作
LearnGUI数据集催生了一系列相关研究工作,特别是在移动GUI代理的演示学习领域。基于该数据集开发的LearnAct框架引入了三个专门组件:DemoParser用于知识提取、KnowSeeker用于相关知识检索、ActExecutor用于演示增强的任务执行。这些创新推动了移动GUI代理从基于规则的方法向基于学习的范式转变。后续研究如UI-TARS和Qwen2-VL等模型都在LearnGUI的基础上进行了扩展和改进,进一步推动了移动GUI自动化技术的发展。
数据集最近研究
最新研究方向
在移动GUI自动化领域,LearnGUI数据集的最新研究聚焦于基于演示的少样本学习范式,旨在解决移动应用界面多样性和长尾场景下的泛化难题。研究通过构建包含2,252个离线任务和101个在线任务的基准数据集,探索了多智能体框架LearnAct在知识提取、检索与执行中的协同机制。实验表明,单次演示可使Gemini-1.5-Pro模型准确率提升198.9%,该突破性进展为个性化移动助手的发展提供了新范式,特别是在智能家居控制、健康监测等需要动态适配的场景中展现出显著优势。
相关研究论文
  • 1
    LearnAct: Few-Shot Mobile GUI Agent with a Unified Demonstration Benchmark浙江大学, vivo AI Lab · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

全国 1∶200 000 数字地质图(公开版)空间数据库

As the only one of its kind, China National Digital Geological Map (Public Version at 1∶200 000 scale) Spatial Database (CNDGM-PVSD) is based on China' s former nationwide measured results of regional geological survey at 1∶200 000 scale, and is also one of the nationwide basic geosciences spatial databases jointly accomplished by multiple organizations of China. Spatially, it embraces 1 163 geological map-sheets (at scale 1: 200 000) in both formats of MapGIS and ArcGIS, covering 72% of China's whole territory with a total data volume of 90 GB. Its main sources is from 1∶200 000 regional geological survey reports, geological maps, and mineral resources maps with an original time span from mid-1950s to early 1990s. Approved by the State's related agencies, it meets all the related technical qualification requirements and standards issued by China Geological Survey in data integrity, logic consistency, location acc racy, attribution fineness, and collation precision, and is hence of excellent and reliable quality. The CNDGM-PVSD is an important component of China' s national spatial database categories, serving as a spatial digital platform for the information construction of the State's national economy, and providing informationbackbones to the national and provincial economic planning, geohazard monitoring, geological survey, mineral resources exploration as well as macro decision-making.

DataCite Commons 收录

DrugBank, TWOSIDES

DrugBank和TWOSIDES是用于药物-药物相互作用(DDI)预测的两个广泛使用的公共数据集。DrugBank包含86种药物间的药理相互作用,而TWOSIDES记录了药物间的副作用,保留了209种相互作用类型。这些数据集通过提取药物指纹和使用生物医学网络作为辅助信息,用于训练和评估DDI预测模型。数据集的应用领域主要集中在药理学和医疗保健中,旨在通过预测药物间的潜在相互作用来提高患者安全和治疗效果。

arXiv 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MNLI

MNLI(Multi-Genre Natural Language Inference)是一个大规模的自然语言推理数据集,包含433,000多对句子对。该数据集用于评估模型在不同文本类型中的推理能力,包括新闻文章、小说、论坛帖子等。每个句子对都标注了三种可能的关系:蕴含(entailment)、矛盾(contradiction)和中性(neutral)。

cims.nyu.edu 收录