GUI Odyssey
收藏arXiv2024-06-13 更新2024-06-14 收录
下载链接:
https://github.com/OpenGVLab/GUI-Odyssey
下载链接
链接失效反馈官方服务:
资源简介:
GUI Odyssey是由上海人工智能实验室开发的一个全面的数据集,专为移动设备上的跨应用图形用户界面(GUI)导航训练和评估设计。该数据集包含7,735个从6种不同移动设备收集的剧集,覆盖201个应用和1,399个应用组合,涉及6种跨应用任务类型。数据集的创建过程严格,通过与所有合著者和GPT4的头脑风暴,以及使用Android模拟器进行详细注释来确保任务多样性和注释质量。GUI Odyssey的应用领域广泛,旨在通过提高跨应用导航的效率,增强用户体验,特别是在通信、娱乐和生产力方面。
GUI Odyssey is a comprehensive dataset developed by the Shanghai AI Laboratory, specifically designed for the training and evaluation of cross-application graphical user interface (GUI) navigation on mobile devices. This dataset contains 7,735 episodes collected from 6 distinct mobile devices, covering 201 applications, 1,399 application combinations, and 6 types of cross-application tasks. The dataset was developed through a rigorous process that included brainstorming with all co-authors and GPT-4, followed by detailed annotation using Android emulators to ensure task diversity and annotation quality. GUI Odyssey has a wide range of application scenarios, aiming to enhance user experience by improving the efficiency of cross-application navigation, particularly in the fields of communication, entertainment, and productivity.
提供机构:
上海人工智能实验室
创建时间:
2024-06-13
搜集汇总
数据集介绍

构建方式
GUI Odyssey 数据集的构建方式体现了对跨应用 GUI 导航任务的深入理解和精心设计。该数据集由 7735 个场景组成,这些场景是从 6 种不同的移动设备中收集的,涵盖了 6 种类型的跨应用任务,涉及 201 个应用程序和 1399 个应用程序组合。为了确保任务多样性和标注质量,研究人员采用了多种方法来构建数据集。首先,通过头脑风暴和利用 GPT-4 模型提出了各种跨应用导航任务,并针对每个场景制定了具体的用户指令,从而增加了任务多样性。其次,所有研究人员使用 Android 模拟器记录了整个导航过程,并保存了每个动作步骤的屏幕截图和相应动作。最后,经过严格的数据质量检查,GUI Odyssey 数据集得以形成。
使用方法
GUI Odyssey 数据集可用于训练和评估跨应用 GUI 导航代理。使用该数据集时,研究人员可以按照以下步骤进行:1) 数据集划分:根据研究需求,将数据集划分为训练集和测试集。2) 模型选择:选择合适的模型进行训练,例如 Qwen-VL 模型。3) 模型训练:利用训练集对模型进行训练,可以使用历史重采样模块来提高模型的性能。4) 模型评估:使用测试集评估模型的性能,可以使用动作匹配分数 (AMS) 和成功率 (SR) 等指标来衡量模型的导航能力。5) 模型改进:根据评估结果,对模型进行改进,以提高模型的性能和泛化能力。
背景与挑战
背景概述
随着智能手机在日常生活和工作中的普及,用户经常需要在多个应用程序之间进行导航,以完成诸如在社交媒体平台上分享内容、在消息应用和日历之间协调日程安排等任务。然而,现有的图形用户界面 (GUI) 导航代理通常使用包含可以在单个应用程序内完成的简单任务的训练数据集进行训练,导致跨应用程序导航性能不佳。为了解决这个问题,我们引入了 GUI Odyssey,这是一个用于训练和评估跨应用程序导航代理的综合性数据集。GUI Odyssey 由来自 6 个移动设备的 7,735 个场景组成,涵盖 6 种跨应用程序任务、201 个应用程序和 1.4K 个应用程序组合。利用 GUI Odyssey,我们开发了 OdysseyAgent,这是一个通过使用历史重采样模块对 Qwen-VL 模型进行微调的多模态跨应用程序导航代理。广泛的实验表明,与现有模型相比,OdysseyAgent 具有更高的准确性。
当前挑战
尽管 GUI Odyssey 取得了成功,但在构建过程中仍然面临着一些挑战。首先,各种应用程序之间任务的复杂性和多样性使得难以捕捉到广泛的现实世界场景。其次,确保跨多个应用程序的一致和准确的注释是一项艰巨的任务。此外,由于使用 Android Studio 模拟器,GUI Odyssey 仅支持 Google 制造的设备,难以收集来自不同制造商和操作系统的设备数据。最后,由于数据收集过程的限制,GUI Odyssey 无法涵盖所有可能的执行操作,这限制了其泛化能力。
常用场景
经典使用场景
GUI Odyssey数据集主要用于训练和评估跨应用GUI导航智能体。该数据集包含了7,735个场景,涉及6种跨应用任务,涵盖201个应用程序和1,399个应用程序组合。通过使用GUI Odyssey数据集,研究人员可以开发出能够跨多个应用程序执行复杂任务的智能体,从而提高用户在移动设备上的操作效率和体验。
解决学术问题
GUI Odyssey数据集解决了现有GUI导航数据集无法满足跨应用导航需求的问题。现有的GUI导航数据集主要包含单一应用程序内的简单任务,而GUI Odyssey数据集则包含了跨多个应用程序的复杂任务,更符合现实世界的使用场景。此外,GUI Odyssey数据集还通过引入历史重采样模块,解决了跨应用导航智能体在处理长序列操作时的记忆问题,从而提高了导航的准确性和效率。
实际应用
GUI Odyssey数据集在实际应用中可以用于开发各种跨应用导航智能体,例如智能家居控制、智能客服、智能助手等。这些智能体可以帮助用户完成各种跨应用任务,例如在社交媒体平台上分享内容、在日程安排应用程序中安排会议、在购物应用程序中比较价格等。通过使用GUI Odyssey数据集,可以开发出更加智能化、个性化的跨应用导航智能体,从而提高用户在移动设备上的操作效率和体验。
数据集最近研究
最新研究方向
GUI Odyssey 数据集专注于解决跨应用程序 GUI 导航问题,旨在提升移动设备上自主 GUI 导航代理的性能。该数据集包含了从 6 种不同移动设备收集的 7,735 个跨应用程序任务,涉及 201 个应用程序和 1.4K 个应用程序组合。通过 GUI Odyssey,研究人员开发了 OdysseyAgent,这是一个多模态跨应用程序导航代理,通过微调 Qwen-VL 模型并加入历史重采样模块而得。实验结果表明,与现有模型相比,OdysseyAgent 在跨应用程序导航方面具有优越的准确性。该数据集和代码将在未来发布,有望推动跨应用程序 GUI 导航领域的研究。
相关研究论文
- 1GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices上海人工智能实验室 · 2024年
以上内容由遇见数据集搜集并总结生成



