GUI-Odyssey

Hugging Face2024-06-24 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/OpenGVLab/GUI-Odyssey

下载链接

链接失效反馈

官方服务：

资源简介：

GUI Odyssey是一个综合数据集，用于训练和评估移动设备上的跨应用导航代理。该数据集包含7,735个来自6种移动设备的剧集，涵盖6种类型的跨应用任务、201个应用和1.4K应用组合。数据结构详细，包括剧集ID、设备信息、任务信息、步骤总数和具体步骤等字段。数据集支持多种分割方法，如随机分割、任务分割、设备分割和应用分割，以评估代理的性能。此数据集遵循Creative Commons Attribution 4.0国际许可。

GUI Odyssey is a comprehensive dataset for training and evaluating cross-app navigation agents on mobile devices. It contains 7,735 episodes sourced from 6 types of mobile devices, covering 6 categories of cross-app tasks, 201 distinct applications, and 1.4K application combinations. The dataset boasts a well-defined data structure with fields including episode ID, device information, task details, total step count, and specific step-level information. It supports multiple partitioning strategies, such as random splitting, task-centric splitting, device-based splitting, and application-based splitting, to enable comprehensive performance evaluation of agents. This dataset is released under the Creative Commons Attribution 4.0 International License.

创建时间：

2024-06-13

原始信息汇总

数据集卡片 - GUI Odyssey

简介

GUI Odyssey 是一个全面的用于训练和评估跨应用导航代理的数据集。该数据集包含来自6种移动设备的7,735个片段，涵盖6种类型的跨应用任务、201个应用和1.4K个应用组合。

数据结构

数据字段

每个注释字段如下：

episode_id (str): 片段的唯一标识符。
device_info (dict): 收集片段的虚拟设备的详细信息。
- product (str): 模拟器的产品名称。
- release_version (str): 模拟器的Android API级别。
- sdk_version (str): 用于模拟器的软件开发工具包的版本。
- h (int): 设备屏幕的高度。
- w (int): 设备屏幕的宽度。
- device_name (str): 虚拟设备的名称，包括 Pixel Fold, Pixel Tablet, Pixel 8 Pro, Pixel 7 Pro, Medium Phone, Small Phone。
task_info (dict): 收集片段的任务的详细信息。
- category (str): 任务的类别，包括 Multi_Apps, Web_Shopping, General_Tool, Information_Management, Media_Entertainment, Social_Sharing。
- app (list[str]): 用于该任务的应用。
- meta_task (str): 该任务的模板，例如 "Search for the next {} and set a reminder."。
- task (str): 通过填充元任务创建的具体任务，例如 "Search for the next New York Fashion Week and set a reminder."。
- instruction (str): 任务的详细和改写版本，包括特定工具或应用程序，例如 "Utilize DuckDuckgo to find the dates for the next New York Fashion Week and then use TickTick to set a reminder for the event."。
step_length (int): 该片段的总步数。
steps (list[dict]): 该片段的每个单独步骤，包括以下字段：
- step (int): 片段中的每个步骤由一个零索引的步骤号标识，表示其在序列中的位置。例如，如果 step 是1，则对应于片段的第二步。
- screenshot (str): 该步骤的当前屏幕截图。
- action (str): 该步骤的相应动作，包括 CLICK, SCROLL, LONG_PRESS, TYPE, COMPLETE, IMPOSSIBLE, HOME, BACK。
- info (Union[str, list[list]]): 提供执行 action 字段中指定的动作所需的具体细节。注意，所有坐标都归一化到 [0, 1000] 范围内。
  - 如果动作是 CLICK，info 包含要点击的坐标(x, y)或特殊键 KEY_HOME, KEY_BACK, KEY_RECENT。
  - 如果动作是 LONG_PRESS，info 包含长按的坐标(x, y)。
  - 如果动作是 SCROLL，info 包含滚动动作的起始(x1, y1)和结束(x2, y2)坐标。
  - 如果动作是其他值，info 为空("")。
- ps (str): 根据动作字段的值提供额外的详细信息或上下文。
  - 如果动作是 COMPLETE 或 IMPOSSIBLE，可能包含注释者关于任务完成或无法完成原因的任何额外信息。
  - 如果动作是 SCROLL，包含滚动动作的完整轨迹。

数据分割

可以通过两种方式分割 GUI Odyssey 数据集来评估代理的域内和域外性能：

random_split: 按3:1的比例随机将数据集分割为训练集和测试集。
task_split: 从六个类别中按比例抽样元任务。测试集中的任务与训练集中的任务有显著差异。
device_split: 选择在 Fold Phone 上注释的片段作为测试集，该设备与其他设备（如智能手机和平板电脑）有显著差异。
app_split: 基于应用进行分割。测试集中的应用与训练集中的应用有显著差异。

每个分类对应的 JSON 文件字段如下：

train (list[str]): 训练集的注释文件名列表，等同于 episode_id。
test (list[str]): 测试集的注释文件名列表，等同于 episode_id。

许可信息

该数据集根据 Creative Commons Attribution 4.0 International License 进行许可。

免责声明

该数据集主要用于研究目的。我们强烈反对任何有害使用数据或技术的行为。

引用

bib @misc{lu2024gui, title={GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices}, author={Quanfeng Lu and Wenqi Shao and Zitao Liu and Fanqing Meng and Boxuan Li and Botong Chen and Siyuan Huang and Kaipeng Zhang and Yu Qiao and Ping Luo}, year={2024}, eprint={2406.08451}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

GUI Odyssey数据集的构建基于对跨应用程序导航任务的全面收集与标注。该数据集包含了7,735个来自6种移动设备的任务片段，涵盖了6类跨应用程序任务、201个应用程序以及1,400多个应用程序组合。每个任务片段通过详细的标注字段进行描述，包括任务的唯一标识符、设备信息、任务类别、具体任务指令以及每一步操作的截图和动作信息。数据集通过多种分割方式（如随机分割、任务分割、设备分割和应用程序分割）来评估代理在不同情境下的表现，确保了数据集的多样性和广泛适用性。

特点

GUI Odyssey数据集的主要特点在于其跨应用程序任务的多样性和复杂性。数据集不仅涵盖了多种设备类型和应用程序，还通过详细的任务指令和操作步骤，提供了丰富的上下文信息。此外，数据集支持多种分割方式，使得研究者能够评估模型在不同任务和设备上的泛化能力。每个任务片段的标注信息包括截图、动作类型及其具体执行细节，确保了数据的高质量和可操作性。

使用方法

使用GUI Odyssey数据集时，用户可以通过下载标注文件和截图文件来获取数据。标注文件包含了每个任务片段的详细信息，而截图文件则提供了任务执行过程中的视觉上下文。用户可以根据需要选择不同的数据分割方式进行训练和测试，以评估模型在不同任务和设备上的表现。此外，数据集提供了便捷的下载方式，用户可以直接从/zips目录下载压缩文件并解压使用，简化了数据获取和处理的流程。

背景与挑战

背景概述

GUI Odyssey数据集由OpenGVLab团队创建，旨在为跨应用程序导航代理的训练与评估提供全面的数据支持。该数据集包含7,735个来自6种移动设备的任务片段，涵盖6类跨应用程序任务、201个应用程序及1,400种应用程序组合。其核心研究问题聚焦于如何在多样化的移动设备和应用程序环境中，实现高效的跨应用程序导航。GUI Odyssey的发布不仅为移动设备上的用户界面（GUI）导航研究提供了丰富的资源，还为相关领域的算法开发和评估提供了标准化的基准。

当前挑战

GUI Odyssey数据集在构建过程中面临多重挑战。首先，跨应用程序任务的复杂性要求数据集能够覆盖广泛的应用场景和设备类型，这增加了数据采集和标注的难度。其次，不同设备和应用程序之间的界面差异性，使得任务的通用性和可迁移性成为关键挑战。此外，数据集的多样性和规模也带来了存储和处理上的技术难题，尤其是在处理大量截图和详细标注信息时。最后，如何设计有效的数据分割策略以评估模型的泛化能力，也是该数据集面临的重要挑战之一。

常用场景

经典使用场景

GUI Odyssey数据集的经典使用场景主要集中在跨应用程序导航代理的训练与评估。该数据集通过提供7,735个来自6种移动设备的跨应用任务片段，涵盖了201个应用程序和1,400多个应用组合，为研究者提供了一个全面的实验平台。通过这些数据，研究者可以训练和测试代理在不同应用间导航的能力，尤其是在多应用任务、网页购物、信息管理等复杂场景中的表现。

实际应用

在实际应用中，GUI Odyssey数据集可用于开发智能助手、自动化任务执行系统以及用户界面自动化测试工具。例如，在智能家居设备中，用户可能需要在多个应用间切换以完成复杂的任务，如设置提醒、购物或娱乐。通过利用该数据集训练的导航代理，系统能够更高效地帮助用户完成这些任务，提升用户体验。

衍生相关工作

基于GUI Odyssey数据集，研究者们已经开展了一系列相关工作，包括跨应用导航算法的设计与优化、多任务学习模型的开发以及用户界面自动化的研究。例如，有研究利用该数据集训练的模型在不同设备和应用间实现了高效的导航，显著提升了系统的泛化能力。此外，该数据集还为跨平台用户界面测试提供了新的思路，推动了自动化测试技术的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集