OpenGVLab/GUI-Odyssey
收藏Hugging Face2025-08-04 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/OpenGVLab/GUI-Odyssey
下载链接
链接失效反馈官方服务:
资源简介:
GUI Odyssey是一个用于训练和评估跨应用导航代理的综合数据集。该数据集包含来自6种移动设备的7,735个任务片段,涵盖了6种跨应用任务类型、201个应用和1.4K个应用组合。每个任务片段包含唯一的标识符、设备信息、任务信息、步骤长度以及每个步骤的详细信息。数据集支持多种分割方式,包括随机分割、任务分割、设备分割和应用分割,以便评估代理在不同场景下的性能。
GUI Odyssey is a comprehensive dataset for training and evaluating cross-app navigation agents. The dataset consists of 7,735 episodes from 6 mobile devices, spanning 6 types of cross-app tasks, 201 apps, and 1.4K app combos. Each episode includes a unique identifier, device information, task information, step length, and detailed information for each step. The dataset supports various splitting methods, including random split, task split, device split, and app split, to evaluate the performance of agents across different scenarios.
提供机构:
OpenGVLab
原始信息汇总
数据集卡片 - GUI Odyssey
简介
GUI Odyssey 是一个全面的用于训练和评估跨应用导航代理的数据集。该数据集包含来自6种移动设备的7,735个片段,涵盖6种类型的跨应用任务、201个应用和1.4K个应用组合。
数据结构
数据字段
每个字段的注释如下:
episode_id(str): 片段的唯一标识符。device_info(dict): 收集片段的虚拟设备的详细信息。product(str): 模拟器的产品名称。release_version(str): 模拟器的Android API级别。sdk_version(str): 用于模拟器的软件开发工具包的版本。h(int): 设备屏幕的高度。w(int): 设备屏幕的宽度。device_name(str): 虚拟设备的名称,包括Pixel Fold, Pixel Tablet, Pixel 8 Pro, Pixel 7 Pro, Medium Phone, Small Phone。
task_info(dict): 收集片段的任务的详细信息。category(str): 任务的类别,包括Multi_Apps, Web_Shopping, General_Tool, Information_Management, Media_Entertainment, Social_Sharing。app(list[str]): 用于该任务的应用。meta_task(str): 该任务的模板,例如,"Search for the next {} and set a reminder."。task(str): 通过填充元任务创建的具体任务,例如,"Search for the next New York Fashion Week and set a reminder."。instruction(str): 任务的详细和改写版本,包括特定的工具或应用程序,例如,"Utilize DuckDuckgo to find the dates for the next New York Fashion Week and then use TickTick to set a reminder for the event."。
step_length(int): 该片段的总步数。steps(list[dict]): 该片段的每个单独步骤,包括以下字段:step(int): 片段中的每个步骤由一个零索引的步骤号标识,指示其在序列中的位置。例如,如果step是1,则对应于片段的第二步。screenshot(str): 该步骤的当前截图。action(str): 该步骤的相应动作,包括CLICK, SCROLL, LONG_PRESS, TYPE, COMPLETE, IMPOSSIBLE, HOME, BACK。info(Union[str, list[list]]): 提供执行action字段中指定的动作所需的具体细节。注意,所有坐标都归一化到[0, 1000]范围内。- 如果动作是CLICK,info包含要点击的坐标(x, y)或特殊键KEY_HOME, KEY_BACK, KEY_RECENT。
- 如果动作是LONG_PRESS,info包含长按的坐标(x, y)。
- 如果动作是SCROLL,info包含滚动动作的起始(x1, y1)和结束(x2, y2)坐标。
- 如果动作是其他值,info为空("")。
ps(str): 根据动作字段的值提供额外的细节或上下文。- 如果动作是COMPLETE或IMPOSSIBLE,可能包含注释者关于任务完成或无法完成的原因的任何额外信息。
- 如果动作是SCROLL,包含滚动动作的完整轨迹。
数据分割
可以通过两种方式分割GUI Odyssey来评估代理的域内和域外性能:
- random_split: 按3:1的比例随机将数据集分割为训练集和测试集。
- task_split: 从六个类别中按比例抽样元任务。测试集中的任务与训练集中的任务有显著差异。
- device_split: 选择在Fold Phone上注释的片段作为测试集,该设备与其他设备(如智能手机和平板电脑)有显著差异。
- app_split: 基于应用进行分割。测试集中的应用与训练集中的应用有显著差异。
每个分类对应的JSON文件字段如下:
train(list[str]): 训练集的注释文件名列表,等同于episode_id。test(list[str]): 测试集的注释文件名列表,等同于episode_id。
许可信息
该数据集根据Creative Commons Attribution 4.0 International License进行许可。
免责声明
该数据集主要用于研究目的。我们强烈反对任何有害使用数据或技术的行为。
引用
bib @misc{lu2024gui, title={GUI Odyssey: A Comprehensive Dataset for Cross-App GUI Navigation on Mobile Devices}, author={Quanfeng Lu and Wenqi Shao and Zitao Liu and Fanqing Meng and Boxuan Li and Botong Chen and Siyuan Huang and Kaipeng Zhang and Yu Qiao and Ping Luo}, year={2024}, eprint={2406.08451}, archivePrefix={arXiv}, primaryClass={cs.CV} }
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



