gui-odyssey-test

Hugging Face2025-05-09 更新2025-05-10 收录

下载链接：

https://huggingface.co/datasets/Voxel51/gui-odyssey-test

下载链接

链接失效反馈

官方服务：

资源简介：

GUI Odyssey是一个包含29426个样本的FiftyOne数据集，旨在为跨应用GUI导航代理的训练和评估提供全面的基准数据。该数据集由多个研究机构合作创建，覆盖了多种移动设备和应用程序，包含7,735个场景，每个场景由一系列屏幕截图和相应动作组成。数据集适用于多种研究场景，包括但不限于跨应用GUI导航代理的训练、复杂工作流的性能基准测试、残障人士的用户体验改进研究以及跨应用任务完成的模式研究。

GUI Odyssey is a FiftyOne dataset containing 29,426 samples, designed to provide comprehensive benchmark data for the training and evaluation of cross-application GUI navigation agents. Developed in collaboration with multiple research institutions, this dataset covers a variety of mobile devices and applications, and comprises 7,735 scenarios, each consisting of a series of screenshots and corresponding actions. This dataset is suitable for a wide range of research scenarios, including but not limited to the training of cross-application GUI navigation agents, performance benchmarking of complex workflows, user experience improvement research for people with disabilities, and research on patterns of cross-application task completion.

创建时间：

2025-05-09

搜集汇总

数据集介绍

构建方式

在移动计算界面智能化的研究背景下，GUI Odyssey数据集的构建采用了系统化的跨应用任务执行流程。研究团队基于Android Studio模拟器环境，通过人工演示者逐步完成预先设计的复杂任务指令，同时自动记录每一步操作前的屏幕截图及精确的交互元数据。该过程严格遵循质量控制标准，任务指令由研究人员与GPT-4协同生成，确保了任务场景的多样性与真实性，最终形成包含7735个交互序列的高质量轨迹数据。

特点

作为移动端图形界面导航领域的重要资源，该数据集展现出显著的多维度特征。其核心价值在于覆盖201款独立应用及1399种应用组合的跨应用交互场景，平均每个任务包含15.4个操作步骤，远超现有单应用数据集复杂度。数据结构方面，每个交互序列完整记录了九类操作动作的时空轨迹，包括点击坐标、滑动路径与文本输入等细节，并配备六类任务分类体系与多设备环境元数据，为智能体训练提供丰富的语义上下文。

使用方法

针对视觉智能体开发的研究需求，该数据集可通过FiftyOne平台实现高效调用。用户仅需安装相应依赖库，即可通过HuggingFace集线器加载数据集实例，并利用内置可视化工具进行数据探索与模型验证。研究者在构建跨应用导航模型时，可依据任务分类字段筛选特定场景，通过解析结构化历史动作序列与坐标标注数据，训练智能体理解界面元素关联性与跨应用任务流逻辑，最终在模拟环境中评估智能体的复杂任务完成能力。

背景与挑战

背景概述

随着移动设备应用的普及，跨应用任务执行成为人机交互研究的关键议题。GUI Odyssey数据集由OpenGVLab、上海人工智能实验室及多所高校联合研发，于2024年正式发布，旨在填补现有图形界面导航数据集中于单应用场景的空白。该数据集聚焦移动设备跨应用导航任务，通过采集29,426组交互序列，覆盖201款应用与6类移动设备，为智能体在复杂工作流中的泛化能力评估提供基准。其创新性体现在对多应用协同场景的系统性建模，推动了视觉导航与操作系统智能体领域的研究进程。

当前挑战

构建跨应用导航数据集面临双重挑战：在领域层面，需解决移动设备中动态界面元素识别、多应用状态追踪及长序列动作规划等核心问题；在数据构建过程中，需克服模拟器环境的功能局限性，如无法实现真实支付操作，同时需通过人工标注确保7,735条任务路径的准确性与一致性。此外，设备类型单一性与任务路径唯一性限制了数据集的泛化能力，为后续研究带来验证复杂性。

常用场景

经典使用场景

在移动智能体研究领域，GUI Odyssey数据集为跨应用界面导航任务提供了标准化评估基准。该数据集通过捕捉用户在多个移动应用间的复杂交互序列，典型应用于训练视觉语言模型理解图形用户界面的语义结构。研究者可基于其丰富的屏幕截图与动作坐标标注，开发能够自主执行多步骤任务的智能代理系统，例如从社交媒体应用提取内容并转发至邮件客户端。

解决学术问题

该数据集有效解决了移动计算环境中跨应用任务规划的学术挑战。通过提供涵盖201款应用的真实交互轨迹，它填补了传统单应用数据在复杂工作流建模上的空白。其标注体系支持对智能体空间推理能力的研究，为多模态学习、序列决策等方向提供了验证平台，显著推进了人机交互智能在开放环境中的泛化性能评估。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态界面理解模型与分层强化学习框架。部分工作探索了视觉语言模型在GUI元素定位与功能推理中的迁移能力，另一些研究则利用其长序列标注特性开发分层策略网络。这些成果共同推动了具身智能在移动计算平台的发展，为后续多设备协同交互研究奠定基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集