gui-odyssey-train
收藏Hugging Face2025-05-09 更新2025-05-10 收录
下载链接:
https://huggingface.co/datasets/Voxel51/gui-odyssey-train
下载链接
链接失效反馈官方服务:
资源简介:
GUI Odyssey是一个由OpenGVLab等机构创建的、包含89365个样本的数据集,用于训练和评估移动设备上的跨应用GUI导航代理。数据集涵盖了201个独特的应用程序和6种不同的移动设备类型,每个样本包括一系列屏幕截图和相应的动作。数据集旨在填补现有GUI导航数据集的空白,这些数据集主要关注单一应用任务,而GUI Odyssey专注于跨应用交互。
创建时间:
2025-05-09
搜集汇总
数据集介绍

构建方式
在移动计算界面交互研究领域,GUI Odyssey训练集的构建采用了系统化的数据采集流程。研究团队基于Android Studio模拟器平台,通过人工演示者逐步执行跨应用任务指令,同步记录屏幕截图与交互元数据。数据采集过程整合了自动化截图捕捉与手动动作标注的双重机制,每个交互步骤均精确记录坐标信息、输入文本及动作类型,并经过严格的质量验证确保数据完整性。任务指令的生成融合了研究团队与GPT-4的协作设计,有效保障了任务模式的多样性与复杂性。
特点
该数据集在移动界面智能体研究领域展现出显著特性。其核心价值在于涵盖201款独立应用程序与1399种应用组合的跨应用交互场景,平均每个任务序列包含15.4个操作步骤,远超现有单应用数据集复杂度。数据结构设计采用多模态表征体系,既包含屏幕截图视觉信息,又整合了九类标准动作的时空坐标轨迹。特别值得注意的是其任务类别分布的均衡性,六大任务范畴覆盖从通用工具到多应用协作的完整谱系,为训练稳健的导航智能体提供了充分的数据支撑。
使用方法
针对跨应用界面导航研究需求,该数据集可通过FiftyOne框架实现高效调用。使用者需预先安装fiftyone依赖库,通过load_from_hub接口加载指定数据集标识符即可获取完整数据流。数据集采用分层式数据结构设计,每个交互序列包含设备信息、任务分类、应用列表及结构化历史动作等核心字段。研究人员可通过启动交互式可视化界面实时浏览样本分布,或利用max_samples等参数实现数据子集采样,为模型训练与验证提供灵活的数据接入方案。
背景与挑战
背景概述
随着移动智能设备的普及,跨应用任务执行成为人机交互研究的关键课题。GUI Odyssey数据集由OpenGVLab联合上海人工智能实验室、香港大学等机构于2024年共同创建,旨在解决移动设备跨应用界面导航的复杂性问题。该数据集通过模拟真实用户操作场景,记录了包含7,735个任务序列的交互数据,覆盖201款移动应用和6种设备类型,为视觉代理与图形用户界面 grounding 研究提供了重要支撑。其创新性体现在首次系统性地构建了跨应用工作流数据集,对推进智能体在复杂环境中的决策能力具有里程碑意义。
当前挑战
在移动跨应用导航领域,传统方法面临任务路径复杂度低与交互场景单一的局限。GUI Odyssey通过设计平均15.4步长的多步骤任务,攻克了长序列动作建模与跨应用状态追踪的难题。数据构建过程中,研究团队需协调多设备模拟环境的一致性,处理九类交互动作的精确标注,并确保201款应用间交互逻辑的兼容性。同时,在保持用户隐私的前提下实现真实操作模拟,以及通过人工演示与质量校验平衡数据规模与准确性,均为数据集构建过程中的核心挑战。
常用场景
经典使用场景
在移动计算界面交互研究领域,GUI Odyssey数据集为跨应用导航任务提供了关键基准。该数据集通过89365个样本序列,系统记录了用户在多个移动应用间执行复杂工作流的交互轨迹,涵盖点击、滚动、输入等九类操作。其典型应用场景包括训练视觉代理模型理解界面元素语义关联,以及评估智能体在社交媒体分享、多应用信息协调等跨平台任务中的执行效率。
解决学术问题
该数据集有效解决了移动计算界面研究中长期存在的单应用任务局限性问题。通过构建涵盖201款应用、1399种应用组合的交互序列,为研究跨应用工作流中的状态转移建模、动作序列规划等核心问题提供数据支撑。其15.4步的平均任务长度显著超越现有数据集,使学者能够深入探究长程依赖情境下的视觉语言 grounding 机制与决策推理过程。
衍生相关工作
该数据集已催生多个跨模态推理领域的创新研究。基于其构建的视觉语言导航框架在EMNLP、ACL等会议上发表系列成果,特别是在屏幕元素语义解析与动作预测的联合建模方面取得突破。后续研究进一步扩展了数据集的适用边界,衍生出基于元任务迁移的零样本学习框架,以及融合多设备特性的跨平台泛化方法。
以上内容由遇见数据集搜集并总结生成



