MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube)

Name: MONDAY (Mobile OS Navigation Task Dataset for Agents from YouTube)
Creator: 密歇根大学，LG AI研究
Published: 2025-05-19 10:39:03
License: 暂无描述

arXiv2025-05-19 更新2025-05-21 收录

下载链接：

https://monday-dataset.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

MONDAY是一个包含313K标注帧的20K视频的大型数据集，捕捉了跨多个平台的真实世界移动操作系统导航任务。该数据集通过从YouTube上的教程视频中自动提取移动操作系统导航过程创建，无需手动标注。数据集涵盖多种设备配置和用户设置，包括不同的主题、主屏幕布局和辅助功能设置。它还包含iOS和Android平台的多种界面变化，对于开发具有强大泛化能力的移动操作系统代理至关重要。

MONDAY is a large-scale dataset comprising 20K videos with a total of 313K annotated frames, which captures real-world mobile operating system navigation tasks across multiple platforms. This dataset is constructed by automatically extracting mobile OS navigation sequences from tutorial videos on YouTube, eliminating the need for manual annotation. It covers diverse device configurations and user settings, including various themes, home screen layouts, and accessibility settings. Additionally, it includes multiple interface variations across both iOS and Android platforms, which is critical for developing mobile OS agents with robust generalization capabilities.

提供机构：

密歇根大学，LG AI研究

创建时间：

2025-05-19

搜集汇总

数据集介绍

构建方式

MONDAY数据集通过自动化框架从YouTube教学视频中提取移动操作系统导航程序，无需人工标注。该框架包含三个核心组件：首先，基于OCR的场景转换检测方法，通过追踪文本变化识别有意义的界面状态转换，F1分数达到95.04%；其次，结合GroundingDINO的UI元素检测模块，通过移动设备特定的启发式过滤实现99.87%的命中率；最后，创新的三步动作识别流程，整合场景摘要、初始动作识别与精细化定位，利用GPT-4o实现跨平台动作序列的可靠提取。这一流程支持数据集随移动平台演进而持续扩展，每个视频处理成本仅0.34美元，较人工标注效率提升16倍。

使用方法

该数据集支持端到端移动导航智能体开发，典型应用流程包含三个阶段：预训练阶段，将MONDAY与视觉语言模型（如SeeClick）通过LoRA适配器融合，利用其多平台序列数据增强基础表征；微调阶段，在特定平台数据集（如AitW）上优化动作预测头，保持90%以上触摸操作定位准确率；部署阶段，输入当前屏幕图像、任务描述及历史动作上下文，模型可输出下一操作类型与坐标。针对研究需求，数据集提供分平台（iOS/Android）的19,725训练视频与100测试视频，支持跨平台泛化、长序列预测等场景评估。所有动作标注均转换为标准化JSON格式，包含动作类型、UI元素中心坐标及关联文本等字段。

背景与挑战

背景概述

MONDAY（Mobile OS Navigation Task Dataset for Agents from YouTube）是由密歇根大学与LG AI Research联合开发的大规模移动操作系统导航任务数据集，于2025年5月正式发布。该数据集包含来自2万条教学视频的31.3万标注帧，覆盖iOS和Android双平台真实场景下的多样化交互任务。其创新性在于通过自动化框架从公开视频中提取导航序列，解决了传统数据集依赖人工标注或模拟环境的局限性。作为首个跨平台移动代理训练基准，MONDAY显著提升了模型在未见过移动平台上的泛化能力（平均性能增益18.11%），为GUI视觉智能体的发展提供了关键数据支撑。

当前挑战

在领域问题层面，MONDAY针对移动OS导航智能体面临三大核心挑战：跨平台泛化能力不足（单一OS数据集训练的模型难以适应iOS/Android差异）、真实场景覆盖有限（模拟环境无法复现用户自定义配置及硬件交互）、数据时效性缺陷（手动标注无法跟进OS频繁更新）。在构建过程中，研究团队需攻克视频到动作序列转换的技术难题：1）教学视频中手机屏幕的精准检测与分割（应对复杂背景干扰）；2）基于OCR的鲁棒性场景转换检测（区分界面实质性变化与动画过渡）；3）多模态动作识别（融合视觉元素定位与语音叙述理解）；4）自动化标注质量保障（在零人工干预下达到99.87%UI元素检测命中率）。

常用场景

经典使用场景

在移动操作系统导航代理的研究领域，MONDAY数据集通过从YouTube教学视频中自动提取313K标注帧，构建了一个跨平台的大规模真实世界导航任务数据集。该数据集最经典的使用场景在于训练和评估基于视觉语言模型的移动OS导航代理，特别是在需要处理多样化UI布局和跨平台泛化的复杂任务中。研究人员可利用MONDAY中丰富的操作序列（包括点击、滑动、硬件操作等）来开发能够理解自然语言指令并执行相应界面操作的智能代理系统。

解决学术问题

MONDAY数据集有效解决了移动OS导航研究中的三个关键学术问题：首先，突破了传统仿真环境数据集的局限性，通过真实教学视频捕捉了多样化的用户配置和操作模式；其次，其自动化标注框架克服了人工标注成本高、更新慢的瓶颈，使数据集能随OS版本迭代持续扩展；最重要的是，该数据集首次实现了跨iOS和Android平台的动作序列标注，为开发具有跨平台泛化能力的导航代理提供了必要的数据基础。实验表明，使用MONDAY预训练的模型在未见过的移动OS平台上平均性能提升达18.11%。

实际应用

在实际应用层面，MONDAY数据集支撑的导航代理技术可广泛应用于无障碍交互场景，为行动不便用户提供语音控制的设备操作方案。在消费电子领域，该技术能显著降低新用户学习曲线，通过自动化任务执行提升操作效率。企业级应用中，基于MONDAY训练的代理可适配不同厂商的设备界面，为跨平台企业移动解决方案提供统一的操作范式。此外，其自动化数据采集框架可直接移植到APP厂商的测试流程中，用于生成交互用例库。

数据集最近研究