MobileWorld

Name: MobileWorld
Creator: 通义实验室,阿里巴巴集团; 香港科技大学(广州); 佛罗里达大学
Published: 2025-12-26 22:36:50
License: 暂无描述

arXiv2025-12-26 更新2025-12-24 收录

下载链接：

https://github.com/Tongyi-MAI/MobileWorld

下载链接

链接失效反馈

官方服务：

资源简介：

MobileWorld是由阿里巴巴集团通义实验室联合多所高校开发的移动智能体基准测试数据集，包含201个跨20个应用程序的任务。该数据集以长周期、跨应用工作流为特色，平均需27.8个完成步骤，其中62.2%为多应用任务，显著提升了测试难度。数据集采用开源替代方案构建可复现环境，支持源代码修改和后端数据库访问验证。创新性地引入了智能体-用户交互任务(占比22.4%)和MCP增强任务(19.9%)，为评估移动智能体在模糊指令处理和混合工具使用等真实场景中的表现提供了标准化框架，旨在推动下一代移动智能体在复杂推理和用户感知方面的发展。

MobileWorld is a mobile agent benchmark dataset developed by Alibaba Group's Tongyi Lab in collaboration with multiple universities. It contains 201 tasks spanning 20 applications. Characterized by long-cycle, cross-application workflows, the dataset has an average of 27.8 completion steps, with 62.2% of tasks being multi-application ones, which significantly increases the testing difficulty. The dataset uses open-source alternatives to build reproducible environments, and supports source code modification and backend database access validation. It innovatively introduces agent-user interaction tasks (accounting for 22.4%) and MCP-enhanced tasks (19.9%), providing a standardized framework for evaluating mobile agents' performance in real-world scenarios such as ambiguous instruction processing and mixed tool usage, aiming to promote the development of next-generation mobile agents in terms of complex reasoning and user perception.

提供机构：

通义实验室,阿里巴巴集团; 香港科技大学(广州); 佛罗里达大学

创建时间：

2025-12-22

原始信息汇总

Mobile World 数据集概述

数据集基本信息

数据集名称：Mobile World
核心定位：一个旨在反映真实世界场景、具有挑战性的移动使用基准测试。
论文标题：MobileWorld: Benchmarking Autonomous Mobile Agents in Agent-User Interactive, and MCP-Augmented Environments
论文链接：https://arxiv.org/abs/2512.19432
项目代码库：https://github.com/Tongyi-MAI/MobileWorld
项目网站：https://tongyi-mai.github.io/MobileWorld/

数据集规模与构成

任务总数：201 个任务。
应用覆盖：涵盖 20 个应用程序。
任务特点：
- 包含长视野、跨应用程序的任务。
- 包含新颖的任务类别，包括智能体-用户交互任务和 MCP 增强任务。

系统与安装要求

操作系统：Linux 主机系统（或启用 WSL2 + KVM 的 Windows），macOS 支持正在开发中。
核心依赖：
- 支持特权容器的 Docker。
- 用于 Android 模拟器加速的 KVM（基于内核的虚拟机）。
- Python 3.12+。
安装方式：可通过 git clone 克隆代码库，并使用 uv sync 安装依赖。

快速使用流程

环境检查：使用 sudo mw env check 检查 Docker、KVM 支持并拉取 Docker 镜像。
启动环境：使用 sudo mw env run 启动指定数量的容器化 Android 环境。
运行评估：使用 sudo mw eval 命令运行基准测试评估套件，需指定代理类型、模型、API 端点等参数。
查看结果：使用 mw logs view 在 http://localhost:7860 启动交互式 Web 可视化界面以探索任务轨迹和结果。

主要功能与命令

数据集提供名为 mw 或 mobile-world 的 CLI 工具，主要命令类别包括：

环境管理：env check， env run， env list， env rm， env info， env restart， env exec。
评估与测试：eval， test。
信息查询：info task， info agent， info app， info mcp。
日志处理：logs view， logs results， logs export。
设备与服务器：device， server。

文档

详细文档位于 docs/ 目录下，包括：

开发指南 (docs/development.md)
MCP 服务器设置 (docs/mcp_setup.md)
Windows 系统设置 (docs/setup_for_windows.md)
Android 虚拟设备配置 (docs/configure_avd.md)

致谢

感谢 Android World (https://github.com/google-research/android_world) 和 Android-Lab (https://github.com/THUDM/Android-Lab) 的开源贡献。

引用

如需在研究中引用此数据集，请使用提供的 BibTeX 条目。

联系

问题反馈：通过 GitHub Issues (https://github.com/Tongyi-MAI/MobileWorld/issues) 提交。
讨论群组：可通过扫描 README 中的二维码加入 WeChat 讨论群。

搜集汇总

数据集介绍

构建方式

在移动智能体评估领域，MobileWorld通过精心设计的构建流程，旨在弥合现有基准与真实世界移动使用场景之间的差距。该数据集包含201项任务，覆盖20个应用程序，任务构建过程强调长视野规划与跨应用交互，平均任务完成步骤达到27.8步，显著高于先前基准。数据构建采用人工标注与自动化验证相结合的方式，标注者基于预加载的系统状态（如联系人、日历事件等）设计复杂任务，并引入关键信息缺失以创建需要用户交互的任务。所有任务均经过多次人工验证，确保其可解性与评估确定性，最终形成涵盖图形界面操作、代理-用户交互及MCP增强任务的综合性基准。

特点

MobileWorld的核心特点体现在其多维度的挑战性与真实性。该基准显著提升了任务复杂度，不仅包含62.2%的跨应用任务，还创新性地引入了代理-用户交互任务与MCP增强任务，分别占比22.4%与19.9%，以评估智能体在模糊指令处理及混合工具调用方面的能力。数据集采用基于容器的可重现环境，集成了自托管开源应用（如Mattermost、Mastodon），并通过后端数据库检查、本地存储分析等多种确定性验证方法，确保评估的准确性与一致性。这些设计使得MobileWorld能够更真实地反映移动使用的实际场景，为下一代移动智能体的研发提供了严格的测试平台。

使用方法

MobileWorld为研究者提供了完整的评估框架，以系统化测试移动图形界面智能体的性能。使用该数据集时，智能体被置于一个容器化的Android虚拟设备环境中，通过接收自然语言指令并执行混合动作空间中的操作（包括点击、输入等图形界面操作，以及ask_user询问用户和mcp_call调用外部工具）。评估过程采用最大50步的限制，并通过多维度验证机制（如文本匹配、后端数据库查询）自动判定任务成功与否。研究者可利用其提供的规划器-执行器智能体框架作为基线，或集成自定义模型，以在长视野推理、用户交互及工具调用等关键能力上进行基准测试与比较分析。

背景与挑战

背景概述

MobileWorld 是阿里巴巴集团通义实验室于2025年提出的一个面向移动图形用户界面（GUI）智能体的在线基准测试数据集，旨在解决现有基准（如AndroidWorld）因任务简单化而趋于性能饱和的瓶颈。该数据集由Quyu Kong、Xu Zhang等研究人员主导构建，核心研究问题聚焦于如何更真实地评估智能体在复杂、长视野的跨应用工作流、模糊用户指令交互以及混合工具调用场景下的综合能力。通过引入20个真实应用中的201个任务，MobileWorld显著提升了任务复杂度与真实性，其发布为移动智能体领域设立了新的性能前沿，推动了下一代具备主动交互与外部工具协同能力的自主移动智能体的研究与发展。

当前挑战

MobileWorld 所应对的核心领域挑战在于评估智能体在真实、复杂的移动使用场景中的综合能力，这超越了传统的单一应用图像分类或简单指令跟随。具体挑战包括：1) 解决长视野、跨应用任务规划的挑战，要求智能体具备多步骤推理、状态记忆与精确的指令跟随能力；2) 处理模糊或信息不全的用户指令，要求智能体能够主动发起澄清对话以获取关键信息；3) 实现图形界面操作与外部工具（通过模型上下文协议MCP）的混合执行，要求智能体在GUI导航与API工具调用间做出战略选择。在构建过程中，团队面临确保评估确定性与可复现性的挑战，需通过自托管开源应用、容器化环境、后端数据库检查与快照管理等多种技术手段，在引入复杂第三方应用的同时，避免依赖随机性强的“大模型即裁判”评估方法。

常用场景

经典使用场景

在移动智能体研究领域，MobileWorld数据集被广泛用于评估自主移动代理在复杂、真实场景下的综合能力。其经典使用场景聚焦于模拟现实世界中的移动设备操作流程，例如跨应用任务执行、模糊指令处理以及外部工具调用。研究者通过该数据集构建长视野、多步骤的自动化任务，如从电商平台筛选商品后通过通讯应用分享信息，或在导航服务中规划路线后同步至日历应用。这些场景不仅测试代理的图形界面导航精度，更考验其跨应用协调、上下文记忆与逻辑推理等高级认知功能，为移动智能体的能力边界提供了严谨的测试基准。

衍生相关工作

MobileWorld数据集的发布催生了一系列围绕移动智能体能力拓展的经典研究工作。在智能体-用户交互方向，受其启发的研究进一步探索了多轮对话中意图理解与主动查询的优化策略，例如基于强化学习的对话策略训练框架。在工具集成领域，后续工作深化了模型上下文协议工具的上下文管理与调用效率，提出了分层工具选择与动态参数生成等创新方法。同时，针对数据集中揭示的长时记忆与状态跟踪短板，学术界发展了基于外部记忆模块与状态检查点的增强架构，以支持复杂多步任务的可靠执行。这些衍生工作共同推动了移动智能体在自主性、协作性与工具使用能力上的持续进步，形成了以MobileWorld为核心的能力评估与迭代闭环。

数据集最近研究