MobA-MobBench

Name: MobA-MobBench
Creator: OpenDFM
Published: 2024-10-18 21:43:46
License: 暂无描述

Hugging Face2024-10-18 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/OpenDFM/MobA-MobBench

下载链接

链接失效反馈

官方服务：

资源简介：

MobA是一个基于多模态大语言模型的移动电话代理，通过两级代理架构提高理解和规划能力。高级别的全局代理（GA）负责理解用户命令、跟踪历史记忆和规划任务，而低级别的本地代理（LA）则根据子任务和GA的记忆预测详细动作。此外，集成反射模块使得系统能够高效完成任务并处理之前未见过的复杂任务。

提供机构：

OpenDFM

创建时间：

2024-10-18

原始信息汇总

MobA-MobBench 数据集概述

基本信息

许可证: CC BY-NC-SA 4.0
语言:
- 英语 (en)
- 中文 (zh)
标签:
- GUI
- Agent
数据集规模: n<1K

简介

当前的移动助手受限于对系统API的依赖，或在处理复杂用户指令和多样化界面时因理解力和决策能力的限制而表现不佳。为了解决这些问题，我们提出了MobA，一种由多模态大语言模型驱动的移动电话代理，通过一个复杂的两级代理架构来增强理解和规划能力。高层次的全局代理（GA）负责理解用户命令、跟踪历史记忆和规划任务。低层次的本地代理（LA）根据子任务和GA的记忆预测详细的操作，以函数调用的形式执行。集成反射模块使得系统能够高效完成任务，并处理以前未见过的复杂任务。MobA在实际评估中展示了任务执行效率和完成率的显著提升，突显了多模态大语言模型驱动的移动助手的潜力。

数据集

MobBench: 包含在论文中测试的五十个任务。

引用

如果发现我们的工作有用，请引用我们： bib @misc{zhu2024moba, title={MobA: A Two-Level Agent System for Efficient Mobile Task Automation}, author={Zichen Zhu and Hao Tang and Yansi Li and Kunyao Lan and Yixuan Jiang and Hao Zhou and Yixiao Wang and Situo Zhang and Liangtai Sun and Lu Chen and Kai Yu}, year={2024}, eprint={2410.13757}, archivePrefix={arXiv}, primaryClass={cs.MA}, url={https://arxiv.org/abs/2410.13757}, }

搜集汇总

数据集介绍

构建方式

MobA-MobBench数据集的构建基于多模态大语言模型（MLLM）驱动的移动电话代理MobA。该数据集通过一个复杂的两层代理架构来增强理解和规划能力。高层全局代理（GA）负责理解用户指令、跟踪历史记忆并规划任务，而低层局部代理（LA）则在GA的指导下预测详细的操作步骤。此外，通过集成反思模块，系统能够高效完成任务并处理之前未见过的复杂任务。数据集的构建过程包括对真实移动设备环境的模拟和任务执行的评估，确保了数据的高质量和实用性。

使用方法

使用MobA-MobBench数据集时，首先需要确保系统环境中已安装Android Debug Bridge（ADB）并连接Android设备。通过配置`config.yaml`文件，用户可以指定运行MobA的参数和设置。在完成环境配置后，用户可以通过执行`executor.py`脚本来启动MobA代理系统。数据集中的任务可以直接用于测试和评估移动设备自动化系统的性能。用户还可以根据研究需求，对数据集中的任务进行扩展或修改，以探索更多自动化场景和优化策略。

背景与挑战

背景概述

MobA-MobBench数据集由OpenDFM团队于2024年发布，旨在解决移动助手在复杂用户指令和多样化界面中的局限性。该数据集的核心研究问题是通过多模态大语言模型（MLLM）增强移动助手的理解和规划能力，从而提升任务执行效率和完成率。MobA系统采用了两层代理架构，包括负责理解用户指令和任务规划的高层全局代理（GA），以及预测详细操作的低层局部代理（LA）。该数据集的发布标志着移动任务自动化领域的重要进展，为未来智能助手的研究提供了宝贵的实验平台。

当前挑战

MobA-MobBench数据集在解决移动任务自动化问题时面临多重挑战。首先，移动设备的用户界面多样且动态变化，如何准确理解和操作这些界面是一个复杂的技术难题。其次，用户指令的多样性和复杂性要求系统具备强大的自然语言理解和任务分解能力。在数据集构建过程中，研究人员需要设计大量真实场景下的任务，并确保这些任务能够全面覆盖移动助手的应用场景。此外，如何通过多模态大语言模型有效整合视觉和文本信息，以实现高效的任务执行，也是该数据集构建中的关键挑战。

常用场景

经典使用场景

MobA-MobBench数据集在移动设备自动化任务的研究中具有重要应用。该数据集通过模拟真实用户操作，为研究者提供了一个标准化的测试平台，用于评估和优化基于多模态大语言模型的移动助手系统。其经典使用场景包括复杂用户指令的解析、任务规划与执行，以及跨应用界面的无缝操作。

解决学术问题

MobA-MobBench数据集解决了移动助手领域中的多个关键学术问题。首先，它突破了传统系统API依赖的限制，提升了移动助手对复杂指令的理解能力。其次，通过引入两级代理架构，数据集显著增强了任务规划与执行的效率，尤其是在处理多样化界面和未见过任务时表现突出。这些改进为移动自动化技术的发展提供了新的研究方向。

实际应用

在实际应用中，MobA-MobBench数据集为移动助手的开发与优化提供了重要支持。基于该数据集训练的模型能够广泛应用于智能家居、办公自动化、医疗辅助等领域，帮助用户高效完成日常任务。例如，在智能家居场景中，移动助手可以通过解析用户指令，自动控制家电设备，提升生活便利性。

数据集最近研究