Mobile-Bench

Name: Mobile-Bench
Creator: 电子科技大学，高瓴人工智能学院，人民大学，小米AI实验室
Published: 2024-07-01 14:10:01
License: 暂无描述

arXiv2024-07-01 更新2024-07-04 收录

下载链接：

https://github.com/XiaoMi/MobileBench

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile-Bench数据集由电子科技大学、高瓴人工智能学院、人民大学和小米AI实验室联合创建，旨在评估基于大型语言模型（LLM）的移动代理能力。该数据集包含832条数据，涵盖多种任务类型，包括单应用单任务（SAST）、单应用多任务（SAMT）和多应用多任务（MAMT），特别设计用于评估多应用协作场景。数据集的创建过程中，结合了真实用户查询和LLM增强数据，确保了数据的质量和多样性。Mobile-Bench数据集主要应用于人机交互领域，特别是移动设备上的自然语言处理任务，旨在提升移动代理的规划和决策能力。

The Mobile-Bench dataset was jointly developed by the University of Electronic Science and Technology of China, Gaoling School of Artificial Intelligence, Renmin University of China, and Xiaomi AI Lab. It aims to evaluate the mobile agent capabilities based on Large Language Models (LLMs). The dataset contains 832 instances, covering multiple task categories including Single-App Single-Task (SAST), Single-App Multi-Task (SAMT), and Multi-App Multi-Task (MAMT), and is specifically designed for evaluating multi-app collaboration scenarios. During its construction, real user queries and LLM-augmented data were combined to ensure the quality and diversity of the dataset. The Mobile-Bench dataset is primarily utilized in the field of human-computer interaction, particularly for natural language processing tasks on mobile devices, with the objective of improving the planning and decision-making abilities of mobile agents.

提供机构：

电子科技大学，高瓴人工智能学院，人民大学，小米AI实验室

创建时间：

2024-07-01

搜集汇总

数据集介绍

构建方式

Mobile-Bench数据集的构建融合了真实的用户查询与LLMs增强的数据，以模拟典型的移动环境。数据集被分为三个不同的组：SAST、SAMT和MAMT，分别对应不同级别的任务复杂性。为了提高任务完成的效率，数据集引入了103个收集的API，这些API可以加速任务完成的过程。数据集中的任务均从移动设备的HOME页面开始，模拟真实的使用场景。

特点

Mobile-Bench数据集的特点在于其包含了多APP协作场景下的任务，这些任务从移动设备的HOME页面开始，更贴近真实的使用场景。此外，数据集还引入了名为CheckPoint的更准确的评估指标，用于评估LLM-based移动代理在规划和推理步骤中是否达到了关键点。数据集涵盖了29个应用程序和103个可用的API，这些API主要服务于系统调用、页面切换、查看详情、搜索和设备开关控制等功能。

使用方法

使用Mobile-Bench数据集的方法包括构建自己的评估数据，并遵循规定的评估方法。用户可以通过一系列命令与测试环境进行交互，包括启动、停止、关闭、检查和重置等。数据集提供了详细的API和应用程序列表，以及相应的HTML元素描述，以便于LLMs进行交互。用户还可以通过GPT-4等LLMs生成指令，并根据指令完成相应的任务。

背景与挑战

背景概述

随着大型语言模型（LLM）的显著进步，基于LLM的代理已成为人机交互领域的研究热点。然而，目前缺乏用于评估基于LLM的移动代理的基准。Mobile-Bench是一个用于评估基于LLM的移动代理能力的基准数据集，由小米人工智能实验室的研究人员提出。该数据集的创建旨在解决移动代理在任务评估、多维度推理和决策能力评估以及顺序动作评估方面的挑战。Mobile-Bench包含832个数据条目，超过200个任务专门设计用于评估多应用程序协作场景。数据集和平台可在https://github.com/XiaoMi/MobileBench获得。

当前挑战

Mobile-Bench数据集面临的挑战包括：1) 仅通过UI操作的低效性限制了任务评估；2) 单个应用程序中的特定指令不足以评估LLM移动代理的多维度推理和决策能力；3) 当前评估指标不足以准确评估顺序动作的过程。为了解决这些问题，Mobile-Bench通过纳入103个收集的API来扩展传统的UI操作，以提高任务完成的效率。此外，Mobile-Bench还引入了一个更准确的评估指标，名为CheckPoint，用于评估LLM-based移动代理在其规划和推理步骤中是否达到关键点。

常用场景

经典使用场景

Mobile-Bench数据集旨在评估基于大型语言模型（LLM）的移动代理的能力。它通过结合用户界面（UI）操作和应用程序编程接口（API）调用，提供了对移动代理多维度推理和决策能力的高效评估。该数据集涵盖了从简单到复杂的任务，包括单应用单任务（SAST）、单应用多任务（SAMT）和多应用多任务（MAMT），以模拟现实世界中的移动设备使用场景。

实际应用

Mobile-Bench数据集的实际应用场景包括移动设备的人机交互、自动化测试和移动应用的智能化。它可以用于开发能够理解和执行用户自然语言指令的移动代理，从而提高移动设备的易用性和用户体验。此外，该数据集还可以用于自动化测试，确保移动应用的稳定性和可靠性。

衍生相关工作

Mobile-Bench数据集衍生了多项相关工作，包括AndroidEnv、MobileEnv和WebShop等移动平台，以及RICO、Screen2Vec等LLM代理性能评估框架。这些工作共同推动了LLM-based移动代理的研究和应用，为移动设备的人机交互提供了新的可能性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集