Mobile-Bench|移动代理数据集|自然语言处理数据集

arXiv2024-07-01 更新2024-07-04 收录

移动代理

自然语言处理

下载链接：

https://github.com/XiaoMi/MobileBench

下载链接

链接失效反馈

资源简介：

Mobile-Bench数据集由电子科技大学、高瓴人工智能学院、人民大学和小米AI实验室联合创建，旨在评估基于大型语言模型（LLM）的移动代理能力。该数据集包含832条数据，涵盖多种任务类型，包括单应用单任务（SAST）、单应用多任务（SAMT）和多应用多任务（MAMT），特别设计用于评估多应用协作场景。数据集的创建过程中，结合了真实用户查询和LLM增强数据，确保了数据的质量和多样性。Mobile-Bench数据集主要应用于人机交互领域，特别是移动设备上的自然语言处理任务，旨在提升移动代理的规划和决策能力。

提供机构：

电子科技大学，高瓴人工智能学院，人民大学，小米AI实验室

创建时间：

2024-07-01

AI搜集汇总

数据集介绍

构建方式

Mobile-Bench数据集的构建融合了真实的用户查询与LLMs增强的数据，以模拟典型的移动环境。数据集被分为三个不同的组：SAST、SAMT和MAMT，分别对应不同级别的任务复杂性。为了提高任务完成的效率，数据集引入了103个收集的API，这些API可以加速任务完成的过程。数据集中的任务均从移动设备的HOME页面开始，模拟真实的使用场景。

特点

Mobile-Bench数据集的特点在于其包含了多APP协作场景下的任务，这些任务从移动设备的HOME页面开始，更贴近真实的使用场景。此外，数据集还引入了名为CheckPoint的更准确的评估指标，用于评估LLM-based移动代理在规划和推理步骤中是否达到了关键点。数据集涵盖了29个应用程序和103个可用的API，这些API主要服务于系统调用、页面切换、查看详情、搜索和设备开关控制等功能。

使用方法

使用Mobile-Bench数据集的方法包括构建自己的评估数据，并遵循规定的评估方法。用户可以通过一系列命令与测试环境进行交互，包括启动、停止、关闭、检查和重置等。数据集提供了详细的API和应用程序列表，以及相应的HTML元素描述，以便于LLMs进行交互。用户还可以通过GPT-4等LLMs生成指令，并根据指令完成相应的任务。

背景与挑战

背景概述

随着大型语言模型（LLM）的显著进步，基于LLM的代理已成为人机交互领域的研究热点。然而，目前缺乏用于评估基于LLM的移动代理的基准。Mobile-Bench是一个用于评估基于LLM的移动代理能力的基准数据集，由小米人工智能实验室的研究人员提出。该数据集的创建旨在解决移动代理在任务评估、多维度推理和决策能力评估以及顺序动作评估方面的挑战。Mobile-Bench包含832个数据条目，超过200个任务专门设计用于评估多应用程序协作场景。数据集和平台可在https://github.com/XiaoMi/MobileBench获得。

当前挑战

Mobile-Bench数据集面临的挑战包括：1) 仅通过UI操作的低效性限制了任务评估；2) 单个应用程序中的特定指令不足以评估LLM移动代理的多维度推理和决策能力；3) 当前评估指标不足以准确评估顺序动作的过程。为了解决这些问题，Mobile-Bench通过纳入103个收集的API来扩展传统的UI操作，以提高任务完成的效率。此外，Mobile-Bench还引入了一个更准确的评估指标，名为CheckPoint，用于评估LLM-based移动代理在其规划和推理步骤中是否达到关键点。

常用场景

经典使用场景

Mobile-Bench数据集旨在评估基于大型语言模型（LLM）的移动代理的能力。它通过结合用户界面（UI）操作和应用程序编程接口（API）调用，提供了对移动代理多维度推理和决策能力的高效评估。该数据集涵盖了从简单到复杂的任务，包括单应用单任务（SAST）、单应用多任务（SAMT）和多应用多任务（MAMT），以模拟现实世界中的移动设备使用场景。

实际应用

Mobile-Bench数据集的实际应用场景包括移动设备的人机交互、自动化测试和移动应用的智能化。它可以用于开发能够理解和执行用户自然语言指令的移动代理，从而提高移动设备的易用性和用户体验。此外，该数据集还可以用于自动化测试，确保移动应用的稳定性和可靠性。

衍生相关工作

Mobile-Bench数据集衍生了多项相关工作，包括AndroidEnv、MobileEnv和WebShop等移动平台，以及RICO、Screen2Vec等LLM代理性能评估框架。这些工作共同推动了LLM-based移动代理的研究和应用，为移动设备的人机交互提供了新的可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建，包含5686张图像和45578个标签，重点关注六种行为：举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景，通过YOLOv5、YOLOv7和YOLOv8算法评估，平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础，解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

CatMeows

该数据集包含440个声音样本，由21只属于两个品种（缅因州库恩猫和欧洲短毛猫）的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定，包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外，还有一个额外的zip文件，包含被排除的录音（非喵声）和未剪辑的连续发声序列。

huggingface 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据，包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情，支持职业规划和薪资谈判。