PhoneAgentBench
收藏arXiv2025-10-22 更新2025-11-05 收录
下载链接:
https://github.com/OPPO-Mente-Lab/DaMo
下载链接
链接失效反馈官方服务:
资源简介:
PhoneAgentBench是一个针对移动手机场景的多模态任务评估基准,包含1235个问答对,涵盖了多种真实世界的工业移动应用场景。该数据集旨在评估移动手机代理在多模态任务中的性能,包括复杂的任务规划、设备本地工具使用、多模态记忆和屏幕上下文理解等方面。PhoneAgentBench为研究移动手机代理在现实世界应用中的性能提供了有价值的参考。
PhoneAgentBench is a multimodal task evaluation benchmark tailored for mobile phone scenarios, which comprises 1,235 question-answer pairs covering diverse real-world industrial mobile application scenarios. This benchmark is designed to evaluate the performance of mobile AI Agents across multimodal tasks, including complex task planning, on-device tool utilization, multimodal memory, and screen context comprehension. PhoneAgentBench provides a valuable reference for researching the performance of mobile AI Agents in real-world applications.
提供机构:
OPPO AI Center
创建时间:
2025-10-22
搜集汇总
数据集介绍

构建方式
在移动智能体研究领域,构建高质量评估基准对技术发展至关重要。PhoneAgentBench通过严谨的多阶段流程构建:首先从真实工业场景中采集手机界面截图与用户交互数据,随后由专业标注团队基于四类核心能力维度设计任务模板,涵盖复杂任务规划、设备原生工具调用等关键场景。标注过程中采用三重交叉验证机制确保数据准确性,最终形成包含1,235个问答对的标准化测试集,每个样本均经过语义一致性与逻辑完备性验证。
特点
该数据集在移动智能体评估领域展现出独特价值,其核心特征体现在多维能力覆盖与真实场景还原。数据集包含六个专项任务模块,不仅涵盖传统图形界面理解任务,更创新性地整合了多模态记忆、屏幕上下文理解等新兴能力评估。数据样本设计强调复杂交互场景,55%的测试用例需同时激活三个以上能力模块,有效模拟真实移动环境中的复合任务需求。此外,数据集通过精心设计的任务依赖关系与参数传递机制,构建出具有非单调性能曲面的评估体系。
使用方法
作为专业评估工具,该数据集需与标准化测试流程配合使用。研究者在模型微调后,将测试样本输入至待评估的多模态大语言模型,通过比对模型输出与标注答案计算性能指标。评估过程采用任务特异性度量标准:多模态任务规划采用有序动作序列匹配算法,实体识别任务采用F1分数,功能调用则通过精确参数匹配进行评分。为确保结果可靠性,建议在相同超参数配置下进行多次实验,并综合分析各子任务表现以获取模型能力的全面画像。
背景与挑战
背景概述
随着移动智能终端的普及,移动电话代理(MPAs)因其在多样化场景中的广泛应用潜力而成为新兴研究方向。2025年,OPPO人工智能中心的研究团队推出了PhoneAgentBench,这是首个专注于评估多模态大语言模型在移动设备任务中性能的基准数据集。该数据集包含1,235对问答数据,覆盖复杂任务规划、设备原生工具使用、多模态记忆及屏幕上下文理解四大核心能力,旨在解决现有评测基准在真实工业场景覆盖度不足的问题。
当前挑战
PhoneAgentBench面临的挑战主要体现在领域问题与构建过程两方面。在领域层面,需克服移动代理在多任务协同处理中的性能瓶颈,例如模型在同时处理环境感知、工具调用与多模态推理时的效率优化问题。构建过程中,数据采集需平衡真实性与多样性,确保2,350个测试案例能准确模拟实际手机交互;标注环节则需通过多轮交叉验证保证复杂任务依赖关系的准确性,并解决多模态数据对齐与语义一致性维护的技术难点。
常用场景
经典使用场景
在移动智能体研究领域,PhoneAgentBench作为首个专注于多模态手机任务评估的基准,其经典应用场景在于系统化评测多模态大语言模型在复杂移动环境下的综合能力。该数据集通过模拟真实工业场景中的任务规划、工具调用、记忆检索等核心功能,为模型优化提供了标准化测试平台,有效解决了传统基准在移动端多模态交互评估方面的空白。
解决学术问题
该数据集通过构建覆盖任务规划、设备原生工具使用、多模态记忆和屏幕上下文理解的四维评估体系,显著推进了移动智能体领域的关键学术问题研究。其精心设计的1235组问答对有效量化了模型在跨模态任务协同、动态环境适应等方面的性能瓶颈,为数据混合优化算法验证提供了可靠依据,推动了多任务学习理论与工业实践的深度融合。
衍生相关工作
基于该数据集衍生的经典工作包括DaMo数据混合优化框架,其通过神经网络预测下游任务性能的创新方法启发了后续研究。相关成果进一步推动了BFCL-V3、MME等通用基准的演进,并在Qwen2.5VL、InternVL等模型架构中验证了跨模型迁移的有效性,为多模态大语言模型的协同训练范式提供了重要参考。
以上内容由遇见数据集搜集并总结生成



