SPHINX
收藏arXiv2025-01-06 更新2025-01-08 收录
下载链接:
http://arxiv.org/abs/2501.02863v1
下载链接
链接失效反馈官方服务:
资源简介:
SPHINX是一个用于多维度评估移动UI导航的基准数据集,由北京大学和腾讯公司等机构联合开发。该数据集包含284个任务,涵盖了112个流行移动应用的17个类别,旨在评估模型在目标理解、知识规划、基础操作和指令遵循等方面的能力。SPHINX通过自动化的基准测试套件,支持多种输入模态和操作空间,能够对模型进行全面的评估。数据集的应用领域主要集中在移动应用的自动化测试和UI导航,旨在解决现有模型在复杂UI导航任务中的不足,并为未来的研究提供方向。
SPHINX is a benchmark dataset for multidimensional evaluation of mobile UI navigation, jointly developed by Peking University, Tencent and other institutions. This dataset contains 284 tasks covering 112 popular mobile applications across 17 categories, aiming to evaluate models' capabilities in target understanding, knowledge planning, basic operations and instruction following. SPHINX supports multiple input modalities and operation spaces via an automated benchmark testing suite, enabling comprehensive evaluation of models. The application fields of this dataset mainly focus on automated testing of mobile applications and UI navigation, aiming to address the shortcomings of existing models in complex UI navigation tasks and provide directions for future research.
提供机构:
北京大学, 腾讯公司, 魏茨曼科学研究所
创建时间:
2025-01-06
搜集汇总
数据集介绍

构建方式
SPHINX数据集的构建过程分为三个阶段:任务收集、基准套件构建和多维度评估构建。任务收集阶段涵盖了从真实工业实践中提取的测试生成任务和常见任务,确保数据集能够反映实际应用场景的复杂性。基准套件构建阶段引入了自动化工具,支持多种输入模态和操作空间,确保评估过程的鲁棒性和可重复性。多维度评估构建阶段则通过知识探测、知识增强规划和指令遵循等方法,全面评估模型在移动UI导航中的各项能力。
特点
SPHINX数据集的特点在于其多维度的评估机制和自动化基准套件。它不仅评估模型的功能正确性,还通过知识探测、知识增强规划和指令遵循等方法,深入分析模型在目标理解、知识规划、UI内容落地和指令执行等方面的能力。此外,SPHINX涵盖了从真实工业应用中提取的测试生成任务和常见任务,确保了数据集的实用性和广泛适用性。
使用方法
使用SPHINX数据集进行模型评估的步骤包括基准初始化、模型导航、轨迹评估和多维度评估。首先,初始化环境并安装待评估的应用,随后模型根据任务指令自主导航应用。SPHINX记录导航轨迹,并通过手动编写的评估器进行功能正确性评估。最后,SPHINX进行多维度评估,包括知识探测、知识增强规划和指令遵循等,全面分析模型在移动UI导航中的表现。
背景与挑战
背景概述
SPHINX数据集由北京大学、腾讯等机构的研究团队于2025年提出,旨在解决移动用户界面(UI)导航任务中的多维度评估问题。随着移动应用的复杂性增加,传统的基于通过或失败的评估方法已无法满足需求。SPHINX通过引入自动化评估套件和多维度评估工具包,填补了这一空白。该数据集不仅评估模型的功能正确性,还涵盖了目标理解、知识规划、UI内容接地和指令遵循等关键能力。SPHINX的推出为移动UI导航领域的研究提供了新的基准,推动了基于大语言模型和多模态模型的UI导航技术的发展。
当前挑战
SPHINX数据集面临的挑战主要体现在两个方面。首先,移动UI导航任务本身具有高度复杂性,模型需要在理解目标指令的基础上,进行高层次的规划和低层次的操作执行,同时还需应对UI内容的动态变化。现有的模型在这些任务上表现不佳,尤其是在测试生成任务中,所有模型均未能完成任务。其次,数据集的构建过程也面临挑战。由于移动应用的多样性和复杂性,自动化评估套件的设计和实现需要克服环境初始化、UI事件捕捉和评估器设计等技术难题。此外,如何确保评估的鲁棒性和可重复性,尤其是在面对不同设备和应用版本时,也是一个重要的挑战。
常用场景
经典使用场景
SPHINX数据集主要用于评估大型预训练模型在移动用户界面(UI)导航任务中的表现。其经典使用场景包括自动化UI测试、数字助手开发以及基于高级目标指令的UI导航研究。通过提供多维度的评估工具包,SPHINX能够全面评估模型在目标理解、知识规划、UI内容接地和指令跟随等方面的能力,从而为移动应用的可访问性和自动化测试提供支持。
解决学术问题
SPHINX解决了现有移动UI导航基准数据集在功能正确性评估上的局限性,特别是传统数据集仅能通过“通过”或“失败”二元判断来评估模型表现。SPHINX通过引入多维度的评估方法,如基于不变量的验证、知识探测和知识增强生成,能够更全面地评估模型在UI导航中的各个子过程表现。这一创新不仅填补了现有数据集在自动化评估和多维度分析上的空白,还为学术界提供了更精细的模型能力分析工具。
衍生相关工作
SPHINX的推出催生了一系列相关研究工作,特别是在移动UI导航和多模态模型评估领域。例如,基于SPHINX的多维度评估方法,研究者开发了更精细的UI导航模型优化技术,如知识增强规划和指令跟随优化。此外,SPHINX的自动化评估框架也为其他领域的基准测试提供了参考,如网页导航和桌面应用导航。这些衍生工作进一步推动了UI导航技术的进步,并为未来的研究提供了新的方向。
以上内容由遇见数据集搜集并总结生成



