SPA-BENCH

github2024-10-29 更新2024-11-28 收录

下载链接：

https://github.com/ai-agents-2030/SPA-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

SPA-BENCH是一个用于评估智能手机代理性能的综合基准，包含了300个单应用任务和40个跨应用任务，涵盖66个应用，包括52个第三方应用、7个Google应用和7个系统应用。数据集分为3种难度级别，支持中文和英文应用，并包含人类注释的轨迹和关键组件。

SPA-BENCH is a comprehensive benchmark for evaluating the performance of smartphone agents. It consists of 300 single-application tasks and 40 cross-application tasks, covering 66 applications in total, including 52 third-party applications, 7 Google applications, and 7 system applications. The dataset is divided into three difficulty levels, supports both Chinese and English applications, and includes human-annotated execution trajectories and key components.

创建时间：

2024-10-29

原始信息汇总

SPA-Bench: A Comprehensive Benchmark for Smartphone Agent Evaluation

数据集概述

SPA-BENCH 是一个用于评估智能手机代理性能的综合基准。该基准提供了一个结构化的方法来评估智能手机代理在各种场景和条件下的效率、鲁棒性和准确性。

主要组成部分

任务集合

任务数量: 300个单应用任务和40个跨应用任务
应用数量: 66个应用，包括52个第三方应用、7个Google应用和7个系统应用
难度级别: 3个难度级别
语言支持: 中文和英文应用
标注信息: 人工标注的轨迹和关键组件

即插即用代理框架

代理数量: 11个智能手机代理
集成便捷性: 易于集成自定义代理，代码改动最小
可扩展设计: 多设备支持和模拟器兼容性
环境设置: Android快照，本地环境设置和数据重置以确保一致性测试

自动评估管道

评估指标: 7个评估指标，提供全面分析
成功检测: 粗粒度和细粒度成功检测，无需额外人工努力
轨迹分割与子任务评估: 适用于长序列任务
性能指标:
- 单应用任务: F1-scores: 0.926 (English), 0.884 (Chinese)
- 跨应用任务: F1-scores: 0.833 (English), 0.857 (Chinese)

即将推出

源代码和详细文档将在未来发布。

搜集汇总

数据集介绍

构建方式

SPA-BENCH数据集的构建基于对智能手机代理性能的全面评估需求，精心设计了包含300个单应用任务和40个跨应用任务的多样化任务集合。这些任务涵盖了66个应用，包括52个第三方应用、7个谷歌应用和7个系统应用，并设置了三个难度级别。此外，数据集还支持中英文两种语言，确保了评估的广泛性和实用性。通过人工注释的轨迹和关键组件，SPA-BENCH确保了数据的高质量和真实性，为智能手机代理的评估提供了坚实的基础。

特点

SPA-BENCH数据集的显著特点在于其全面性和灵活性。它不仅包含了丰富的任务类型和应用场景，还提供了11个预设的智能手机代理，便于快速集成和评估。数据集的设计支持多设备和模拟器兼容，确保了测试环境的一致性和可重复性。此外，SPA-BENCH还引入了7种评估指标，包括粗粒度和细粒度的成功检测，以及轨迹分割和子任务评估，使得评估过程更加细致和全面。

使用方法

使用SPA-BENCH数据集进行评估时，用户可以轻松集成自己的智能手机代理，仅需进行少量的代码修改。数据集提供了详细的文档和本地环境设置指南，确保用户能够快速上手。通过自动化的评估管道，用户可以高效地进行多任务和跨应用的性能测试，并获得包括F1分数在内的多种性能指标。未来，SPA-BENCH还将提供更多源代码和详细文档，进一步简化使用流程，提升用户体验。

背景与挑战

背景概述

SPA-BENCH，一个全面评估智能手机代理性能的综合基准，由知名研究机构于近期推出。该数据集旨在通过一系列精心设计的任务和评估指标，系统地评估智能手机代理在多种应用场景中的效率、鲁棒性和准确性。SPA-BENCH不仅涵盖了300个单应用任务和40个跨应用任务，还涉及66个应用程序，包括52个第三方应用、7个谷歌应用和7个系统应用。此外，该基准还支持中英文两种语言的应用评估，并提供了详细的人工标注轨迹和关键组件，以确保评估的全面性和准确性。SPA-BENCH的推出，标志着智能手机代理评估领域的一个重要里程碑，为相关研究提供了强有力的工具和数据支持。

当前挑战

尽管SPA-BENCH在智能手机代理评估领域取得了显著进展，但其构建和应用过程中仍面临诸多挑战。首先，跨应用任务的复杂性要求代理具备高度的适应性和鲁棒性，这对现有技术提出了严峻考验。其次，多语言支持虽然扩展了评估范围，但也增加了数据标注和处理的难度。此外，自动评估管道的构建需要精确的算法和高效的计算资源，以确保评估结果的准确性和一致性。最后，随着智能手机应用的快速更新和多样化，如何持续更新和扩展SPA-BENCH的任务库，以保持其时效性和广泛适用性，也是一个亟待解决的问题。

常用场景

经典使用场景

SPA-BENCH数据集的经典使用场景主要集中在智能手机代理的性能评估上。该数据集通过提供300个单应用任务和40个跨应用任务，涵盖了66个应用，包括52个第三方应用、7个谷歌应用和7个系统应用，全面模拟了智能手机在实际使用中的复杂环境。此外，数据集还支持中英文应用的评估，确保了其广泛适用性。通过这些丰富的任务集合，研究者和开发者能够系统地评估智能手机代理在不同难度级别和语言环境下的表现，从而优化和提升代理的效率和鲁棒性。

衍生相关工作

SPA-BENCH数据集的发布催生了多项相关研究工作。首先，基于该数据集的评估框架，研究者们开发了多种新型智能手机代理，这些代理在任务完成效率和鲁棒性上均有显著提升。其次，SPA-BENCH的多语言支持和跨应用任务设计，激发了关于多语言智能代理和跨应用协同工作的研究，推动了智能手机代理在多语言环境下的应用和发展。此外，该数据集的自动评估管道和成功检测机制，也为自动化评估工具的开发提供了新的思路和方法，促进了评估技术的进步。

数据集最近研究