Android Instruct|Android自主代理数据集|移动操作系统数据集
收藏AndroidLab: 训练和系统化基准测试Android自主代理
数据集概述
- 名称: AndroidLab
- 描述: AndroidLab是一个系统化的Android代理框架,包含操作环境和可复现的基准测试。基准测试包括预定义的Android虚拟设备和基于这些设备的138个任务,涵盖九个应用程序。
基准测试组件
- 应用列表:
- Bluecoins: 个人财务管理应用,用于跟踪支出和收入。
- Calendar: 日历应用,帮助组织日程和设置提醒。
- Cantook: 电子书阅读器,用于存储、管理和阅读电子书。
- Clock: 时钟应用,用于显示时间、设置闹钟和使用秒表。
- Contacts: 联系人管理应用,用于存储和组织联系信息。
- Maps.me: 离线地图应用,用于导航和探索地点。
- PiMusic: 音乐播放器应用,用于组织和播放本地存储的音乐文件。
- Settings: 设置应用,用于配置设备设置和偏好。
- Zoom: 视频会议应用,用于主持和加入在线会议。
快速开始
- 环境设置:
- 自动评估管道:
-
运行评估: bash python eval.py -n test_name -c your path to config.yaml
-
并行测试: bash python eval.py -n test_name -c your path to config.yaml -p 3
-
生成评估结果: bash python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel ./logs/evaluation/test_name.xlsx --judge_model gpt-4o-2024-05-13
-
引用
@misc{xu2024androidlabtrainingsystematicbenchmarking, title={AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents}, author={Yifan Xu and Xiao Liu and Xueqiao Sun and Siyi Cheng and Hao Yu and Hanyu Lai and Shudan Zhang and Dan Zhang and Jie Tang and Yuxiao Dong}, year={2024}, eprint={2410.24024}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.24024}, }

- 1AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents清华大学 · 2024年



