Android Instruct

Name: Android Instruct
Creator: 清华大学
Published: 2024-11-04 13:57:31
License: 暂无描述

arXiv2024-11-04 更新2024-11-02 收录

下载链接：

https://github.com/THUDM/Android-Lab

下载链接

链接失效反馈

官方服务：

资源简介：

Android Instruct数据集由清华大学开发，旨在为Android自主代理的训练和评估提供支持。该数据集包含94300条操作记录，涵盖了138个任务，涉及9个不同的应用程序。数据集通过在线标注工具收集，确保了操作记录的多样性和准确性。创建过程中，数据集结合了XML和SoM模式，支持文本和多模态模型的训练。该数据集主要应用于提升Android自主代理的操作准确性和效率，旨在解决现有基准测试中缺乏系统性和多样性的问题。

The Android Instruct dataset, developed by Tsinghua University, is designed to support the training and evaluation of Android autonomous agents. This dataset contains 94,300 operation records, covering 138 tasks across 9 distinct applications. Collected via an online annotation tool, it ensures the diversity and accuracy of the operation records. During its development, the dataset integrates XML and SoM modes, supporting the training of both textual and multimodal models. Primarily applied to improve the operation accuracy and efficiency of Android autonomous agents, this dataset aims to address the lack of systematicity and diversity in existing benchmark tests.

提供机构：

清华大学

创建时间：

2024-10-31

原始信息汇总

AndroidLab: 训练和系统化基准测试Android自主代理

数据集概述

名称: AndroidLab
描述: AndroidLab是一个系统化的Android代理框架，包含操作环境和可复现的基准测试。基准测试包括预定义的Android虚拟设备和基于这些设备的138个任务，涵盖九个应用程序。

基准测试组件

应用列表:
- Bluecoins: 个人财务管理应用，用于跟踪支出和收入。
- Calendar: 日历应用，帮助组织日程和设置提醒。
- Cantook: 电子书阅读器，用于存储、管理和阅读电子书。
- Clock: 时钟应用，用于显示时间、设置闹钟和使用秒表。
- Contacts: 联系人管理应用，用于存储和组织联系信息。
- Maps.me: 离线地图应用，用于导航和探索地点。
- PiMusic: 音乐播放器应用，用于组织和播放本地存储的音乐文件。
- Settings: 设置应用，用于配置设备设置和偏好。
- Zoom: 视频会议应用，用于主持和加入在线会议。

快速开始

环境设置:
- Mac (arm64): 参考这里设置环境。
- Linux (x86_64): 参考这里设置环境。
自动评估管道:
- 运行评估: bash python eval.py -n test_name -c your path to config.yaml
- 并行测试: bash python eval.py -n test_name -c your path to config.yaml -p 3
- 生成评估结果: bash python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel ./logs/evaluation/test_name.xlsx --judge_model gpt-4o-2024-05-13

引用

@misc{xu2024androidlabtrainingsystematicbenchmarking, title={AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents}, author={Yifan Xu and Xiao Liu and Xueqiao Sun and Siyi Cheng and Hao Yu and Hanyu Lai and Shudan Zhang and Dan Zhang and Jie Tang and Yuxiao Dong}, year={2024}, eprint={2410.24024}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.24024}, }

搜集汇总

数据集介绍

构建方式

Android Instruct数据集的构建基于ANDROIDLAB框架，该框架包含一个标准操作环境和可复现的基准测试。数据集通过在线标注工具收集，共收集了10.5k条轨迹和94.3k个步骤，其中6208个步骤来自ANDROIDLAB基准测试中包含的应用程序。数据集包括任务、手机屏幕状态、XML信息和操作，用于微调六个文本和多模态模型。

使用方法

Android Instruct数据集主要用于微调大型语言模型（LLMs）和多模态模型（LMMs），以提升其在Android设备上的自主操作能力。使用该数据集进行微调后，模型的平均成功率显著提升，从4.59%提高到21.50%（LLMs）和从1.93%提高到13.28%（LMMs）。数据集的详细使用方法包括任务分解、操作记录和交叉验证，确保了训练数据的准确性和完整性。

背景与挑战

背景概述

随着自主代理在现实世界中的交互变得越来越重要，Android代理作为一种新兴的交互方式受到了广泛关注。然而，现有的Android代理训练和评估研究在开源和闭源模型方面缺乏系统性探索。为此，清华大学和北京大学的一组研究人员于2024年提出了ANDROIDLAB框架，这是一个系统的Android代理评估和训练平台。该框架包括一个多模态的操作环境、动作空间和一个可重复的基准测试，支持大型语言模型（LLMs）和多模态模型（LMMs）在同一动作空间中的应用。ANDROIDLAB基准测试包含预定义的Android虚拟设备和138个跨九个应用的任务，通过使用ANDROIDLAB环境，研究人员开发了Android Instruct数据集，并训练了六个开源LLMs和LMMs，显著提高了这些模型的平均成功率。

当前挑战

Android Instruct数据集在构建过程中面临多个挑战。首先，解决领域问题的挑战在于如何有效地训练和评估Android代理，特别是在开源和闭源模型之间进行系统性比较。其次，构建过程中遇到的挑战包括如何确保数据集的多样性和代表性，以及如何处理不同模态（如文本和图像）的整合问题。此外，确保数据集的可重复性和减少外部依赖性也是一大挑战。最后，如何通过数据集的训练提升开源模型的性能，使其接近或超越闭源模型的表现，是当前研究的一个重要方向。

常用场景

经典使用场景

Android Instruct数据集在训练和评估Android自主代理方面展现了其经典应用场景。通过提供丰富的操作环境和多模态模型支持，该数据集使得研究人员能够在统一的行动空间内对大型语言模型（LLMs）和多模态模型（LMMs）进行系统性基准测试。具体而言，数据集包含了138个任务，涵盖了九个不同的应用程序，这些任务通过Android虚拟设备进行预加载，确保了测试的可重复性和外部依赖的消除。

解决学术问题

Android Instruct数据集解决了现有研究在训练和评估Android代理时缺乏系统性探索的问题。通过提供一个包含操作环境和可重复基准的框架，该数据集使得研究人员能够对开源和闭源模型进行公平比较。此外，数据集通过引入逆冗余和合理操作等新指标，提升了任务完成评估的精确性，从而推动了移动代理领域的学术研究进展。

实际应用

在实际应用中，Android Instruct数据集被广泛用于微调开源模型，以提高其在移动操作系统中的自主操作能力。通过使用该数据集，模型在执行复杂任务时的成功率和操作效率显著提升，从而在个人财务管理、日程安排、导航等多个应用场景中展现出实际价值。此外，数据集的开放性也促进了更多实际应用的开发和优化。

数据集最近研究

相关研究论文

1
AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents清华大学 · 2024年

以上内容由遇见数据集搜集并总结生成

CMAB

CMAB数据集由清华大学创建，是中国首个全国范围的多属性建筑数据集，涵盖了3667个自然城市，总面积达213亿平方米。该数据集通过集成多源数据，如高分辨率Google Earth影像和街景图像，生成了建筑的屋顶、高度、功能、年龄和质量等属性。数据集的创建过程结合了地理人工智能框架和机器学习模型，确保了数据的高准确性。CMAB数据集主要应用于城市规划和可持续发展研究，旨在提供详细的城市3D物理和社会

arXiv2024-08-12 更新21190

EVBattery

EVBattery数据集是由清华大学等多个研究机构联合创建的大型电动汽车电池数据集，包含来自三家制造商的数百辆电动汽车的充电记录。数据集涵盖了数年的充电数据，包括电压、电流、温度等关键参数，旨在支持电池健康和容量估计的研究。该数据集不仅用于深度学习算法的开发和评估，还用于电池系统健康检测和容量估计，以推动电动汽车性能、安全性和可持续性的研究。

arXiv2023-11-02 更新9380

Qilin

Qilin数据集是由清华大学和小红书公司合作创建的多模态信息检索数据集。该数据集包含来自小红书平台上超过3000万月活跃用户的APP级信息发现会话，涵盖了搜索、DQA（深度查询回答）和推荐等多种场景。Qilin特色在于收集了丰富的APP级上下文信号和真实用户反馈，有助于深入分析用户状态转换、回访和查询重构等行为，以建模用户满意度和长期留存。数据集中的用户会话包含文本和图像内容，适用于多种检索场景下

arXiv2025-03-01 更新8900

MIntRec2.0

MIntRec2.0是由清华大学创建的大规模多模态意图识别基准数据集，包含1,245个高质量对话，总计15,040个样本，涵盖文本、视频和音频模态。数据集不仅包含超过9,300个范围内样本，还包括超过5,700个多轮对话中自然出现的范围外样本，增强了其实际应用性。数据集创建过程中，首先收集了三个电视剧的原始视频，并根据时间戳分割成话语级别的片段，然后手动将这些片段分组成对话，以匹配对话场景和事件。

arXiv2024-03-20 更新11210

EmbodiedCity

EmbodiedCity是由清华大学构建的一个用于评估具身智能在真实城市环境中表现的基准平台。该数据集基于北京市的一个商业区，构建了高度逼真的3D模拟环境，包含真实的街道、建筑、城市元素、行人和交通流量。数据集结合了历史收集的真实世界交通数据和模拟算法，模拟了行人和车辆的流动。数据集创建过程中，详细构建了城市建筑的3D模型，并提供了完整的输入输出接口，使具身智能代理能够轻松获取任务需求和环境观察，

arXiv2024-10-13 更新9361