five

Android Instruct|Android自主代理数据集|移动操作系统数据集

收藏
arXiv2024-11-04 更新2024-11-02 收录
Android自主代理
移动操作系统
下载链接:
https://github.com/THUDM/Android-Lab
下载链接
链接失效反馈
资源简介:
Android Instruct数据集由清华大学开发,旨在为Android自主代理的训练和评估提供支持。该数据集包含94300条操作记录,涵盖了138个任务,涉及9个不同的应用程序。数据集通过在线标注工具收集,确保了操作记录的多样性和准确性。创建过程中,数据集结合了XML和SoM模式,支持文本和多模态模型的训练。该数据集主要应用于提升Android自主代理的操作准确性和效率,旨在解决现有基准测试中缺乏系统性和多样性的问题。
提供机构:
清华大学
创建时间:
2024-10-31
原始信息汇总

AndroidLab: 训练和系统化基准测试Android自主代理

数据集概述

  • 名称: AndroidLab
  • 描述: AndroidLab是一个系统化的Android代理框架,包含操作环境和可复现的基准测试。基准测试包括预定义的Android虚拟设备和基于这些设备的138个任务,涵盖九个应用程序。

基准测试组件

  • 应用列表:
    • Bluecoins: 个人财务管理应用,用于跟踪支出和收入。
    • Calendar: 日历应用,帮助组织日程和设置提醒。
    • Cantook: 电子书阅读器,用于存储、管理和阅读电子书。
    • Clock: 时钟应用,用于显示时间、设置闹钟和使用秒表。
    • Contacts: 联系人管理应用,用于存储和组织联系信息。
    • Maps.me: 离线地图应用,用于导航和探索地点。
    • PiMusic: 音乐播放器应用,用于组织和播放本地存储的音乐文件。
    • Settings: 设置应用,用于配置设备设置和偏好。
    • Zoom: 视频会议应用,用于主持和加入在线会议。

快速开始

  • 环境设置:
    • Mac (arm64): 参考这里设置环境。
    • Linux (x86_64): 参考这里设置环境。
  • 自动评估管道:
    • 运行评估: bash python eval.py -n test_name -c your path to config.yaml

    • 并行测试: bash python eval.py -n test_name -c your path to config.yaml -p 3

    • 生成评估结果: bash python generate_result.py --input_folder ./logs/evaluation/ --output_folder ./logs/evaluation/ --output_excel ./logs/evaluation/test_name.xlsx --judge_model gpt-4o-2024-05-13

引用

@misc{xu2024androidlabtrainingsystematicbenchmarking, title={AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents}, author={Yifan Xu and Xiao Liu and Xueqiao Sun and Siyi Cheng and Hao Yu and Hanyu Lai and Shudan Zhang and Dan Zhang and Jie Tang and Yuxiao Dong}, year={2024}, eprint={2410.24024}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2410.24024}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Android Instruct数据集的构建基于ANDROIDLAB框架,该框架包含一个标准操作环境和可复现的基准测试。数据集通过在线标注工具收集,共收集了10.5k条轨迹和94.3k个步骤,其中6208个步骤来自ANDROIDLAB基准测试中包含的应用程序。数据集包括任务、手机屏幕状态、XML信息和操作,用于微调六个文本和多模态模型。
使用方法
Android Instruct数据集主要用于微调大型语言模型(LLMs)和多模态模型(LMMs),以提升其在Android设备上的自主操作能力。使用该数据集进行微调后,模型的平均成功率显著提升,从4.59%提高到21.50%(LLMs)和从1.93%提高到13.28%(LMMs)。数据集的详细使用方法包括任务分解、操作记录和交叉验证,确保了训练数据的准确性和完整性。
背景与挑战
背景概述
随着自主代理在现实世界中的交互变得越来越重要,Android代理作为一种新兴的交互方式受到了广泛关注。然而,现有的Android代理训练和评估研究在开源和闭源模型方面缺乏系统性探索。为此,清华大学和北京大学的一组研究人员于2024年提出了ANDROIDLAB框架,这是一个系统的Android代理评估和训练平台。该框架包括一个多模态的操作环境、动作空间和一个可重复的基准测试,支持大型语言模型(LLMs)和多模态模型(LMMs)在同一动作空间中的应用。ANDROIDLAB基准测试包含预定义的Android虚拟设备和138个跨九个应用的任务,通过使用ANDROIDLAB环境,研究人员开发了Android Instruct数据集,并训练了六个开源LLMs和LMMs,显著提高了这些模型的平均成功率。
当前挑战
Android Instruct数据集在构建过程中面临多个挑战。首先,解决领域问题的挑战在于如何有效地训练和评估Android代理,特别是在开源和闭源模型之间进行系统性比较。其次,构建过程中遇到的挑战包括如何确保数据集的多样性和代表性,以及如何处理不同模态(如文本和图像)的整合问题。此外,确保数据集的可重复性和减少外部依赖性也是一大挑战。最后,如何通过数据集的训练提升开源模型的性能,使其接近或超越闭源模型的表现,是当前研究的一个重要方向。
常用场景
经典使用场景
Android Instruct数据集在训练和评估Android自主代理方面展现了其经典应用场景。通过提供丰富的操作环境和多模态模型支持,该数据集使得研究人员能够在统一的行动空间内对大型语言模型(LLMs)和多模态模型(LMMs)进行系统性基准测试。具体而言,数据集包含了138个任务,涵盖了九个不同的应用程序,这些任务通过Android虚拟设备进行预加载,确保了测试的可重复性和外部依赖的消除。
解决学术问题
Android Instruct数据集解决了现有研究在训练和评估Android代理时缺乏系统性探索的问题。通过提供一个包含操作环境和可重复基准的框架,该数据集使得研究人员能够对开源和闭源模型进行公平比较。此外,数据集通过引入逆冗余和合理操作等新指标,提升了任务完成评估的精确性,从而推动了移动代理领域的学术研究进展。
实际应用
在实际应用中,Android Instruct数据集被广泛用于微调开源模型,以提高其在移动操作系统中的自主操作能力。通过使用该数据集,模型在执行复杂任务时的成功率和操作效率显著提升,从而在个人财务管理、日程安排、导航等多个应用场景中展现出实际价值。此外,数据集的开放性也促进了更多实际应用的开发和优化。
数据集最近研究
最新研究方向
近年来,Android Instruct数据集在自主移动代理的训练和评估中引起了广泛关注。最新研究方向主要集中在利用大型语言模型(LLMs)和多模态模型(LMMs)来提升Android代理的性能。通过引入ANDROIDLAB框架,研究者们设计了一个包含多种操作模式和可重复基准测试的环境,支持LLMs和LMMs在同一操作空间中的应用。该框架不仅提供了预定义的Android虚拟设备和138个跨九个应用的任务,还通过使用ANDROIDLAB环境,开发了Android Instruct数据集,显著提高了开源LLMs和LMMs的成功率。此外,研究还探讨了通过更复杂的推理框架来增强移动代理性能的可能性,尽管这可能会增加推理时间。未来研究可能集中在通过微调小规模开源模型来缩小与闭源模型性能的差距,从而提升移动代理的可访问性。
相关研究论文
  • 1
    AndroidLab: Training and Systematic Benchmarking of Android Autonomous Agents清华大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

NASA Langley Research Center Turbulence Modeling Resource

该数据集包含用于湍流建模的计算流体动力学(CFD)基准测试案例,涵盖了多种几何形状和流动条件。数据集提供了详细的网格、边界条件、流场解和实验数据,用于验证和开发湍流模型。

turbmodels.larc.nasa.gov 收录

NAICS 2022 (North American Industry Classification System)

**NAICS 2022 (North American Industry Classification System)** **Overview** This is a free dataset of Data LV's North American Industry Classification System (NAICS). This dataset contains the full information about NAICS on USA, Canada and Mexico. The North American Industry Classification System (NAICS) is an industry classification system developed by the statistical agencies of the United States, Canada and Mexico. Created against the background of the North American Free Trade Agreement, it is designed to provide common definitions of the industrial structure of the three countries and a common statistical framework to facilitate the analysis of the three economies. NAICS is based on supply-side or production-oriented principles, to ensure that industrial data, classified to NAICS, are suitable for the analysis of production-related issues such as industrial performance. The great advantage of this dataset compared to other available is that it has all the codes, even if the code is defined by the statistical agency of only one country, and it has the information in **English, French and Spanish**. **Use cases** - Market Segmentation and Analysis - Risk Assessment and Credit Scoring - Customer Profiling and Personalization - Competitor Analysis - Economic Impact and Industry Analysis - Supply Chain Optimization - Regulatory and Compliance Analysis - Data Enrichment for Machine Learning Models - Investment and Portfolio Management **Product details** This share contains the following datasets: - **NAICS_AllCodes**: All the codes defined by any of the national statistical agencies with the title and description in English, French and Spanish. - **CanadianIndustry_Element_EN**: Table containing the elements included or excluded in the different Canadian Sectors, Subsectors, Industry groups and Industries, in English. - **CanadianIndustry_Element_FR**: Table containing the elements included or excluded in the different Canadian Sectors, Subsectors, Industry groups and Industries, in French. - **MexicanIndustry_Element_ES**: Table containing the elements included in the different Mexican Industries, in Spanish. - **Mexico_Included_Excluded_ES**: Table containing the elements included and excluded in the different Mexican Sectors, Subsectors, Industry groups and Industries, in Spanish. **Additional information:** For more details, refer to the embedded notebook. **Additional Insights** For support, please contact support@datalv.io for full product licensing information. For full product licensing information, please contact databricks@datalv.io

Databricks 收录

Digital Typhoon

Digital Typhoon数据集是由日本国立情报学研究所创建的,包含自1978年至2022年共44个台风季节的189,364张卫星图像。该数据集旨在为机器学习模型提供长期时空数据基准,特别适用于深度学习模型的分类和回归任务。数据集通过Lambert等面积投影技术处理,确保图像质量,并解决了传感器噪声、数据缺失和长期传感器校准等数据质量问题。该数据集的应用领域包括气象分析、社会影响评估和气候变化研究,旨在通过机器学习技术提升对台风活动的理解和预测,从而减少灾害风险和应对气候变化。

arXiv 收录