Android in the Wild

github2024-10-10 更新2024-10-11 收录

下载链接：

https://github.com/aialt/awesome-mobile-agents

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于Android设备控制的大规模数据集

A large-scale dataset for Android device control

创建时间：

2024-09-19

原始信息汇总

数据集概述

数据集和基准

2017

Scaling Instructable Agents Across Many Simulated Worlds (2017)

2022

MiniWoB++ / Success Rate (2022)

2023

MoTIF: A Dataset for Interactive Vision-Language Navigation with Unknown Command Feasibility (2023)
IND2WEB: Towards a Generalist Agent for the Web (2023)
WebArena: A Realistic Web Environment for Building Autonomous Agents (2023)

2024

Android in the Wild: A Large-Scale Dataset for Android Device Control (2024)
ANDROIDWORLD / Success Rate
OSWORLD: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments / Success Rate
Screen Agent (ACL2024)
OmniACT: A Dataset and Benchmark for Enabling Multimodal Generalist Autonomous Agents for Desktop and Web / Sequence score
Ferret-UI: Grounded Mobile UI Understanding with Multimodal LLMs
AutoUI: You Only Look at Screens: Multimodal Chain-of-Action Agents (ACL2024)
GUI-WORLD: A Dataset for GUI-oriented Multimodal LLM-based Agents
Octo-planner: On-device Language Model for Planner-Action Agents
AppWorld: A Controllable World of Apps and People for Benchmarking Interactive Coding Agents (ACL2024)
Mobile-Bench: An Evaluation Benchmark for LLM-based Mobile Agents (ACL2024)
VisualWebArena: Evaluating Multimodal Agents on Realistic Visually Grounded Web Tasks (ACL2024)
WebCanvas: Benchmarking Web Agents in Online Environments
MobileAgentBench: An Efficient and User-Friendly Benchmark for Mobile LLM Agents
GUICourse: From General Vision Language Model to Versatile GUI Agent
CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation

引用

bib @article{wu2024curriculum, title={Curriculum Learning with Quality-Driven Data Selection}, author={Wu, Biao and Meng, Fang and Chen, Ling}, journal={arXiv preprint arXiv:2407.00102}, year={2024} }

搜集汇总

数据集介绍

构建方式

Android in the Wild数据集的构建基于大规模的Android设备控制任务，涵盖了从应用程序到网页的多模态交互。该数据集通过收集和标注大量真实世界中的Android设备操作数据，形成了包含1000k模板的高质量数据集。其构建过程严格遵循多模态数据的标准化处理流程，确保数据的多样性和代表性，从而为研究者提供了一个全面且真实的测试平台。

使用方法

使用Android in the Wild数据集时，研究者可以通过提供的模板和标注数据进行模型的训练和测试。数据集支持多种任务，包括应用程序和网页的交互、多模态数据的融合等。研究者可以根据具体的研究需求，选择合适的数据子集进行实验。此外，数据集还提供了详细的文档和示例代码，帮助研究者快速上手并充分利用数据集的潜力。

背景与挑战

背景概述

Android in the Wild（AitW）数据集由Rawles等人于2024年创建，旨在为Android设备控制提供大规模数据支持。该数据集的核心研究问题是如何通过多模态数据实现对Android应用和网页的自动化控制。AitW数据集的创建标志着移动设备自动化领域的一个重要里程碑，它不仅丰富了现有的数据资源，还为研究人员提供了一个标准化的基准，以评估和比较不同自动化策略的性能。

当前挑战

AitW数据集在构建过程中面临多项挑战。首先，数据集的规模庞大，涉及多种任务类型，如应用和网页的自动化控制，这要求数据标注和处理的复杂性较高。其次，数据集中的任务奖励机制多为稀疏奖励，即只有在达到特定目标或完成任务时才给予奖励，这使得学习过程更加困难，因为缺乏即时的反馈。此外，数据集的跨平台兼容性也是一个重要挑战，确保在不同Android设备上的稳定性和一致性。

常用场景

经典使用场景

在移动设备领域，Android in the Wild数据集的经典使用场景主要集中在多模态移动代理的开发与评估。该数据集通过提供大规模的Android设备控制数据，支持研究人员和开发者构建能够理解和操作移动用户界面的智能代理。这些代理不仅能够执行基本的任务自动化，还能进行复杂的视觉语言导航和用户界面理解，从而在实际应用中展现出强大的适应性和实用性。

解决学术问题

Android in the Wild数据集解决了多模态移动代理在实际环境中操作和理解用户界面的关键学术问题。通过提供丰富的视觉和文本数据，该数据集使得研究人员能够训练和评估代理在不同任务中的表现，如界面元素的识别、交互操作的执行以及复杂任务的规划。这不仅推动了多模态学习技术的发展，也为智能代理在实际应用中的部署提供了坚实的理论基础。

实际应用

在实际应用中，Android in the Wild数据集支持开发能够自动化处理移动设备任务的智能代理。这些代理可以广泛应用于用户界面测试、辅助技术、以及个性化用户体验优化等领域。例如，通过理解和操作移动应用的用户界面，这些代理能够帮助开发者快速发现和修复界面问题，提升应用的用户体验和市场竞争力。

数据集最近研究