ANDROIDWORLD

Name: ANDROIDWORLD
Creator: 谷歌深度思维
Published: 2024-05-23 21:48:54
License: 暂无描述

arXiv2024-05-23 更新2024-06-21 收录

下载链接：

https://github.com/google-research/android_world

下载链接

链接失效反馈

官方服务：

资源简介：

ANDROIDWORLD是一个动态的Android环境，用于开发和评估自主代理。该数据集由谷歌深度思维创建，包含116个程序化任务工作流程，分布在20个真实世界的Android应用中。与现有的交互式环境不同，ANDROIDWORLD动态构建任务，这些任务通过自然语言参数化和表达，从而能够在更大和更真实的任务集合上进行测试。奖励信号源自计算机的系统状态，使其在任务变体中保持稳定，并可扩展到不同的应用。该数据集适用于开发和评估计算机控制代理，旨在解决自动化重复任务、增强人类智能和完成复杂工作流程的问题。

ANDROIDWORLD is a dynamic Android environment designed for the development and evaluation of autonomous agents. Created by Google DeepMind, this dataset comprises 116 procedural task workflows spanning 20 real-world Android applications. Unlike existing interactive environments, ANDROIDWORLD dynamically generates tasks that are parameterized and articulated in natural language, enabling testing across larger and more realistic task sets. Reward signals are derived from the system state of the host device, maintaining stability across different task variants and supporting scalability across diverse applications. This dataset is intended for the development and evaluation of computer-controlled agents, with the objective of automating repetitive tasks, augmenting human intelligence, and accomplishing complex workflow processes.

提供机构：

谷歌深度思维

创建时间：

2024-05-23

搜集汇总

数据集介绍

构建方式

在移动计算与自主智能体研究领域，构建能够精确反映真实场景的评估环境至关重要。ANDROIDWORLD数据集通过集成一个功能完整的Android操作系统环境，实现了对116个程序化任务工作流的动态构建。该数据集依托Android Emulator与AndroidEnv库，确保了环境的可复现性。每个任务均被设计为可参数化的自然语言指令，通过随机生成的参数动态实例化初始状态与成功条件，从而在20款真实Android应用中创建了近乎无限的任务变体。任务的成功判定基于对系统底层状态（如文件系统、应用数据库）的检查，利用Android Debug Bridge工具直接访问设备资源，确保了奖励信号的准确性与持久性。

特点

ANDROIDWORLD的突出特点在于其高度的真实性与动态可扩展性。数据集涵盖了日历、通讯、文件管理等20款真实Android应用，任务设计模拟了日常移动设备操作场景。其核心创新在于摒弃了静态测试集，采用参数化方法动态生成任务目标与初始条件，使得智能体能够在多样化的输入与环境中接受评估。此外，数据集通过系统状态派生奖励信号，该方法不仅准确可靠，而且能够跨应用复用验证逻辑。数据集还集成了MiniWoB++基准测试的92个任务，进一步扩展了评估范围。整个环境设计轻量，仅需2GB内存与8GB磁盘空间，并支持便捷的任务添加与新基准集成。

使用方法

ANDROIDWORLD为开发与评估计算机控制智能体提供了标准化接口。研究者可通过环境提供的观察空间（包括全分辨率屏幕截图和UI可访问性树）获取设备状态，并通过执行点击、滑动、输入等拟人化动作与系统交互。数据集支持对智能体进行零样本或在线学习评估，通过调用任务初始化函数并传入随机种子，即可生成特定参数组合的任务实例。智能体的性能以任务成功率进行量化，该指标由环境内置的状态验证器自动计算。为进行鲁棒性分析，研究者可固定或变化随机种子，以测试智能体在不同参数化条件下的表现稳定性。所有实验代码与基准结果均已在开源平台发布，便于复现与比较。

背景与挑战

背景概述

在人工智能领域，自主代理通过控制计算机执行人类任务，已成为提升生产力和应用可访问性的关键研究方向。然而，该领域的进展严重依赖于现实且可复现的基准测试环境。为此，Google DeepMind与Google的研究团队于2024年联合推出了ANDROIDWORLD数据集，这是一个全功能的Android环境，旨在为自主代理的开发与评估提供坚实支撑。该数据集涵盖了20款真实Android应用中的116个程序化任务工作流，并通过动态参数化与自然语言表达，实现了任务的无限变体生成。其核心研究问题在于解决现有交互环境在任务多样性、真实性与奖励信号可靠性方面的不足，从而推动跨领域通用代理的发展。ANDROIDWORLD的发布，不仅为移动设备控制代理的研究设立了新的基准，还通过其高度可扩展的设计，显著促进了相关领域在在线学习算法与多模态感知方面的探索。

当前挑战

ANDROIDWORLD数据集致力于解决自主代理在移动设备控制领域的关键挑战，其核心在于如何让代理在复杂多变的真实Android环境中，准确理解并执行自然语言指令。这一领域问题的挑战体现在多个层面：首先，移动界面相较于桌面环境更为复杂，需要代理处理精确的手势操作（如长按、滑动）和更丰富的动作空间；其次，代理需具备强大的屏幕理解能力，以识别细微的UI元素，并在任务执行过程中保持记忆与推理的连贯性。在数据集构建过程中，研究团队同样面临严峻挑战：一是如何从系统状态中衍生出持久且准确的奖励信号，避免依赖易变的UI表层匹配；二是如何在保持环境真实性的同时，确保任务的高度可复现性，这涉及对操作系统、应用版本及初始状态的精细控制；三是如何设计动态参数化任务，以支持对代理适应性的全面评估，这要求任务生成逻辑既能模拟无限变体，又能维持评估的一致性。

常用场景

经典使用场景

在移动智能体研究领域，ANDROIDWORLD数据集被广泛用于评估和开发能够理解自然语言指令并操控Android设备的自主智能体。其经典使用场景体现在为研究者提供了一个包含20款真实Android应用程序、涵盖116个参数化任务流程的动态基准测试环境。通过模拟日常操作如日历管理、短信发送、文件处理等任务，该数据集能够生成无限多样的任务实例，从而全面检验智能体在多样化、非确定性移动环境中的适应性与鲁棒性。

实际应用

ANDROIDWORLD的实际应用场景紧密关联于提升移动设备自动化与辅助技术的现实需求。它能够为开发智能个人助理、无障碍交互系统以及工作流程自动化工具提供关键的训练与测试平台。例如，该数据集可助力研发能够帮助用户自动安排会议、管理日常任务或操作各类应用程序的智能体，从而提升人类生产力和应用程序的可访问性。其轻量级与可扩展的设计，也使得工业界与学术界能够便捷地集成新的应用程序与任务，加速面向真实移动生态系统的智能体技术落地。

衍生相关工作

ANDROIDWORLD的发布催生并连接了多项相关经典研究工作。基于该数据集，研究者开发了新型多模态Android智能体M3A，并建立了当前性能基准。同时，研究团队将经典的MiniWoB++网页交互基准成功迁移至Android平台，创建了MobileMiniWoB++，拓展了跨平台智能体的评估范畴。这些衍生工作不仅验证了数据集作为基准的有效性，也揭示了移动与网页环境对智能体提出的不同挑战，进而激发了对于通用、跨领域智能体架构的进一步探索。数据集的设计理念，特别是其动态任务构造与系统状态奖励机制，也为后续交互式评估环境的研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集