AndroidWorld

arXiv2025-09-30 收录

下载链接：

https://google-research.github.io/android_world/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集提供了一个全功能的Android环境，用于执行116个编程任务，这些任务分布在20个真实的Android应用中。此外，该数据集采用了标记集（Set-of-Marks，简称SoM）来增强代理在任务执行中的基础定位能力。其规模涵盖了20个应用中的116个编程任务，任务类型为在Android环境中的编程任务执行。

This dataset provides a fully functional Android environment for executing 116 programming tasks distributed across 20 real-world Android applications. Furthermore, this dataset adopts the Set-of-Marks (SoM) markup set to enhance the agent's foundational localization capabilities during task execution. Its scope covers 116 programming tasks across 20 applications, with the task type being programming task execution within an Android environment.

搜集汇总

数据集介绍

构建方式

在移动计算与自主智能体研究领域，构建一个既真实又可扩展的评估环境至关重要。ANDROIDWORLD数据集通过集成一个功能完整的Android操作系统环境，实现了对20款真实应用程序中116项任务工作流的程序化封装。其构建核心在于动态任务生成机制：每个任务均被参数化，并以自然语言形式无限组合表达，从而突破了静态测试集的局限。数据集利用Android调试桥（ADB）深度访问系统状态（如文件系统、应用数据库），并基于此设计出持久且可扩展的奖励信号验证逻辑，确保任务评估的准确性与可重复性。

使用方法

研究人员可利用ANDROIDWORLD作为基准平台，开发和评估自主智能体在真实移动环境中的性能。使用前，需通过AndroidEnv库连接至Android模拟器，并加载数据集定义的任务工作流。智能体通过接收屏幕截图、无障碍功能树等多模态观察信息，执行点击、滑动、输入等拟人化操作。数据集的动态任务生成接口支持智能体在无限变化的参数条件下进行测试，从而全面考察其泛化与适应能力。评估时，系统将自动根据预设的系统状态验证逻辑计算任务完成率，为智能体的稳健性提供量化分析。

背景与挑战

背景概述

在人工智能领域，自主代理通过控制计算机执行人类任务，有望显著提升生产力和应用可访问性。然而，该领域的进展亟需现实且可复现的基准测试环境。为此，Google DeepMind与Google的研究团队于2024年联合推出了ANDROIDWORLD数据集。该数据集构建了一个功能完整的Android交互环境，涵盖了20款真实应用程序中的116项程序化任务工作流。其核心研究问题在于如何为计算机控制代理的开发和评估提供一个高度多样化、参数化且奖励信号持久的基准测试平台。ANDROIDWORLD通过动态生成无限参数组合的自然语言任务，突破了传统静态测试集的局限，为评估代理在真实多变场景下的适应性与鲁棒性设立了新标准，对推动通用跨域智能体的研究具有深远影响。

当前挑战

ANDROIDWORLD致力于解决计算机控制代理在移动设备交互这一核心领域问题所面临的挑战，具体包括：代理需理解自然语言指令、感知复杂移动UI、执行精确手势操作（如长按、滑动）并在多应用间协调完成复合任务。在数据集构建过程中，研究团队面临多重挑战：首要挑战在于为真实、动态变化的应用环境设计自动化、高精度的奖励信号生成机制，避免依赖耗时的人工评估或不可靠的UI表层匹配。其次，需确保任务的高度可复现性，这要求对操作系统、应用版本及初始状态进行严格控制。此外，将多样化的真实Android应用（包括开源应用与系统应用）整合到一个统一的基准框架中，并实现任务参数的无限动态组合，也对工程设计与逻辑验证提出了严峻考验。

常用场景

经典使用场景

在自主智能体研究领域，ANDROIDWORLD数据集被广泛用于评估和训练能够理解自然语言指令并操控Android设备的计算机控制智能体。该数据集通过动态生成参数化任务，模拟真实世界中的多样化交互场景，例如在日历应用中创建事件、在短信应用中发送消息或在文件管理器中执行操作。研究者利用其提供的丰富任务流和可扩展环境，系统性地测试智能体在复杂移动界面中的感知、决策与执行能力，从而推动通用智能体在开放域环境中的适应性研究。

解决学术问题

ANDROIDWORLD数据集主要解决了自主智能体研究中奖励信号构建困难、评估环境静态化以及任务多样性不足等核心问题。通过基于Android系统状态设计持久且可扩展的奖励机制，该数据集能够准确反映任务的功能性完成度，避免了依赖人工标注或静态轨迹匹配的局限性。其动态参数化任务生成方式支持无限变体的测试条件，使得智能体能够在更接近真实世界的随机化场景中接受评估，显著提升了学术研究的可复现性和泛化能力，为开发鲁棒且通用的计算机控制智能体奠定了坚实基础。

实际应用

在实际应用层面，ANDROIDWORLD数据集为开发能够自动化执行日常任务的智能助手提供了关键的训练与测试平台。例如，智能体可被应用于自动管理日程安排、处理消息通信、操作多媒体文件或调整设备系统设置，从而提升个人工作效率与数字可访问性。该数据集所涵盖的20款真实Android应用及其116项任务流程，直接映射到移动生态中的高频使用场景，使得基于此训练的智能体具备潜在的商业化价值，能够集成至智能办公、无障碍辅助或自动化流程管理等实际产品中。

数据集最近研究