Android in the Wild (AITW)

Name: Android in the Wild (AITW)
Creator: 谷歌研究院
Published: 2023-10-27 22:24:31
License: 暂无描述

arXiv2023-10-27 更新2024-06-21 收录

下载链接：

https://github.com/google-research/google-research/tree/master/android_in_the_wild

下载链接

链接失效反馈

官方服务：

资源简介：

Android in the Wild (AITW) 是由谷歌研究院创建的大规模数据集，用于研究设备控制。该数据集包含715,142个事件，覆盖30,000个独特的指令，涵盖四个Android版本（v10-13）和八种设备类型（从Pixel 2 XL到Pixel 6），具有不同的屏幕分辨率。数据集中的任务需要对语言和视觉上下文进行语义理解，挑战在于必须从用户界面的视觉外观推断可用的操作。AITW旨在促进设备控制系统的鲁棒性分析，适用于评估系统在新任务描述、新应用或新平台版本下的表现。

Android in the Wild (AITW) is a large-scale dataset created by Google Research for device control research. It contains 715,142 events, covering 30,000 unique instructions, spanning four Android versions (v10–13) and eight device types ranging from Pixel 2 XL to Pixel 6, with varying screen resolutions. Tasks in this dataset require semantic understanding of both linguistic and visual contexts, with the core challenge being the need to infer available actions solely from the visual appearance of user interfaces. AITW aims to facilitate robustness analysis of device control systems and is suitable for evaluating system performance under novel task descriptions, new applications, or updated platform versions.

提供机构：

谷歌研究院

创建时间：

2023-07-19

搜集汇总

数据集介绍

构建方式

Android in the Wild (AITW) 数据集的构建过程涉及两个主要阶段。首先，由人类评估者在模拟器上执行端到端任务，并通过自然方式进行交互。然后，评估者对收集到的轨迹进行回顾性语言重新标记，识别并标记简单的动作序列，从而收集到多步和单步任务的轨迹。数据集使用 AndroidEnv 和 Android 模拟器进行录制，支持触摸、抬起和重复三种动作类型。为了增强数据集的多样性，评估者被要求执行各种任务，并随机化应用程序状态，以迫使评估者演示如何导航到相关屏幕。此外，数据集涵盖了四个版本的 Android（v10-13）和八种不同分辨率的设备类型。

特点

AITW 数据集的特点包括其庞大的规模和多样性。它包含 715k 个场景，跨越 30k 个独特的指令，涵盖了四个版本的 Android 和八种设备类型。数据集包含多步任务，需要语义理解语言和视觉上下文。此外，数据集的设计旨在鼓励对设备控制系统的鲁棒性分析，即系统在面对新任务描述、新应用程序或新平台版本时的表现。AITW 的一个关键特性是它包含了由人类演示的设备交互，包括屏幕和动作，以及相应的自然语言指令。

使用方法

使用 AITW 数据集的方法包括使用 AndroidEnv 平台进行开发和测试 Android 代理。数据集可以用于训练和评估设备控制模型，特别是那些能够将高级指令映射到设备界面上的执行计划中的模型。AITW 的多样化任务和执行路径使其成为一个现实世界的系统交互的逼真代表。此外，数据集的结构使得能够在不同的条件下进行评估，包括新任务和语言、Android 版本、应用程序和网站。AITW 还可用于进行泛化分析，以评估模型在面对新任务、新应用程序或新平台版本时的表现。

背景与挑战

背景概述

随着人工智能技术的不断发展，设备控制系统对于理解和执行人类自然语言指令的需求日益增长。Android in the Wild (AITW) 数据集的创建，正是为了推动这一领域的研究。该数据集由 Google Research 和 Google DeepMind 的研究人员共同创建，于 2023 年发布。AITW 数据集包含人类演示的设备交互，包括屏幕和动作，以及相应的自然语言指令。它涵盖了 715,000 个场景，涉及 30,000 个独特的指令，跨越四个版本的 Android（v10-13）和八种设备类型（Pixel 2 XL 到 Pixel 6），具有不同的屏幕分辨率。AITW 数据集的创建，对于推动设备控制系统的研究具有重要意义，它提供了大规模、多样化的数据集，有助于研究人员开发更先进的设备控制系统。

当前挑战

AITW 数据集的创建和利用面临着一些挑战。首先，现有的设备控制系统数据集在人类演示的数量和任务指令的多样性方面存在局限性，这使得模型的泛化能力受到限制。其次，现有的数据集通常假设可以从平台特定的 UI 元数据中派生出应用程序 UI 的树状表示，这限制了系统在高质量 UI 元数据不可用的环境中的适用性。此外，一些流行的数据集假设任务指令以指向屏幕上特定 UI 元素的分步命令形式出现，而用户可能使用描述高级目标的简短命令或提出问题，这不符合实际使用场景。为了解决这些问题，AITW 数据集通过收集大量的人类演示、多样化的任务指令和执行路径，以及多种设备和 Android 版本的数据，提供了更真实、更全面的训练和评估环境。同时，AITW 数据集还鼓励对设备控制系统的鲁棒性进行分析，以评估系统在面对新任务描述、新应用程序或新平台版本时的表现。

常用场景

经典使用场景

Android in the Wild (AITW) 数据集主要用于研究设备控制系统，特别是那些能够解释人类自然语言指令并在数字设备上执行它们，直接控制用户界面的系统。该数据集包含了人类设备交互的演示，包括屏幕和动作，以及相应的自然语言指令。AITW 数据集的规模比现有数据集大几个数量级，包含 715k 个场景，涵盖 30k 个独特的指令，涵盖了四个版本的 Android (v10-13) 和八种设备类型（Pixel 2 XL 到 Pixel 6），具有不同的屏幕分辨率。数据集包含多步任务，这些任务需要语义理解语言和视觉上下文。

衍生相关工作

AITW 数据集的发布促进了设备控制领域的研究，衍生出了一系列经典工作。例如，基于 AITW 数据集的训练模型在理解和执行自然语言指令方面取得了显著进展，展示了设备控制系统在实际应用中的潜力。此外，AITW 数据集还推动了多模态建模的研究，即结合文本和视觉信息来提升设备控制系统的性能。未来，随着 AITW 数据集的不断完善和应用，可以预期会有更多创新的设备控制技术被开发出来，为用户带来更加便捷、智能的交互体验。

数据集最近研究