AndroidInteraction

Name: AndroidInteraction
Creator: 谷歌研究
Published: 2025-03-25 18:46:08
License: 暂无描述

arXiv2025-03-25 更新2025-03-27 收录

下载链接：

https://github.com/google-research/google-research/tree/master/android_interaction

下载链接

链接失效反馈

官方服务：

资源简介：

AndroidInteraction数据集是由谷歌研究团队创建的，它基于AndroidControl数据集，通过标注在执行任务时需要与用户交互的步骤以及相应的交互信息来扩展数据集。该数据集包含750个以上的示例，跨越250个不同的应用程序，旨在评估模型在检测代理需要与用户交互的需求和生成适当消息方面的性能。数据集涵盖了多样化的任务指令和执行路径，以模拟现实世界场景。

The AndroidInteraction Dataset was developed by the Google Research team. It is an extension of the AndroidControl Dataset, with annotations added for task steps requiring user interaction during execution and their corresponding interaction details. This dataset includes over 750 examples spanning 250 distinct applications, and aims to evaluate model performance in two key tasks: detecting the requirement for user interaction on the part of agents, and generating appropriate interaction messages. It covers a wide range of task instructions and execution paths to simulate real-world scenarios.

提供机构：

谷歌研究

创建时间：

2025-03-25

搜集汇总

数据集介绍

构建方式

AndroidInteraction数据集的构建基于现有的AndroidControl数据集，通过专业注释员的角色扮演模拟用户交互需求。注释员在原有UI自动化任务的基础上，标注了需要用户交互的步骤，并生成了相应的交互消息。数据收集过程中，严格筛选了任务场景，确保交互标注的多样性和真实性，同时剔除了涉及隐私和开放型任务的样本，最终形成了包含772个任务片段的精选数据集。

特点

该数据集的核心特点体现在对UI自动化中用户交互需求的系统性标注，覆盖了250余种应用程序的多样化场景。每个交互步骤不仅标注了必要性等级（1-5分），还包含上下文相关的自然语言消息，反映了从信息请求到操作确认的完整交互谱系。特别值得注意的是，数据集通过模拟人物角色和真实任务场景，捕捉了用户偏好与代理自主性之间的微妙平衡，为个性化代理开发提供了宝贵资源。

使用方法

使用AndroidInteraction数据集时，研究者可将其应用于两大核心任务：交互必要性检测与交互消息生成。数据集的标准分割（70%测试集与30%验证集）支持模型性能的客观评估。对于交互检测任务，建议采用步骤级F1值作为主要指标；消息生成质量则可通过人工评估或先进语言模型的自动对比进行衡量。该数据集特别适合用于训练多模态代理系统，结合屏幕视觉信息与UI元数据进行端到端学习。

背景与挑战

背景概述

AndroidInteraction数据集由Google Research团队于2025年推出，专注于手机用户界面（UI）自动化中智能体与用户交互的关键问题。该数据集基于AndroidControl数据集构建，包含来自250多个应用程序的772个任务演示，旨在解决复杂任务执行过程中智能体如何主动发起交互以获取必要信息或确认的核心挑战。作为首个系统研究手机自动化中智能体主动交互的数据集，其创新性体现在对交互时机判断和消息生成的标准化标注，为人机交互领域提供了重要的基准资源。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决动态界面环境下智能体对模糊指令的实时解析、多模态信息融合以及个性化交互策略生成等难题；在构建过程中，主要困难包括标注主观性导致的交互必要性评分差异（Cohen's Kappa=0.64）、单轮交互标注限制对多轮对话研究的制约，以及平衡自动化效率与用户控制权之间的微妙关系。值得注意的是，基线实验显示当前大语言模型在此任务上表现欠佳（F1最高仅0.25），凸显了界面理解与上下文推理的技术瓶颈。

常用场景

经典使用场景

在智能手机UI自动化领域，AndroidInteraction数据集为研究智能代理如何主动发起用户交互提供了关键实验平台。该数据集通过模拟真实场景中用户与代理的对话需求，例如当任务执行遇到模糊指令或需要用户确认敏感操作时，能够精准捕捉代理发起交互的时机和内容。其典型应用包括日历管理中的会议取消确认、电商场景下的商品规格询问等需要动态决策的交互场景。

实际应用

在实际应用中，该数据集支撑了智能助手系统的交互优化。例如在银行APP转账场景中，代理能基于数据集训练的模型判断何时需要二次确认；在旅行预订场景中，可自动生成车站选择等澄清问题。这些能力显著提升了Google Assistant等产品的任务完成率和用户信任度，尤其对视力障碍等特殊群体实现无障碍操作具有重要价值。

衍生相关工作

该数据集催生了多个衍生研究方向：1) WebLINX项目将其交互范式扩展到网页导航领域；2) Mind2Web研究利用其标注逻辑构建多模态网络任务数据集；3) UGIF框架借鉴其必要性评分机制优化了GUI指令跟随系统。这些工作共同推进了跨平台自动化代理的交互能力标准化评估体系建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集