Android Control Tree Dataset

Name: Android Control Tree Dataset
Creator: 哈尔滨工业大学(深圳), 中国科学院深圳先进技术研究院, 上海交通大学, 美团, 中国
Published: 2025-05-27 22:49:30
License: 暂无描述

arXiv2025-05-27 更新2025-05-29 收录

下载链接：

https://github.com/sqzhang-lazy/XBOUND

下载链接

链接失效反馈

官方服务：

资源简介：

Android Control Tree Dataset 是一个基于Android Control 测试数据集构建的轨迹树数据集，用于评估设备控制代理（DC代理）的能力边界。该数据集包括1,536个场景和43,759条指令，涵盖了宽度（屏幕内多个UI图标之间的交互）和深度（相同动作对应的多个高级指令）两个维度。通过XBOUND评估方法，该数据集可以更全面地评估DC代理对状态和动作的理解能力，从而揭示现有DC代理系列中的缺陷和局限性。

Android Control Tree Dataset is a trajectory tree dataset built upon the Android Control test dataset, designed to evaluate the capability boundary of Device Control Agents (DC Agents). This dataset contains 1,536 scenarios and 43,759 instructions, covering two dimensions: width (interaction between multiple UI icons within the screen) and depth (multiple advanced instructions corresponding to a single action). By adopting the XBOUND evaluation method, this dataset enables a more comprehensive assessment of DC Agents' understanding of states and actions, thus revealing the defects and limitations in existing DC Agent series.

提供机构：

哈尔滨工业大学(深圳), 中国科学院深圳先进技术研究院, 上海交通大学, 美团, 中国

创建时间：

2025-05-27

原始信息汇总

XBOUND数据集概述

基本信息

数据集名称: XBOUND: Exploring the Capability Boundaries of Device-Control Agents through Trajectory Tree Exploration
数据集状态: 即将开源（待公司开源测试流程完成）

数据内容

研究主题: 设备控制智能体的能力边界探索
研究方法: 基于轨迹树探索的方法

获取方式

开源计划: 代码和数据将在公司完成开源测试流程后公开

搜集汇总

数据集介绍

构建方式

Android Control Tree Dataset的构建采用了多模态数据融合的方法，通过GPT4o-mini生成高层次和低层次指令，并结合Android Control的可访问性树标注技术对UI图标进行精确识别。数据收集过程中，每个屏幕截图均经过双重标注：首先由GPT4o-mini生成任务指令和UI元素描述，随后通过Qwen2.5-vl-72B-Instruct模型进行动作标注，最终通过GPT4o-mini的质量验证形成闭环。数据集特别设计了宽度和深度两个维度——宽度维度聚焦单屏幕内多UI元素的交互可能性，深度维度则探索相同动作在不同任务指令下的状态迁移，共包含43,759条指令的伪轨迹树结构。

特点

该数据集的核心特征体现在三维度评估体系：首先，首创的轨迹树数据结构突破了传统线性轨迹的限制，能同时记录从单一状态派生的多任务分支；其次，宽度维度包含1,536个episode的跨UI元素交互数据，深度维度则构建13,460条动作-指令关联链，完整覆盖设备控制代理(DC agents)在状态理解和动作执行的双重能力评估；最后，数据集创新性地引入半透明屏幕状态标记技术，通过视觉化方式清晰呈现状态迁移路径，为微观层面分析代理行为提供了可视化基础。特别值得注意的是，数据集中32%的指令涉及跨应用场景，能有效检验代理的泛化能力。

使用方法

该数据集需配合XBOUND评估框架使用，具体包含三个层级：在基础评估层，研究者可通过计算每个屏幕截图的探索指标(Explore Metric)，即关联指令的平均动作准确率，量化代理对特定状态的掌握程度；在任务分析层，数据集预置的五类应用场景（购物、邮件等）支持细粒度任务性能剖析，需使用Qwen2-vl-7B-Instruct模型进行指令分类后开展横向对比；在错误诊断层，数据集提供的四阶段能力划分（学习/改进/熟练/专家）可定位代理薄弱环节，配合可视化轨迹树能精确定位状态理解错误（如图标误识别）或动作逻辑缺陷（如拓扑关系错误）。评估时需注意区分CLICK/LONG_PRESS动作的14%屏幕距离容错阈值，以及TYPE动作的F1=0.5判定标准。

背景与挑战

背景概述

Android Control Tree Dataset是由哈尔滨工业大学（深圳）、鹏城实验室、上海交通大学以及美团的研究团队于2025年提出的一个创新性数据集，旨在解决设备控制代理（DC agents）在图形用户界面（GUI）交互中的性能评估问题。该数据集基于Android Control测试数据构建，采用“伪”轨迹树数据格式，包含43,759条指令，覆盖宽度和深度两个维度。其核心研究问题聚焦于通过微观视角评估DC agents对状态和动作的理解能力，弥补了传统评估方法（如逐步动作准确率和整体任务成功率）在揭示潜在错误方面的不足。该数据集的提出为GUI交互领域提供了更精细的性能评估工具，推动了DC agents在实际应用中的可靠性研究。

当前挑战

Android Control Tree Dataset面临的挑战主要体现在两个方面：领域问题挑战和构建过程挑战。在领域问题方面，传统评估方法难以全面衡量DC agents对复杂GUI状态的理解能力，特别是在多任务指令下对同一状态的不同动作执行效果。构建过程中的挑战包括：1) 需要精准标注屏幕截图中的可交互UI元素及其对应指令，涉及大规模人工与AI协同标注；2) 确保生成的伪轨迹树能有效模拟真实环境中的状态转移多样性；3) 处理动作类型（如点击、滑动）与空间位置的精确匹配问题，其中点击动作需满足14%屏幕距离的容错阈值。这些挑战使得数据集的构建需要结合GPT4o-mini和Qwen2.5-vl-72B-Instruct等多模态模型的复杂协作。

常用场景

经典使用场景

在移动设备控制代理（DC agents）的研究中，Android Control Tree Dataset 被广泛用于评估代理在图形用户界面（GUI）中的交互能力。该数据集通过构建轨迹树（trajectory tree）的形式，模拟了从同一状态出发，基于不同指令可能产生的多分支交互路径。这种设计使得研究者能够深入分析代理在特定状态下对不同任务的响应能力，从而揭示其理解界面元素和执行动作的微观表现。

衍生相关工作

该数据集衍生了 OS-Atlas 和 UI-TARS 系列代理的系统性评估研究，其中 UI-TARS-1.5-7B 在深度维度表现出的动作理解优势催生了新一代上下文感知代理的研发。相关工作中，Gou 等人（2024）提出的像素级操作框架、Zhang 等人（2024a）的思维链增强方法均借鉴了该数据集揭示的状态-动作关联规律，推动了 GUI 智能体从单任务执行向多模态推理的范式转变。

数据集最近研究