AndroTMem-Bench

github2026-03-23 更新2026-03-24 收录

下载链接：

https://github.com/CVC2233/AndroTMem

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于长视野GUI任务的大规模基准数据集，包含1,069个任务、34,473个交互步骤，平均每个任务32.1步（最多65步），涵盖50个Android应用的跨应用工作流。

A large-scale benchmark dataset for long-horizon GUI tasks, containing 1,069 tasks and 34,473 interaction steps, with an average of 32.1 steps per task (up to 65 steps per task) and covering cross-application workflows across 50 Android applications.

创建时间：

2026-03-19

原始信息汇总

AndroTMem 数据集概述

数据集简介

AndroTMem 是一个用于研究长视野 Android GUI 智能体中交互记忆的诊断框架。其核心贡献是 AndroTMem-Bench，一个大规模的长视野 GUI 任务基准测试集。

基准测试集详情 (AndroTMem-Bench)

任务数量：1,069 个任务。
交互步骤总数：34,473 步。
任务平均长度：平均每个任务 32.1 步，最长 65 步。
应用覆盖：跨 50 个 Android 应用程序的工作流。
获取地址：https://huggingface.co/datasets/CVC2233/AndroTMem-Bench

任务特征与类型

特征：长视野工作流（多步骤、多应用），具有强烈的步骤间因果依赖关系，需要跨远距离步骤的状态复用。
任务类型：
- 查找
- 比较与决策
- 购买/订购
- 预订
- 通信
- 分享
- 内容创建
- 配置

核心方法与发现

核心方法：提出了锚定状态记忆（Anchored State Memory, ASM），一种将交互历史表示为具有因果关联的中间状态锚点的结构化记忆机制。
关键发现：
- 长视野任务失败的主要原因是记忆崩溃，而非感知错误。
- 性能随步骤长度增加而显著下降。
- 主要失败模式包括：状态丢失、状态错误绑定、上下文漂移、进度未验证、中断处理失败。
- ASM 能有效缓解上述问题，在 12 个 GUI 智能体上带来 5% 至 30% 的性能提升。

评估指标

TCR（任务完成率）
AMS（动作匹配分数）

相关资源

论文地址：https://arxiv.org/abs/2603.18429
代码仓库结构：包含基线模型、评估管道、运行脚本和资源文件。

搜集汇总

数据集介绍

构建方式

在移动应用自动化领域，长期任务执行常因记忆失效而受阻。AndroTMem-Bench的构建聚焦于模拟真实用户操作场景，通过精心设计包含因果依赖关系的多步骤工作流。该数据集涵盖了50款Android应用，构建了1069项任务，总计包含34473个交互步骤，平均每项任务长达32.1步，最长可达65步。其构建过程强调跨应用操作与状态复现，确保任务链条具有强因果关联，从而精准捕捉长期交互中的记忆瓶颈。

特点

该数据集的核心特征在于其深度模拟了长期图形用户界面代理所面临的记忆挑战。任务设计涵盖查找、比较决策、购买订购、预订、通信、共享、内容创建及配置等多种类型，每一步操作都嵌入严格的因果依赖。数据集通过结构化标注记录中间状态锚点，每个锚点包含类型、语义内容、界面证据及因果链接，为研究提供了细粒度的记忆失效分析基础，如状态丢失、错误绑定及上下文漂移等现象均得以清晰呈现。

使用方法

研究者可利用该数据集评估图形用户界面代理在长期任务中的记忆能力。使用前需加载任务定义与交互轨迹，通过配套评估套件计算任务完成率与动作匹配分数。数据集支持对锚定状态记忆等机制的验证，用户可对比不同代理在相同工作流上的表现，分析记忆失效模式。具体操作可参照提供的脚本与评估流程，实现从轨迹回放到结构化记忆检索的全面测试。

背景与挑战

背景概述

在移动计算与人工智能交叉领域，图形用户界面（GUI）智能体研究致力于开发能够自动化执行复杂应用交互任务的系统。然而，现有基准多聚焦于感知能力或短流程任务，对长视野、多步骤交互中智能体的记忆机制缺乏深入探究。为此，由CVC2233等研究团队于2026年提出的AndroTMem-Bench数据集应运而生。该数据集构建了一个包含1,069个任务、跨越50款Android应用的大规模基准，旨在诊断长视野GUI智能体中的交互记忆瓶颈。其核心研究问题在于揭示任务失败主要源于记忆崩溃而非感知错误，并通过引入锚定状态记忆（ASM）这一结构化机制，为理解与建模交互历史中的因果依赖关系提供了新范式，显著推动了具身智能与自动化界面交互领域的发展。

当前挑战

AndroTMem-Bench所针对的领域挑战在于长视野GUI任务中智能体的记忆失效问题。具体而言，智能体在跨应用、多步骤的工作流中，需维持对先前交互状态的准确记忆与因果推理，而传统方法如完整轨迹回放或摘要生成往往导致信息冗余或关键依赖丢失。构建该数据集的过程同样面临多重挑战：首先，设计具有强因果依赖关系的长序列任务需平衡真实性与复杂性，确保任务既反映实际用户行为又包含可诊断的记忆故障模式；其次，大规模标注跨应用交互轨迹要求精确捕捉每个步骤的界面状态与语义内容，并建立锚点之间的因果链接，这涉及高昂的人工与计算成本；最后，评估体系需专门设计以分离记忆因素与其他性能影响，从而精准量化状态丢失、错误绑定等记忆相关故障。

常用场景

经典使用场景

在移动应用自动化与智能代理领域，AndroTMem-Bench数据集被广泛应用于评估长视界图形用户界面（GUI）代理的记忆能力。该数据集通过构建跨应用的复杂任务流程，模拟真实用户操作场景，如多步骤的购物比价、行程预订或内容创建，要求代理在长达数十步的交互中维持状态一致性。研究者利用其丰富的因果依赖关系和结构化锚点状态，系统测试代理在长序列任务中的记忆保持与检索效能，为改进交互式人工智能系统的长期规划能力提供基准。

解决学术问题

该数据集针对长视界GUI任务中记忆崩溃这一核心瓶颈，解决了传统方法因轨迹冗余或信息丢失导致的性能衰减问题。通过引入锚定状态记忆（ASM）机制，将交互历史建模为因果关联的中间状态锚点，有效缓解了状态丢失、错误绑定和上下文漂移等学术挑战。其贡献在于提供了可量化的记忆故障诊断框架，推动了智能代理在复杂环境中的稳健性研究，并为依赖建模与状态重用理论提供了实证基础。

衍生相关工作

围绕AndroTMem-Bench数据集，已衍生出多项聚焦记忆增强与长视界推理的经典研究。例如，基于锚定状态记忆的扩展工作探索了更精细的因果图构建与动态检索策略；同时，该数据集也激励了针对GUI代理的跨任务泛化、抗干扰能力以及多模态状态表示等方面的创新。这些研究共同深化了对交互记忆系统的理解，并为后续的自动化界面智能体开发奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集