memgui-bench-trajs

Hugging Face2026-02-09 更新2026-02-10 收录

下载链接：

https://huggingface.co/datasets/lgy0404/memgui-bench-trajs

下载链接

链接失效反馈

官方服务：

资源简介：

MemGUI-Bench Trajectories 数据集是一个专注于评估移动GUI代理内存能力的综合性基准测试数据集。该数据集包含128个任务，覆盖26个应用程序，其中89.8%的任务需要跨时间和跨空间的记忆保留能力。数据集结构包括每个任务的屏幕截图（如0.png, 1.png等）、执行日志（log.json）、评估结果（evaluation_summary.json和final_decision.json）以及动作可视化图像（位于visualize_actions/目录下）。这些轨迹由多种先进代理生成，旨在为研究人员提供丰富的实验数据。数据集适用于图像文本到文本的任务类别，主要语言为英语，标签包括移动GUI、代理内存、基准测试和视觉语言模型（VLM）。使用该数据集时，可通过官方仓库提供的命令运行基准测试或评估现有轨迹。

创建时间：

2026-02-03

搜集汇总

数据集介绍

构建方式

在移动图形用户界面智能体研究领域，MemGUI-Bench Trajectories数据集的构建遵循了系统化与标准化的原则。该数据集源自MemGUI-Bench基准测试框架，该框架精心设计了128项涵盖26个不同应用程序的任务，其中近九成任务要求智能体具备跨时空的信息保持能力。数据采集过程通过部署多种前沿的智能体模型在动态移动GUI环境中执行任务，自动记录每一步的屏幕截图、动作序列日志以及最终的性能评估结果，从而形成结构化的轨迹数据。

特点

该数据集的核心特征在于其专注于评估智能体的记忆能力，填补了现有基准测试在记忆密集型任务上的空白。数据集包含由不同先进智能体生成的完整执行轨迹，每条轨迹不仅提供了原始的视觉状态序列（屏幕截图），还附带了详尽的动作日志和标准化的评估摘要。这种多模态、细粒度的数据组织形式，使得研究者能够深入分析智能体在复杂、动态的界面环境中如何利用记忆进行决策与交互。

使用方法

利用该数据集进行研究，通常需要结合其官方代码库。研究者可以通过提供的命令行工具，复现完整的基准测试流程，包括执行特定任务并生成新的轨迹，或对已有轨迹进行离线评估。数据集的结构清晰，按任务和智能体进行组织，便于用户直接加载和分析其中的JSON日志与图像文件，以量化比较不同模型在记忆任务上的表现，或为开发新型记忆增强型GUI智能体提供训练与验证数据。

背景与挑战

背景概述

随着移动图形用户界面（GUI）智能代理技术的快速发展，评估这些代理在动态环境中的记忆能力成为一项关键研究课题。MemGUI-Bench数据集由浙江大学等机构的研究团队于2026年创建，旨在系统性地评测移动GUI代理的记忆性能。该数据集围绕内存密集型任务设计，涵盖26个应用程序中的128项任务，其中近90%的任务要求代理具备跨时空信息保持能力。通过提供包含屏幕截图、执行日志和评估指标的轨迹数据，MemGUI-Bench为研究社区建立了一个标准化评测基准，显著推动了具身智能与交互式代理领域在记忆机制方面的探索。

当前挑战

MemGUI-Bench数据集致力于解决移动GUI代理在复杂动态环境中长期记忆与信息整合的核心挑战。具体而言，该数据集要求代理在任务执行过程中维持跨时间步和跨界面空间的信息连贯性，这对现有模型的记忆容量与推理能力构成了严峻考验。在构建过程中，研究团队面临如何设计既真实反映用户交互场景又具备可重复评测性的任务序列，同时需确保轨迹数据的多样性与标注一致性。此外，平衡任务复杂度与评测效率，以及建立公平且全面的评估指标体系，亦是数据集构建中需要克服的关键难题。

常用场景

经典使用场景

在移动图形用户界面智能体研究领域，MemGUI-Bench Trajectories数据集为评估智能体在动态环境中的记忆能力提供了标准化测试平台。该数据集通过记录智能体执行128项跨应用任务时的完整轨迹，包括屏幕截图、动作序列与性能指标，使研究者能够系统分析智能体在跨时空信息保持、状态追踪及长期依赖处理方面的表现。其经典使用场景集中于对比不同视觉语言模型或强化学习算法在复杂交互任务中的记忆机制优劣，为移动GUI自动化技术的演进提供了关键实验依据。

实际应用

在实际应用层面，该数据集支撑的评估框架可直接服务于移动应用自动化测试与无障碍交互系统开发。通过分析智能体在真实应用场景中的轨迹数据，工程师能够优化自动化脚本的鲁棒性，提升对界面动态变化的适应能力。在辅助技术领域，基于记忆强化的GUI智能体可帮助视障用户完成多步骤跨应用操作，如电商比价或行程规划。此外，轨迹数据中蕴含的动作模式也为设计更智能的移动端人机协作界面提供了行为范式参考。

衍生相关工作

围绕该数据集衍生的经典工作主要集中于记忆增强型智能体架构的创新与评估范式的拓展。部分研究利用轨迹中的跨任务模式，开发了基于外部记忆模块或分层注意力机制的GUI智能体，显著提升了长程依赖任务的成功率。另一些工作则通过分析轨迹失败案例，提出了针对界面状态歧义性的新型评估指标。这些衍生成果不仅丰富了移动GUI智能体的技术路线图，更推动了人机交互、强化学习与计算机视觉领域的交叉融合，催生了多模态记忆建模的一系列突破性进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集