GAMBIT

Hugging Face2025-10-28 更新2025-10-29 收录

下载链接：

https://huggingface.co/datasets/melonthrower12138/GAMBIT

下载链接

链接失效反馈

官方服务：

资源简介：

GAMBIT是一个为评估移动GUI代理在长周期规划和复杂决策任务上的能力而设计的基准。它通过图结构的决策感知任务，系统地评估和提升现代代理在现实场景中的条件推理和长期规划能力。

创建时间：

2025-10-27

原始信息汇总

GAMBIT 数据集概述

数据集简介

GAMBIT 是一个用于评估移动 GUI 智能体在长程规划和复杂决策任务中表现的基准测试。该基准通过引入图结构、决策感知任务，系统性地评估现代智能体在真实场景中的能力。

数据组织结构

数据集解压后结构如下：

GAMBIT ├── data │ ├── annotations │ │ └── .json │ ├── screenshots │ │ └── data_ │ │ └── *.png

标注文件结构

JSON 标注文件包含以下字段：

episode_id (str): 任务片段标识符
w, h (int): 截图宽度和高度
device_info (dict): 设备信息字典
instruction (str): 自然语言任务指令
category (str): 任务类型，包括：single、and(Conjunctive)、chain(Sequential)、selection(Conditional)、nested(Hierarchical)
APP (list): 涉及的应用列表
steps (list): 步骤列表，包含截图路径、步骤指令和动作
atomic_instructions (dict): 原子动作字典
seq (dict): 分支序列字典（仅 selection 和 nested 类型包含）
seq_step: 分支步骤ID（仅 selection 和 nested 类型包含）
instruction_cn (str): 中文版任务指令

动作空间

支持的动作类型及参数格式：

Click[int, int, int, int]: 在屏幕区域 [x, y, m, n] 内点击
long_press[int, int, int, int]: 长按屏幕指定位置
scroll[int, int, int, int]: 滚动操作，指定起始和结束点坐标
type(str): 文本输入，参数为输入文本
navigate_home: 返回主页
navigate_back: 返回上一页
complete: 任务完成
impossible: 任务无法完成
wait: 等待数秒

引用信息

如需在研究中引用 GAMBIT，请使用以下文献格式： bibtex @article{anonymous2026gambit, title={{GAMBIT}: {A} Graph-Structured and Decision-Aware Benchmark for Mobile {GUI} Tasks}, author={Anonymous Authors}, journal={Submitted to International Conference on Learning Representations (ICLR)}, year={2026} }

相关资源

代码仓库：https://github.com/melonthrower/GAMBIT/tree/master
论文地址：https://openreview.net/pdf?id=MDxLNScqiK

搜集汇总

数据集介绍

构建方式

在移动图形用户界面智能体评估领域，GAMBIT数据集通过系统化任务设计构建而成。其采用图结构任务框架，涵盖单一指令、联合任务、顺序流程、条件选择及分层嵌套五种任务类型。数据采集过程整合了真实设备截图与结构化标注，每个任务节点包含屏幕截图路径、步骤说明及标准化操作序列，并通过双语指令字段支持跨语言研究需求。

特点

该数据集的核心特征在于其图结构与决策感知的双重属性。不同于传统线性任务基准，GAMBIT通过条件分支和嵌套层级模拟真实移动应用场景中的复杂决策路径。其动作空间设计涵盖点击、长按、滚动等九种交互模式，并采用坐标参数化描述确保操作精度。任务类别体系从简单到复杂渐进排列，为评估智能体的长期规划能力提供多维度量标准。

使用方法

研究者可通过解压屏幕截图与标注文件获取结构化数据。使用时应按照目录层级加载JSON标注文件，其中包含完整的任务元数据与步骤序列。实验设计可依据任务类别字段进行分层评估，特别关注选择类和嵌套类任务中的分支序列分析。动作执行需严格遵循定义的坐标空间与参数格式，通过解析步骤列表中的原子指令实现端到端任务验证。

背景与挑战

背景概述

随着移动图形用户界面交互技术的快速发展，评估智能代理在复杂任务中的规划能力成为人机交互领域的重要研究方向。GAMBIT基准数据集由匿名研究团队于2026年提出，旨在系统评估移动GUI代理在长程规划和复杂决策任务中的表现。该数据集通过构建图结构化的决策感知任务，弥补了传统基准仅关注线性工作流的不足，为研究智能代理的条件推理与分层决策能力提供了标准化评估框架。

当前挑战

在移动GUI任务领域，智能代理需应对多模态指令理解、动态界面元素定位以及跨应用工作流协调等核心难题。GAMBIT构建过程中面临标注复杂性的挑战，包括对条件选择、层次化任务等非线性格局的结构化标注，以及保持屏幕截图与动作序列时空一致性的技术难点。这些挑战要求数据集设计既能反映真实场景的决策复杂度，又需确保标注规范的系统性与可扩展性。

常用场景

经典使用场景

在移动图形用户界面（GUI）智能体评估领域，GAMBIT数据集通过图结构任务设计，系统化测试代理在长时程规划与复杂决策中的表现。其核心应用聚焦于模拟真实移动应用环境中的多步骤交互流程，例如从启动应用、条件分支选择到完成嵌套任务的全过程，为评估代理的推理连贯性和动作序列优化提供了标准化平台。

衍生相关工作

受GAMBIT的图结构任务范式启发，后续研究相继提出了基于强化学习的层次化决策模型与动态规划算法。这些工作通过解构数据集中条件分支与序列依赖关系，开发出具有状态感知能力的跨应用导航系统，并在元强化学习、多模态指令理解等领域催生了系列创新方法，持续拓展着移动交互智能的技术边界。

数据集最近研究