CAGUI

Name: CAGUI
Creator: OpenBMB
Published: 2025-05-13 14:20:16
License: 暂无描述

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/openbmb/CAGUI

下载链接

链接失效反馈

官方服务：

资源简介：

CAGUI是一个面向中文Android应用的GUI基准数据集，旨在评估GUI智能体模型在GUI组件理解和多步骤操作执行两个方面的能力。数据集包含了两组JSONL文件以及相应的截图，分别为CAGUI_agent和CAGUI_grounding。CAGUI_agent记录了用户目标的操作步骤，而CAGUI_grounding提供了GUI组件定位和文本识别的注释信息。

提供机构：

OpenBMB

创建时间：

2025-05-08

搜集汇总

数据集介绍

构建方式

在移动智能交互领域，CAGUI数据集的构建采用了双轨并行策略，通过真实场景下的中文安卓应用界面采集实现。其基础数据源自公开可获取的中国本土应用程序截图，并依托专业标注流程对图形用户界面元素进行语义映射。标注体系涵盖组件定位与文本识别两大维度，采用标准化坐标归一化处理技术，确保界面元素的空间关系与语义描述精确对应。每个交互步骤均以时间序列方式记录操作轨迹，形成结构化的多模态数据单元。

特点

该数据集展现出鲜明的双模态特性，既包含细粒度的界面组件语义标注，又提供完整的任务执行轨迹记录。其界面元素标注采用像素级与归一化坐标双重标准，支持从功能描述到空间定位的多维度查询。在任务执行层面，数据集完整保留了用户指令、操作类型、触控坐标等关键参数，并配备逐步截屏序列以实现行为可视化。这种设计使得数据集能同时满足静态界面理解与动态交互推演的研究需求。

使用方法

研究者可通过分层数据接口访问该数据集，代理任务数据以JSON格式存储完整的交互序列，包含指令理解、动作执行与状态转移的全流程信息。基础定位任务则通过JSONL文件提供组件与文本的对应关系，支持端到端的模型训练与评估。实际应用中，开发者可分别加载代理轨迹数据模拟完整操作流程，或利用定位标注数据训练界面元素检测模型，所有数据均配备标准化坐标转换接口以适配不同分辨率设备。

背景与挑战

背景概述

随着移动应用生态的蓬勃发展，图形用户界面（GUI）智能体模型的研究逐渐成为人机交互领域的前沿课题。CAGUI数据集由OpenBMB团队于2025年创建，聚焦中文Android应用环境下的GUI理解与交互任务。该数据集旨在解决GUI组件的语义关联与多步骤任务执行两大核心问题，通过真实场景的屏幕截图与交互轨迹，为构建具备自主操作能力的移动端智能体提供了关键数据支撑，显著推动了中文环境下的GUI智能体技术发展。

当前挑战

在GUI智能体研究领域，模型需同时应对视觉元素的精准定位与动态交互决策的双重挑战。CAGUI构建过程中面临多模态数据对齐的复杂性，包括屏幕截图与操作指令的时空关联、中文界面元素的语义解析，以及跨应用交互逻辑的标准化标注。此外，真实场景下的界面多样性、操作路径的冗余性，以及非商业用途的数据合规要求，均为数据集的构建与模型评估带来实质性困难。

常用场景

经典使用场景

在移动应用智能交互领域，CAGUI数据集为评估GUI代理模型提供了标准化测试环境。其经典使用场景聚焦于模型对中文Android应用界面的多模态理解与操作能力，通过自然语言指令驱动代理完成如点击、输入、滚动等交互任务，同时支持对界面元素的语义 grounding 验证，为智能助手与自动化流程开发奠定基础。

衍生相关工作

基于CAGUI衍生的经典工作包括AgentCPM-GUI框架，该研究通过强化学习微调策略实现了端到端的GUI操作代理。后续研究进一步扩展了多模态融合方法，例如结合视觉语言模型提升元素定位精度，或利用序列建模优化任务规划能力，持续推动移动端具身智能的技术演进。

数据集最近研究