GUIAct
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/yiye3/GUICourse
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在为视觉语言模型(VLMs)丰富关于图形用户界面(GUI)组件和交互的知识。它被用于测试GUI代理在特定任务中的性能表现。数据集包括来自不同分区的1.4k、1k和2k个样本,专门用于图形用户界面交互任务。
This dataset is intended to enrich the knowledge base of vision-language models (VLMs) regarding graphical user interface (GUI) components and interactions. It is employed to assess the performance of GUI AI Agents on specific tasks. The dataset contains 1.4k, 1k, and 2k samples distributed across different splits, which are exclusively designed for GUI interaction tasks.
搜集汇总
数据集介绍

背景与挑战
背景概述
GUIAct是GUICourse数据集组的一部分,专注于GUI导航任务,旨在增强视觉语言模型在网站和Android环境中的交互能力。它包含67k单步和15k多步动作指令,覆盖网页和智能手机场景,用于监督微调训练,以提升GUI代理的实用性和泛化性。数据以JSON和parquet格式提供,支持代码加载和评估,适用于GUI代理的开发和测试。
以上内容由遇见数据集搜集并总结生成



