GUI-Net

Name: GUI-Net
Creator: 中国科学院自动化研究所
Published: 2025-04-17 14:15:56
License: 暂无描述

arXiv2025-04-17 更新2025-04-20 收录

下载链接：

https://TongUI-agent.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

GUI-Net数据集是由中国科学院自动化研究所构建的，包含143K个跨五个操作系统和200多个应用程序的GUI轨迹数据。该数据集通过从丰富的多模态网络教程中抓取和处理而得，旨在用于训练GUI智能体，提高其在不同应用程序和操作系统间的泛化能力。

The GUI-Net dataset was developed by the Institute of Automation, Chinese Academy of Sciences, containing 143K GUI trajectory data spanning five operating systems and over 200 applications. This dataset is collected and processed from rich multimodal web tutorials, and is designed for training GUI agents to enhance their generalization capability across diverse applications and operating systems.

提供机构：

中国科学院自动化研究所

创建时间：

2025-04-17

搜集汇总

数据集介绍

构建方式

GUI-Net数据集的构建采用了从多模态网络教程中自动提取轨迹数据的方法。研究团队首先通过关键词搜索从YouTube、Bilibili、WikiHow等平台爬取GUI操作教程，包括视频和图文内容。随后利用自动语音识别技术处理视频音频，使用大型语言模型提取任务描述和操作步骤。对于视觉内容，采用背景差分算法从视频中提取关键帧，并过滤非GUI截图。最后通过预训练的GUI代理自动生成包含推理思路和操作动作的完整轨迹。

特点

该数据集具有显著的跨平台和跨应用特性，涵盖Windows、MacOS、Android等五大操作系统和200余种应用程序。数据规模达143K条轨迹，包含1.24B标记。其多样性体现在任务复杂度分布上，从单步操作到9步工作流均有覆盖，且动作类型均衡包含点击、滑动、输入等常见交互方式。特别值得注意的是，数据集通过真实网络教程构建，确保了数据质量与实用性的平衡。

使用方法

GUI-Net主要用于训练和评估GUI代理的泛化能力。研究人员基于Qwen2.5-VL模型进行监督微调，采用两阶段训练策略：先使用混合数据集预训练，再针对特定评估基准微调。评估时支持零样本测试和在线环境测试两种模式，通过动作准确率、元素定位精度等指标衡量代理性能。数据集特别适用于跨应用、跨平台的GUI任务自动化研究，其多模态特性也支持视觉-语言-动作联合建模。

背景与挑战

背景概述

GUI-Net数据集由BIGAI（北京通用人工智能研究院）联合北京理工大学、北京大学等机构的研究团队于2025年提出，旨在解决图形用户界面（GUI）智能体开发中数据稀缺的核心问题。该数据集通过爬取多模态网络教程（包括视频和图文指南），将其转化为143K条跨5大操作系统、覆盖200余种应用的交互轨迹数据，显著降低了传统人工标注的高成本。作为首个基于真实网络资源的GUI轨迹数据集，GUI-Net为构建通用GUI智能体提供了关键的数据支撑，其创新性的数据构建范式对人机交互、软件自动化测试等领域产生了深远影响。

当前挑战

GUI-Net面临的挑战主要体现在两个维度：在领域问题层面，需解决GUI智能体跨平台泛化能力不足的难题，包括不同操作系统间UI元素差异、动态界面状态跟踪等复杂场景；在构建过程中，需克服多模态教程的异构性处理（如视频关键帧提取、图文对齐）、噪声数据过滤（如非GUI截图识别）以及轨迹自动生成的准确性控制（如零样本智能体的动作映射误差）。此外，保持数据多样性与真实性的平衡，避免合成数据导致的分布偏移问题，也是数据集构建的关键挑战。

常用场景

经典使用场景

在图形用户界面（GUI）自动化研究领域，GUI-Net数据集通过整合跨平台的多模态教程数据，为构建通用型GUI智能体提供了丰富的训练资源。该数据集覆盖Windows、MacOS等五大操作系统和200余种应用程序，其核心应用场景在于模拟人类与各类数字界面的交互行为，如文档格式调整、应用安装等复杂操作序列的自动化执行。

实际应用

在实际应用层面，GUI-Net支撑的智能体已成功部署于办公自动化、软件测试等场景。例如在金融领域实现报表自动生成，在工业控制系统中完成设备参数配置，其多语言支持特性（如中文百度经验数据）进一步扩展了全球化应用的潜力。该技术将重复性GUI操作效率提升80%以上，成为企业数字化转型的重要工具。

衍生相关工作

该数据集催生了多项里程碑式研究：UI-TARS利用类似架构实现50B规模数据训练，在导航任务中达到89.5%准确率；CogAgent基于跨模态学习框架开发出支持GUI问答的视觉语言模型；SeeClick则创新性地结合HTML解析与视觉定位，在网页元素识别任务中树立新基准。这些工作共同推动了人机交互研究向更智能、更普适的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集