GUI-360◦

Name: GUI-360◦
Creator: 微软公司
Published: 2025-11-06 20:19:02
License: 暂无描述

arXiv2025-11-06 更新2025-11-13 收录

下载链接：

https://hf-mirror.com/datasets/vyokky/GUI-360

下载链接

链接失效反馈

官方服务：

资源简介：

GUI-360◦是一个大规模、全面的计算机使用代理（CUAs）数据集和基准测试套件，旨在推动桌面环境下的智能代理研究。该数据集包含超过120万个执行的动作步骤，涵盖数千个在流行Windows办公应用程序中的轨迹，包括全分辨率截图、可访问性元数据、实例化目标、中间推理轨迹以及成功和失败的动作轨迹。GUI-360◦支持三个典型任务：GUI定位、屏幕解析和动作预测，以及一个混合GUI+API动作空间，反映了现代代理设计。数据集的创建过程包括查询来源、环境模板构建、任务实例化、批量执行和LLM驱动的质量过滤。该数据集旨在解决桌面CUAs训练和评估中的挑战，并提供了一个可扩展的、具有挑战性的基准测试，以推动智能代理在数字环境中的任务自动化研究。

提供机构：

微软公司

创建时间：

2025-11-06

搜集汇总

数据集介绍

构建方式

在桌面智能代理研究领域，GUI-360◦通过创新的多阶段自动化流程实现了数据集构建。该流程始于真实用户查询的采集，涵盖应用内帮助文档、在线社区和搜索引擎三大来源，确保任务意图的真实性与多样性。随后采用环境模板构建机制，将查询聚类为可执行的环境模板，显著降低了人工配置成本。任务实例化阶段通过大语言模型驱动的模板匹配与查询具体化，将模糊的用户需求转化为精确可执行指令。最终通过两阶段自动化执行策略，结合专用代理框架TrajAgent，在受控的Windows沙箱环境中批量生成包含完整交互轨迹的多模态数据。

特点

GUI-360◦数据集在覆盖广度和数据深度方面展现出显著优势。其核心特征体现在三个方面：首先，数据集规模庞大，包含超过120万执行步骤，覆盖Word、Excel和PowerPoint三大办公应用，提供21万张高分辨率截图和1760万标注界面元素。其次，多模态数据完整性突出，每个样本均包含完整截图、可访问性元数据、自然语言目标、中间推理轨迹以及成功与失败的动作序列。第三，任务支持全面性，同时支持界面元素定位、屏幕解析和动作预测三大核心任务，并创新性地融合了图形界面操作与应用程序接口的混合动作空间，真实反映了现代智能代理的设计需求。

使用方法

该数据集为桌面智能代理研究提供了系统的评估框架。在模型训练方面，研究者可利用训练集进行监督微调，特别适用于视觉-语言模型在图形界面理解任务上的性能优化。评估阶段则通过标准化的测试集GUI-360◦-Bench，对模型在三大任务上的表现进行量化分析。具体而言，界面元素定位任务要求模型根据当前状态预测交互坐标；屏幕解析任务需要模型识别截图中的所有可交互元素及其属性；动作预测任务则评估模型基于用户意图生成下一步动作的能力。数据集支持纯视觉和视觉加可访问性元数据两种输入模式，为不同架构的模型提供了灵活的评估方案。

背景与挑战

背景概述

GUI-360◦数据集由微软等机构的研究团队于2025年提出，旨在推动计算机使用代理（CUAs）在桌面环境中的智能化发展。该数据集聚焦于解决图形用户界面理解与交互的核心研究问题，通过整合真实用户查询与自动化执行轨迹，覆盖了Word、Excel和PowerPoint等主流办公软件的高频任务。其创新性在于构建了首个支持GUI定位、屏幕解析和动作预测的多任务统一基准，并通过大规规模数据与混合动作空间设计，显著提升了桌面代理在复杂场景下的泛化能力与实用性，为多模态人机交互研究提供了关键基础设施。

当前挑战

GUI-360◦致力于攻克桌面代理领域的两大核心挑战：一是真实任务执行的复杂性，包括高分辨率界面中异构元素的精确定位、长时序动作规划的容错性要求，以及混合内容布局下的语义理解难题；二是数据构建过程中的技术瓶颈，需克服多模态轨迹自动采集的可靠性问题，解决无标注意义下屏幕解析的标注成本，并平衡自动化流程与数据质量控制的矛盾，同时需应对跨应用依赖和版本兼容性等现实约束。

常用场景

经典使用场景

在桌面自动化智能体研究领域，GUI-360◦数据集为GUI定位、屏幕解析和动作预测三大核心任务提供了标准化评估基准。该数据集通过整合真实世界用户查询与自动化执行轨迹，构建了包含120万执行步骤的大规模语料库，覆盖Word、Excel、PowerPoint等主流办公软件。研究者可基于该数据集系统评估模型在复杂桌面环境中的多模态理解能力，特别是在处理高分辨率混合内容界面时的视觉推理精度。

实际应用

该数据集支撑的智能体技术已在办公自动化领域展现实际价值，能够将自然语言指令转化为精确的界面操作序列。企业可利用该技术构建智能办公助手，实现文档格式批量调整、表格数据自动化处理、演示文稿智能排版等高频工作流。在无障碍服务领域，基于GUI-360◦训练的模型可通过屏幕解析技术为视障用户提供界面元素语音描述，大幅提升数字产品的可访问性。

衍生相关工作

GUI-360◦催生了多个里程碑式的研究成果，其中OmniParser系列工作基于该数据集的屏幕解析任务开发了纯视觉界面理解架构。UGround模型通过引入大规模GUI预训练数据，在元素定位任务上实现了53.85%的准确率突破。GUI-Actor提出的坐标无关动作预测机制，有效解决了跨分辨率环境下的动作泛化问题。这些衍生工作共同推动了桌面智能体从实验室原型向实用系统的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集