GUI-Lasagne

Name: GUI-Lasagne
Creator: 商汤科技
Published: 2025-03-05 13:30:22
License: 暂无描述

arXiv2025-03-05 更新2025-03-07 收录

下载链接：

https://huggingface.co/SenseLLM/SpiritSight-Agent-8B

下载链接

链接失效反馈

官方服务：

资源简介：

GUI-Lasagne是一个多级别、大规模、高质量的GUI数据集，由商汤科技创建。该数据集包含5.73百万个样本，通过精心设计的规则从现实世界中收集并过滤，以确保数据质量。数据集分三个层级构建：文本/图标识别与定位数据、功能定位数据和GUI导航数据。前两部分构成数据集的90%，以免费方式收集，大大降低了数据收集成本。该数据集旨在增强模型对GUI的理解和定位能力，用于GUI导航任务。

GUI-Lasagne is a multi-level, large-scale, high-quality GUI dataset created by SenseTime. This dataset contains 5.73 million samples, which are collected and filtered from real-world scenarios using meticulously designed rules to ensure data quality. The dataset is structured in three tiers: text/icon recognition and localization data, function localization data, and GUI navigation data. The first two tiers account for 90% of the total dataset, and are collected free of charge, which greatly reduces data collection costs. This dataset is designed to enhance models' GUI understanding and localization capabilities, and is tailored for GUI navigation tasks.

提供机构：

商汤科技

创建时间：

2025-03-05

搜集汇总

数据集介绍

构建方式

GUI-Lasagne数据集的构建采用了多层级、大规模、高质量的GUI数据收集方法。首先，通过从真实世界的Web页面收集数据，并使用精心设计的规则进行过滤，确保数据质量。数据集由三个层级组成：文本/图标识别和定位数据、功能定位数据以及GUI导航数据。其中，前两部分数据占总数据的90%，并且是免费收集的，从而显著降低了数据收集成本。其次，为了解决动态高分辨率输入中的歧义问题，引入了通用块解析（UBP）方法，通过在模型输入中添加2D块位置嵌入（2D-BPE）并使用块特定坐标表示来捕捉空间信息，从而提高了模型对GUI元素的定位能力。

使用方法

GUI-Lasagne数据集可以用于训练GUI智能体，提升其在GUI导航任务中的性能。数据集的三个层级分别对应文本/图标识别和定位、功能定位以及GUI导航，为模型提供了不同层次的GUI知识。通过使用通用块解析（UBP）方法，模型可以更好地理解和定位GUI元素，从而提高GUI导航任务的准确性和效率。

背景与挑战

背景概述

随着现代数字设备的不断发展，图形用户界面(GUI)自动化一直是人们追求的目标。GUI代理被构建来帮助用户与图形界面交互，自动根据对环境的观察和用户的指令进行动作决策。现有的方法可以根据其输入模态分为三类：基于语言的和基于视觉-语言的方法使用超文本标记语言(HTML)或可扩展标记语言(XML)和屏幕截图作为输入，而基于视觉的方法仅使用GUI屏幕截图作为输入。然而，基于视觉的方法在元素定位方面存在局限性，导致准确性较低。为了解决这个问题，我们提出了SpiritSight，一个基于视觉的、端到端的GUI代理，在各种GUI平台上的GUI导航任务中表现出色。我们创建了一个多级、大规模、高质量的GUI数据集GUI-Lasagne，为SpiritSight提供了强大的GUI理解和定位能力。此外，我们引入了通用块解析(UBP)方法来解决动态高分辨率视觉输入中的歧义问题，进一步增强SpiritSight对GUI对象的定位能力。通过这些努力，SpiritSight代理在各种GUI基准测试中优于其他先进方法，展示了其在GUI导航任务中的优越能力和兼容性。

当前挑战

GUI-Lasagne数据集和相关的研究面临着一系列挑战。首先，构建高质量的GUI数据集需要大量的资源和时间，尤其是在元素定位方面。其次，动态高分辨率策略可能会引入歧义，影响模型的定位能力。此外，GUI代理在实际应用中需要解决隐私和安全问题，因为它们需要访问屏幕截图，这些截图可能包含个人信息或敏感数据。最后，GUI代理需要具备跨平台和跨语言的兼容性，以适应不同的GUI环境和语言环境。

常用场景

经典使用场景

GUI-Lasagne数据集在GUI导航任务中表现出色，尤其是在各种GUI平台上的导航任务。该数据集为SpiritSight模型提供了强大的GUI理解和定位能力，使其能够在不同的GUI环境中进行高效的导航。此外，GUI-Lasagne数据集在视觉功能对齐任务中也有广泛应用，例如在屏幕定位、功能定位等方面，为视觉GUI代理提供了丰富的训练数据。

解决学术问题

GUI-Lasagne数据集解决了视觉GUI代理在GUI元素定位方面的低精度问题。该数据集通过收集大规模、高质量的GUI数据，并引入多级组件结构，增强了模型对GUI元素的理解和定位能力。此外，GUI-Lasagne数据集还解决了动态高分辨率输入带来的歧义问题，通过引入UBP方法，进一步提高了模型对GUI对象的定位能力。

实际应用

GUI-Lasagne数据集在实际应用场景中具有广泛的应用前景。例如，在Web、移动和桌面环境中，GUI-Lasagne数据集可以用于开发高效的GUI导航系统，帮助用户快速找到所需的功能和元素。此外，GUI-Lasagne数据集还可以用于开发基于视觉的GUI代理，实现自动化的人机交互。

数据集最近研究