Voxel51/ScreenSpot-v2

Name: Voxel51/ScreenSpot-v2
Creator: Voxel51
Published: 2025-06-25 18:17:06
License: 暂无描述

Hugging Face2025-06-25 更新2025-07-05 收录

下载链接：

https://hf-mirror.com/datasets/Voxel51/ScreenSpot-v2

下载链接

链接失效反馈

官方服务：

资源简介：

ScreenSpot-v2是一个基于FiftyOne平台的1272个样本的数据集，用于评估跨多个平台（移动、桌面和网页）的单步GUI定位能力。数据集按照平台类型分为Web领域、桌面领域和移动领域，每个领域包含不同的问题，要求根据自然语言指令识别屏幕上的文本或图标/小部件元素。数据集提供了屏幕截图以及目标元素的地面真实坐标或边界框。

ScreenSpot-v2 is a dataset with 1272 samples based on the FiftyOne platform, designed for evaluating single-step GUI grounding capabilities across multiple platforms (mobile, desktop, and web). The dataset is organized by platform type into web, desktop, and mobile domains, with each domain containing different questions that require identifying text or icon/widget elements based on natural language instructions. The dataset includes screenshots and corresponding ground truth coordinates or bounding boxes for the target elements.

提供机构：

Voxel51

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）智能体研究的蓬勃发展中，精准的界面元素定位能力成为衡量模型性能的关键。ScreenSpot-V2数据集正是为此而生，它源自对原始ScreenSpot基准测试的严谨修订。研究团队首先识别出原数据集中约11.32%的样本存在标注错误、指令歧义或高相似度问题，随后逐一移除并替换这些有问题的样本。同时，将原本以指代表达形式呈现的指令全部改写为自然语言描述，并纠正了误标的地面真值边界框，最终构建出一个包含1272个样本的高质量评估基准。数据按平台类型划分为Web（436个）、桌面（334个）和移动端（502个）三大领域，每个样本均包含屏幕截图、自然语言指令以及目标元素的坐标或边界框标注。

特点

该数据集的核心特点在于其严谨的纠错机制与跨平台覆盖能力。通过系统性修正原基准中的拼写错误、元素缺失引用、多解歧义及边界框标注偏差等缺陷，ScreenSpot-V2显著提升了评估的公正性与可靠性。其结构设计突出实用性，每个样本的“instruction”字段提供自然语言任务描述，“data_source”记录操作系统类型，“action_detection”则以检测格式存储元素类别（文本或图标）及其归一化边界框坐标。这种层次化的字段组织不仅便于模型直接调用，还支持细粒度的性能分析。此外，数据集明确聚焦于单步GUI定位任务，为多平台环境下的智能体评估提供了标准化、可复现的测试场景。

使用方法

使用ScreenSpot-V2数据集需通过FiftyOne库进行加载。用户首先需安装FiftyOne（命令：pip install -U fiftyone），随后在Python环境中调用`from fiftyone.utils.huggingface import load_from_hub`导入工具函数，并通过`load_from_hub("Voxel51/ScreenSpot-v2")`加载完整数据集。加载时支持通过`max_samples`等参数控制样本数量。数据集以FiftyOne的Dataset对象形式返回，可直接调用`fo.launch_app(dataset)`启动可视化界面进行浏览与交互。对于模型评估，用户可遍历样本中的`instruction`和`action_detection`字段，将自然语言指令与屏幕截图作为输入，预测目标元素的边界框，并与地面真值进行对比计算定位精度。

背景与挑战

背景概述

随着图形用户界面（GUI）智能体的快速发展，如何精准定位屏幕上的交互元素成为实现自主操作的关键瓶颈。ScreenSpot-V2数据集由OS-ATLAS团队于2024年创建，旨在评估多平台（移动端、桌面端及网页端）GUI基础定位能力。该数据集包含1272个样本，覆盖436个网页、334个桌面及502个移动端问题，每个问题要求模型根据自然语言指令定位文本或图标/控件元素。作为原始ScreenSpot基准的修正版本，ScreenSpot-V2纠正了约11.32%的标注错误，包括拼写错误、指令指代缺失元素、歧义问题及边界框错标等，显著提升了评估的可靠性与公平性。该数据集与OS-ATLAS基础动作模型紧密关联，为通用型GUI智能体的研究提供了标准化测试平台，推动了人机交互与视觉代理领域的实证进展。

当前挑战

ScreenSpot-V2所解决的领域挑战主要在于GUI元素的细粒度定位任务，该任务要求模型在复杂界面中准确理解自然语言指令并匹配到具体交互点，而传统图像分类或目标检测方法难以应对界面布局的动态性与元素语义的多样性。构建过程中，团队面临多重挑战：首先，原始ScreenSpot数据集中约11.32%的样本存在硬性错误，如指令中的拼写错误导致模型无法理解、引用截图内不存在的元素造成无解问题、以及多个合理答案共存的歧义性问题，这些均会引入评估偏差。其次，部分指令以指代表达式（REG）形式编写，需统一改写为自然语言指令以贴近真实用户场景。此外，错误标注的边界框需要逐例人工核查与修正，在保持总问题数不变的前提下，团队需平衡修正幅度与数据集规模，确保修正后的样本仍能覆盖原始平台分布与元素类型多样性。

常用场景

经典使用场景

ScreenSpot-V2 作为图形用户界面（GUI）智能体领域的关键基准数据集，专门用于评估模型在多平台（移动端、桌面端和网页端）上的单步 GUI 定位能力。该数据集包含 1,272 个样本，覆盖了文本元素和图标/控件元素的定位任务，要求模型根据自然语言指令精准识别屏幕截图中目标元素的坐标或边界框。其经典使用场景在于衡量视觉语言模型（VLM）和 GUI 智能体在复杂界面中理解用户意图并定位交互元素的能力，为跨平台 GUI 定位研究提供了标准化的评测框架。

解决学术问题

该数据集有效解决了原始 ScreenSpot 基准中存在的约 11.32% 的标注错误问题，包括指令拼写错误、引用屏幕中不存在的元素、歧义性问题、样本间高度相似性以及错误标注的真实边界框。通过修正这些问题，ScreenSpot-V2 为学术界提供了一个更可靠、更公平的 GUI 定位性能评估工具，避免了因数据偏差导致的误导性结论，从而推动了 GUI 智能体领域实验结果的可靠性和可复现性。其意义在于为后续研究奠定了高质量的数据基础，促进了更精准的模型性能比较与分析。

衍生相关工作

ScreenSpot-V2 衍生了一系列重要的学术工作，最典型的是 OS-ATLAS 项目，该项目提出了一个面向通用 GUI 智能体的基础动作模型。研究团队在修正 ScreenSpot 标注错误的基础上，进一步探索了如何利用该数据集训练模型实现跨平台的单步和多步 GUI 操作。此外，该数据集还启发了后续关于 GUI 定位任务中指令理解与视觉感知联合优化的研究，成为评估 GUI 智能体在真实场景中泛化能力的重要基准，推动了视觉代理领域从简单定位向复杂任务执行的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集