rootsautomation/ScreenSpot

Name: rootsautomation/ScreenSpot
Creator: rootsautomation
Published: 2024-04-10 19:52:26
License: 暂无描述

Hugging Face2024-04-10 更新2024-05-25 收录

下载链接：

https://hf-mirror.com/datasets/rootsautomation/ScreenSpot

下载链接

链接失效反馈

官方服务：

资源简介：

ScreenSpot是一个用于评估GUI定位任务的基准数据集，包含了来自iOS、Android、macOS、Windows和Web环境的1200多条指令，并标注了元素类型（文本或图标/部件）。每个测试样本包括图像、文件名、指令、边界框、数据类型和数据源。该数据集由南京大学和上海人工智能实验室的研究人员创建，用于评估多模态模型在屏幕上的定位能力。

提供机构：

rootsautomation

原始信息汇总

数据集概述

名称: ScreenSpot

创建者: 南京大学与上海人工智能实验室的研究人员

目的: 用于评估大型多模态模型（LMMs）在GUI定位任务上的表现，特别是基于文本指令在屏幕上进行元素定位的能力。

数据集描述:

语言: 英语
许可: Apache 2.0
任务类别: 文本生成、图像到文本
样本数量: 超过1200个指令
环境: iOS、Android、macOS、Windows和Web
元素类型: 文本或图标/部件

数据集结构:

特征:
- file_name: 界面截图文件名
- bbox: 目标元素的边界框
- instruction: 人类指令，用于提示定位
- data_type: 目标元素类型，如"icon"/"text"
- data_source: 界面平台，包括iOS、Android、macOS、Windows和Web
- image: 截图的原始像素

数据集使用:

用途: 作为基准测试数据集，用于零样本评估多模态模型在屏幕上的局部定位能力，不用于训练。

数据集创建:

数据收集与处理: 由南京大学计算机科学的博士和硕士生进行，他们根据日常使用设备的情况选择截图，并提供重要可点击区域的标注，最后编写指令以提示模型与特定标注元素交互。

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）研究领域，ScreenSpot数据集的构建体现了严谨的学术方法。其构建过程始于从iOS、Android、macOS、Windows及Web等多元平台中，系统性地采集具有代表性的屏幕截图。随后，由南京大学和上海人工智能实验室的计算机科学专业研究生作为标注者，基于日常设备使用经验，对截图中可交互的关键区域进行精细标注，并针对每个标注元素撰写自然语言指令。最终，数据集整合了超过1200条指令与对应的边界框坐标，形成了用于评估多模态模型在屏幕环境下进行视觉定位能力的基准测试集。

特点

ScreenSpot数据集的核心特征在于其广泛的覆盖性与精细的标注体系。数据集囊括了移动端、桌面端及网页端等多种交互环境，确保了评估场景的多样性与现实性。每条数据样本均包含屏幕截图、文本指令、目标元素的边界框、元素类型（文本或图标/控件）以及平台来源等多维度信息。特别地，边界框数据经过标准化处理，转换为（左上角x，左上角y，右下角x，右下角y）的格式，以增强与其他数据集的兼容性。这种结构化的设计为模型在零样本设置下的GUI定位能力提供了全面而精确的评估基础。

使用方法

该数据集专为基准测试而设计，不用于模型训练。研究人员可利用ScreenSpot对多模态模型进行零样本评估，以检验其根据文本指令在屏幕图像中精确定位目标元素的能力。典型的使用流程是加载数据集，将包含截图和指令的样本输入待评估模型，模型需输出预测的边界框，研究者随后可将预测结果与数据集中提供的真实标注边界框进行比较，通过计算交并比等指标来量化模型的定位性能。这为衡量模型在真实世界GUI交互任务中的视觉理解与推理水平提供了标准化的评估框架。

背景与挑战

背景概述

在人工智能与计算机视觉交叉领域，图形用户界面（GUI）的智能交互研究正成为人机交互的前沿方向。ScreenSpot数据集由南京大学与上海人工智能实验室的研究团队于2024年联合创建，旨在构建一个针对多模态大模型在屏幕界面元素定位任务上的评估基准。该数据集聚焦于GUI grounding这一核心研究问题，即模型如何依据文本指令在复杂屏幕截图中精准定位目标元素，涵盖iOS、Android、macOS、Windows及Web五大平台，共收录超过1200条标注样本。其诞生标志着视觉GUI代理研究从传统规则驱动向基于深度学习的端到端理解迈出了关键一步，为评估模型在真实场景下的跨平台泛化能力提供了标准化工具，对推动自动化界面操作与智能辅助技术的发展具有显著影响力。

当前挑战

ScreenSpot数据集所应对的领域挑战在于GUI grounding任务的复杂性，即模型需在多样化的屏幕布局与视觉元素中，准确理解自然语言指令的语义，并将其映射至图像空间中的具体位置。这一过程涉及跨模态对齐、细粒度视觉理解以及上下文推理等多重难点，尤其在界面元素密集、视觉相似度高或指令表述模糊时，模型易产生定位偏差。在构建过程中，研究团队面临数据采集与标注的挑战：需确保屏幕截图覆盖多平台典型使用场景，同时要求标注者具备专业领域知识以精准标注可交互区域并撰写自然指令，保证数据集的代表性与标注一致性。此外，数据格式的标准化转换，如边界框坐标体系的统一，也是保障数据集兼容性与评估公平性的关键环节。

常用场景

经典使用场景

在图形用户界面（GUI）智能体研究领域，ScreenSpot数据集作为一项基准测试工具，其经典使用场景聚焦于评估多模态模型在屏幕截图上的零样本定位能力。研究者通过该数据集提供的多样化屏幕环境（如iOS、Android、macOS、Windows及Web平台）及文本指令，系统性地检验模型能否准确识别并框定界面中的目标元素（如文本或图标/控件），从而衡量模型在无需额外训练的情况下，理解自然语言指令并执行视觉定位的泛化性能。

实际应用

在实际应用层面，ScreenSpot数据集为开发智能GUI自动化工具提供了重要的评估基础。例如，在软件测试自动化、无障碍辅助技术（如屏幕阅读器增强）以及跨平台用户界面智能导航系统中，模型需要精准理解用户指令并定位屏幕元素。通过利用该数据集进行模型能力评测，工程师能够筛选或优化出更鲁棒的多模态系统，从而提升自动化任务的执行准确率，降低人工干预成本，推动人机交互向更自然、高效的方向发展。

衍生相关工作

围绕ScreenSpot数据集，已衍生出一系列聚焦于GUI理解与交互的经典研究工作。其关联论文《SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents》提出了基于该基准的评估框架，并探讨了多模态模型在GUI grounding任务上的表现。后续研究可能在此基础上，进一步探索模型架构优化、跨平台泛化策略或结合强化学习的方法，以构建更强大的视觉GUI代理，这些工作共同丰富了人机交互与计算机视觉交叉领域的研究图谱。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集