test3

Hugging Face2025-04-22 更新2025-04-23 收录

下载链接：

https://huggingface.co/datasets/lett9468/test3

下载链接

链接失效反馈

官方服务：

资源简介：

ScreenSpot是一个评估GUI定位的评价基准，包含来自iOS、Android、macOS、Windows和Web环境的1200多条指令，以及注释的元素类型（文本或图标/小部件）。该数据集用于零样本评估多模态模型在屏幕上的局部定位能力。

创建时间：

2025-04-18

搜集汇总

数据集介绍

构建方式

在GUI交互研究领域，ScreenSpot数据集通过系统化的构建流程实现了对多模态模型评估能力的提升。研究团队从iOS、Android、macOS、Windows及Web环境中采集了1200余组界面截图，由计算机科学专业的硕博研究人员基于日常设备使用场景进行标注。标注过程中，专业人员首先识别界面中的可交互区域，随后为每个元素编写对应的交互指令，最终形成包含边界框坐标、元素类型及操作指令的结构化数据。

特点

作为GUI定位任务的评估基准，该数据集展现出鲜明的跨平台特性与精细的标注维度。数据覆盖移动端与桌面端五大操作系统环境，每个样本均包含精确到像素级的元素边界框标注、交互指令文本及响应页面截图。独特的元素类型分类体系（如文本/图标控件）与用户意图描述，为评估模型在真实场景下的视觉定位能力提供了多维度的验证标准。

使用方法

该数据集专为零样本评估任务设计，研究者可通过加载图像字节流与结构化标注数据构建测试环境。评估时，模型需根据给定的文本指令（element_instruction）在界面截图（img_bytes）中定位目标元素，其输出结果将与标注的边界框坐标（bbox）进行对比。数据集采用Apache 2.0协议开放，用户可通过GitHub仓库获取完整的评估代码与基准结果。

背景与挑战

背景概述

ScreenSpot数据集由南京大学和上海人工智能实验室的研究团队联合构建，旨在评估大型多模态模型在图形用户界面（GUI）定位任务中的性能。该数据集创建于2024年，主要关注多模态模型在接收文本指令后，在屏幕图像中准确定位目标元素的能力。数据集涵盖了iOS、Android、macOS、Windows及Web环境中的1200余条指令，并标注了元素类型（文本或图标/控件）。其研究成果《SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents》发表于arXiv，为GUI交互智能体的开发提供了重要基准。

当前挑战

ScreenSpot数据集面临的挑战主要体现在两个方面：在领域问题层面，GUI元素的多样性和动态性使得模型需要具备强大的跨平台泛化能力，以准确理解不同操作系统和环境下的界面元素；同时，文本指令与视觉元素的精准对齐要求模型具备细粒度的多模态理解能力。在构建过程中，数据收集需覆盖多平台典型交互场景，而人工标注需保持元素边界框坐标和指令描述的一致性，这对标注者的专业性和细致度提出了较高要求。

常用场景

经典使用场景

在跨平台GUI交互研究中，ScreenSpot数据集作为基准测试工具，主要用于评估多模态模型在零样本场景下对屏幕界面元素的定位能力。研究者通过输入文本指令，测试模型能否准确识别并定位移动端、桌面端及网页端界面中的特定交互元素，如按钮、图标或文本区域。该数据集覆盖iOS、Android等五大操作系统环境，为模型跨平台泛化性能评估提供了标准化测试床。

衍生相关工作

ScreenSpot催生了SeeClick等开创性视觉GUI代理框架，相关论文被CVPR等顶会收录。南京大学团队基于该数据集提出的跨模态对齐方法，在Widget Captioning任务中达到SOTA性能。后续研究进一步扩展了数据集边界，开发出支持动态界面理解的Screen2Words基准，形成GUI理解研究的技术谱系。

数据集最近研究