【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
benwiesel/ScreenSpot
收藏Hugging Face2024-04-09 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/benwiesel/ScreenSpot
下载链接
链接失效反馈官方服务:
资源简介:
ScreenSpot数据集作为GUI定位任务的评估基准,旨在促进跨平台图形用户界面(GUI)理解模型的开发和测试。该数据集包含超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对。每个条目都经过精心注释,以区分文本和图标/小部件元素,为训练和评估GUI理解模型提供了全面的资源。
ScreenSpot数据集作为GUI定位任务的评估基准,旨在促进跨平台图形用户界面(GUI)理解模型的开发和测试。该数据集包含超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对。每个条目都经过精心注释,以区分文本和图标/小部件元素,为训练和评估GUI理解模型提供了全面的资源。
提供机构:
benwiesel
原始信息汇总
ScreenSpot 数据集概述
数据集描述
ScreenSpot 数据集是一个用于GUI接地任务的评估基准,旨在促进跨多种平台(包括iOS、Android、macOS、Windows和Web)的图形用户界面(GUIs)理解模型的开发和测试。该数据集包含超过1,200条指令,与来自不同平台的GUI元素配对。每个条目都经过细致标注,以区分文本和图标/部件元素,为训练和评估GUI理解模型提供了一个全面的资源。
数据集结构
目录结构
- images/: 包含来自不同平台的所有图像(iOS、Android、macOS、Windows、Web)。
- annotations/: 包含不同数据集分割的标注JSON文件(screenspot_desktop.json, screenspot_mobile.json, screenspot_web.json)。
标注格式
每个JSON文件中的标注遵循以下结构: json { "img_filename": "example_filename.png", "annotations": [ { "bbox": [x, y, width, height], "instruction": "Example instruction", "data_type": "icon/text", "data_source": "platform" } ] }
- img_filename: 图像文件的名称。
- bbox: 标注的GUI元素的边界框(格式:[x, y, width, height])。
- instruction: 与GUI元素相关的指令。
- data_type: GUI元素的类型(图标/文本)。
- data_source: GUI元素的来源平台(iOS、Android、macOS、Windows、Web)。
数据集用途
ScreenSpot 数据集适用于训练和评估GUI接地任务的模型。它提供了跨不同平台的多样指令和GUI元素,非常适合开发跨平台的GUI理解模型。
搜集汇总
数据集介绍

构建方式
ScreenSpot数据集的构建旨在为图形用户界面(GUI)接地任务提供一个全面的评估基准。该数据集精心收集了来自iOS、Android、macOS、Windows和Web平台的超过1,200条指令及其对应的GUI元素。每个条目都经过细致的标注,区分了文本和图标/小部件元素,确保了数据集的多样性和准确性。通过这种方式,ScreenSpot为训练和评估GUI理解模型提供了一个丰富且可靠的资源。
特点
ScreenSpot数据集的主要特点在于其跨平台的多样性和详细的标注。该数据集不仅涵盖了多个主流操作系统,还提供了丰富的指令和GUI元素组合,使得模型能够在不同环境下进行有效的训练和测试。此外,每个标注条目都包含了元素的边界框、指令、数据类型和来源平台,这为模型的多维度分析和优化提供了坚实的基础。
使用方法
ScreenSpot数据集适用于训练和评估GUI接地任务的模型。用户可以通过加载数据集中的图像和标注文件,提取出所需的GUI元素和指令信息。数据集的结构清晰,分为图像目录和标注目录,分别存储了不同平台的图像和相应的JSON格式标注文件。通过解析这些标注文件,用户可以获取每个GUI元素的详细信息,包括其边界框、指令、数据类型和来源平台,从而进行模型的训练和性能评估。
背景与挑战
背景概述
在图形用户界面(GUI)理解领域,ScreenSpot数据集作为一个重要的评估基准,旨在推动跨平台GUI理解模型的研发与测试。该数据集由知名研究机构或个人于近年创建,汇集了超过1,200条指令与来自iOS、Android、macOS、Windows及Web环境的GUI元素配对。每条记录均经过精细标注,区分文本与图标/控件元素,为模型训练与评估提供了全面而详实的资源。ScreenSpot数据集的推出,不仅填补了GUI理解领域跨平台数据资源的空白,还显著提升了模型在多平台环境下的适应性与准确性,对推动GUI理解技术的发展具有重要意义。
当前挑战
ScreenSpot数据集在构建过程中面临多项挑战。首先,跨平台GUI元素的多样性增加了标注的复杂性,确保每条指令与对应元素的精确匹配是一项艰巨任务。其次,不同平台间的界面设计差异,使得模型在跨平台应用时需具备高度的泛化能力。此外,数据集的规模与质量要求高,如何在有限资源下高效完成大规模标注与验证,也是一大挑战。这些挑战不仅考验了数据集构建者的技术能力,也为后续研究者在模型训练与优化过程中提出了新的要求。
常用场景
经典使用场景
在图形用户界面(GUI)理解领域,ScreenSpot数据集的经典使用场景主要集中在训练和评估跨平台GUI理解模型。该数据集通过提供超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对,为模型提供了丰富的训练资源。通过细致的标注,区分文本和图标/控件元素,ScreenSpot数据集成为开发和测试GUI理解模型的理想基准。
解决学术问题
ScreenSpot数据集解决了GUI理解领域中跨平台模型训练的常见学术问题。传统的GUI理解模型往往局限于单一平台,难以适应多平台环境。ScreenSpot通过提供多平台的数据,使得研究者能够开发出更具泛化能力的模型,从而推动了GUI理解技术的发展。这一数据集的引入,不仅丰富了研究资源,还为跨平台GUI理解模型的评估提供了标准化的基准。
衍生相关工作
ScreenSpot数据集的发布催生了多项相关研究工作。例如,基于该数据集的跨平台GUI理解模型在多个学术会议上被广泛讨论,推动了GUI理解技术的进步。此外,一些研究团队利用ScreenSpot数据集开发了新的模型评估方法,进一步提升了模型的性能和鲁棒性。这些衍生工作不仅丰富了GUI理解领域的研究内容,也为实际应用提供了更多可能性。
以上内容由遇见数据集搜集并总结生成



