five

benwiesel/ScreenSpot|GUI理解数据集|跨平台应用数据集

收藏
hugging_face2024-04-09 更新2024-06-11 收录
GUI理解
跨平台应用
下载链接:
https://hf-mirror.com/datasets/benwiesel/ScreenSpot
下载链接
链接失效反馈
资源简介:
ScreenSpot数据集作为GUI定位任务的评估基准,旨在促进跨平台图形用户界面(GUI)理解模型的开发和测试。该数据集包含超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对。每个条目都经过精心注释,以区分文本和图标/小部件元素,为训练和评估GUI理解模型提供了全面的资源。

ScreenSpot数据集作为GUI定位任务的评估基准,旨在促进跨平台图形用户界面(GUI)理解模型的开发和测试。该数据集包含超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对。每个条目都经过精心注释,以区分文本和图标/小部件元素,为训练和评估GUI理解模型提供了全面的资源。
提供机构:
benwiesel
原始信息汇总

ScreenSpot 数据集概述

数据集描述

ScreenSpot 数据集是一个用于GUI接地任务的评估基准,旨在促进跨多种平台(包括iOS、Android、macOS、Windows和Web)的图形用户界面(GUIs)理解模型的开发和测试。该数据集包含超过1,200条指令,与来自不同平台的GUI元素配对。每个条目都经过细致标注,以区分文本和图标/部件元素,为训练和评估GUI理解模型提供了一个全面的资源。

数据集结构

目录结构

  • images/: 包含来自不同平台的所有图像(iOS、Android、macOS、Windows、Web)。
  • annotations/: 包含不同数据集分割的标注JSON文件(screenspot_desktop.json, screenspot_mobile.json, screenspot_web.json)。

标注格式

每个JSON文件中的标注遵循以下结构: json { "img_filename": "example_filename.png", "annotations": [ { "bbox": [x, y, width, height], "instruction": "Example instruction", "data_type": "icon/text", "data_source": "platform" } ] }

  • img_filename: 图像文件的名称。
  • bbox: 标注的GUI元素的边界框(格式:[x, y, width, height])。
  • instruction: 与GUI元素相关的指令。
  • data_type: GUI元素的类型(图标/文本)。
  • data_source: GUI元素的来源平台(iOS、Android、macOS、Windows、Web)。

数据集用途

ScreenSpot 数据集适用于训练和评估GUI接地任务的模型。它提供了跨不同平台的多样指令和GUI元素,非常适合开发跨平台的GUI理解模型。

AI搜集汇总
数据集介绍
main_image_url
构建方式
ScreenSpot数据集的构建旨在为图形用户界面(GUI)接地任务提供一个全面的评估基准。该数据集精心收集了来自iOS、Android、macOS、Windows和Web平台的超过1,200条指令及其对应的GUI元素。每个条目都经过细致的标注,区分了文本和图标/小部件元素,确保了数据集的多样性和准确性。通过这种方式,ScreenSpot为训练和评估GUI理解模型提供了一个丰富且可靠的资源。
特点
ScreenSpot数据集的主要特点在于其跨平台的多样性和详细的标注。该数据集不仅涵盖了多个主流操作系统,还提供了丰富的指令和GUI元素组合,使得模型能够在不同环境下进行有效的训练和测试。此外,每个标注条目都包含了元素的边界框、指令、数据类型和来源平台,这为模型的多维度分析和优化提供了坚实的基础。
使用方法
ScreenSpot数据集适用于训练和评估GUI接地任务的模型。用户可以通过加载数据集中的图像和标注文件,提取出所需的GUI元素和指令信息。数据集的结构清晰,分为图像目录和标注目录,分别存储了不同平台的图像和相应的JSON格式标注文件。通过解析这些标注文件,用户可以获取每个GUI元素的详细信息,包括其边界框、指令、数据类型和来源平台,从而进行模型的训练和性能评估。
背景与挑战
背景概述
在图形用户界面(GUI)理解领域,ScreenSpot数据集作为一个重要的评估基准,旨在推动跨平台GUI理解模型的研发与测试。该数据集由知名研究机构或个人于近年创建,汇集了超过1,200条指令与来自iOS、Android、macOS、Windows及Web环境的GUI元素配对。每条记录均经过精细标注,区分文本与图标/控件元素,为模型训练与评估提供了全面而详实的资源。ScreenSpot数据集的推出,不仅填补了GUI理解领域跨平台数据资源的空白,还显著提升了模型在多平台环境下的适应性与准确性,对推动GUI理解技术的发展具有重要意义。
当前挑战
ScreenSpot数据集在构建过程中面临多项挑战。首先,跨平台GUI元素的多样性增加了标注的复杂性,确保每条指令与对应元素的精确匹配是一项艰巨任务。其次,不同平台间的界面设计差异,使得模型在跨平台应用时需具备高度的泛化能力。此外,数据集的规模与质量要求高,如何在有限资源下高效完成大规模标注与验证,也是一大挑战。这些挑战不仅考验了数据集构建者的技术能力,也为后续研究者在模型训练与优化过程中提出了新的要求。
常用场景
经典使用场景
在图形用户界面(GUI)理解领域,ScreenSpot数据集的经典使用场景主要集中在训练和评估跨平台GUI理解模型。该数据集通过提供超过1,200条指令与来自iOS、Android、macOS、Windows和Web环境的GUI元素配对,为模型提供了丰富的训练资源。通过细致的标注,区分文本和图标/控件元素,ScreenSpot数据集成为开发和测试GUI理解模型的理想基准。
解决学术问题
ScreenSpot数据集解决了GUI理解领域中跨平台模型训练的常见学术问题。传统的GUI理解模型往往局限于单一平台,难以适应多平台环境。ScreenSpot通过提供多平台的数据,使得研究者能够开发出更具泛化能力的模型,从而推动了GUI理解技术的发展。这一数据集的引入,不仅丰富了研究资源,还为跨平台GUI理解模型的评估提供了标准化的基准。
衍生相关工作
ScreenSpot数据集的发布催生了多项相关研究工作。例如,基于该数据集的跨平台GUI理解模型在多个学术会议上被广泛讨论,推动了GUI理解技术的进步。此外,一些研究团队利用ScreenSpot数据集开发了新的模型评估方法,进一步提升了模型的性能和鲁棒性。这些衍生工作不仅丰富了GUI理解领域的研究内容,也为实际应用提供了更多可能性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

flames-and-smoke-datasets

该仓库总结了多个公开的火焰和烟雾数据集,包括DFS、D-Fire dataset、FASDD、FLAME、BoWFire、VisiFire、fire-smoke-detect-yolov4、Forest Fire等数据集。每个数据集都有详细的描述,包括数据来源、图像数量、标注信息等。

github 收录

LUNA16

LUNA16(肺结节分析)数据集是用于肺分割的数据集。它由 1,186 个肺结节组成,在 888 次 CT 扫描中进行了注释。

OpenDataLab 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集,由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像,涵盖了多种环境条件下的舌象,图像通过智能手机和笔记本电脑摄像头采集,具有较高的多样性和代表性。数据集不仅包含舌象图像,还提供了详细的舌面属性标注,如舌色、舌苔厚度等,并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注,旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断,旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录

中国1km分辨率逐月平均气温数据集(1901-2024)

该数据为中国逐月平均温度数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。数据单位为0.1 ℃。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录