Screen2Coord

Hugging Face2025-09-05 更新2025-09-06 收录

下载链接：

https://huggingface.co/datasets/cybertruck32489/Screen2Coord

下载链接

链接失效反馈

官方服务：

资源简介：

Screen2Coord数据集是一个用于训练图像-文本到文本的大语言模型的数据集，模型接收屏幕截图、屏幕尺寸和文本动作描述作为输入，输出目标动作对应的屏幕边界框坐标。该数据集适用于用户界面交互，并包含了MacOS、Windows、Linux-Ubuntu和Linux-Mint等不同操作系统的训练数据。

创建时间：

2025-09-05

原始信息汇总

Screen2Coord 数据集概述

数据集基本信息

语言: 英语
许可证: Apache-2.0
任务类别: 图像-文本到文本、目标检测
任务ID: 视觉问答、实例分割
标签: 代理、UI自动化、屏幕理解

数据集结构

配置

macos: 训练集，数据文件路径为 macos/data-00000-of-00001.arrow
windows: 训练集，数据文件路径为 windows/data-00000-of-00001.arrow
linux-ubuntu: 训练集，数据文件路径为 linux-ubuntu/data-00000-of-00001.arrow
linux-mint: 训练集，数据文件路径为 linux-mint/data-00000-of-00001.arrow

数据实例

每个数据实例包含：

image: PNG格式的截图图像
image_size: 两个整数的列表 [width, height]，表示屏幕尺寸（像素）
mapped_bboxes: 边界框对象列表，包含：
- bbox: 整数列表 [x_min, y_min, x_max, y_max]，指定边界框坐标
- texts: 与边界框相关的文本描述列表

数据字段

image: PNG格式的图像文件
image_size: 表示图像尺寸的整数序列
mapped_bboxes: 包含边界框信息的字典序列

数据划分

macos (训练集): 1个样本
windows (训练集): 4个样本
linux-ubuntu (训练集): 1个样本
linux-mint (训练集): 1个样本

用途与使用方法

输入

屏幕截图
屏幕尺寸 [width, height]
文本指令（提示）

输出

目标边界框坐标，对应应执行操作的位置

应用

训练图像-文本到文本大语言模型，基于视觉上下文和自然语言指令执行UI操作。

搜集汇总

数据集介绍

构建方式

在用户界面交互研究领域，Screen2Coord数据集通过系统化采集多平台屏幕截图构建而成。数据实例包含PNG格式的屏幕图像、以像素为单位的屏幕尺寸数组以及关联的边界框标注信息。每个边界框不仅包含坐标数据，还配有对应的文本动作描述，形成视觉与文本模态的精准映射。数据集按操作系统平台划分为macOS、Windows和Linux等子集，确保跨平台交互行为的全面覆盖。

使用方法

研究人员可将该数据集应用于图像-文本到文本的大语言模型训练，输入层需同时处理屏幕截图、尺寸参数和文本指令三重信息。模型通过端到端学习建立多模态特征映射，最终输出目标操作的边界框坐标预测。训练时应保持数据预处理的一致性，将图像分辨率与屏幕尺寸参数同步归一化。预测结果可直接驱动自动化交互系统执行点击操作，实现自然语言指令到界面动作的智能转换。

背景与挑战

背景概述

Screen2Coord数据集诞生于人机交互与自动化界面操作研究领域，致力于推动基于多模态学习的用户界面理解技术发展。该数据集由匿名研究团队构建，专注于解决智能代理在图形用户界面中准确定位操作目标的核心问题。通过整合屏幕截图、维度信息与文本指令，该数据集为训练视觉-语言模型提供了关键支撑，显著提升了自动化操作的精确性与自然语言交互能力，对界面自动化、辅助技术及智能代理系统产生了深远影响。

当前挑战

该数据集旨在解决界面元素定位任务中视觉-语言语义对齐的挑战，包括跨平台界面差异导致的泛化困难、动态分辨率适配问题以及复杂界面布局下的多目标检测精度要求。构建过程中面临标注一致性维护的难题，需协调屏幕尺寸标准化与边界框坐标归一化处理，同时需克服多操作系统界面元素的异构性带来的标注复杂度，确保不同平台环境下数据质量的统一性与可靠性。

常用场景

经典使用场景

在用户界面自动化研究领域，Screen2Coord数据集被广泛用于训练多模态大语言模型，使其能够理解屏幕截图与自然语言指令的关联。模型通过接收屏幕尺寸、视觉界面图像及文本动作描述，精准输出目标操作区域的边界框坐标，为智能体系统提供可靠的交互基础。

解决学术问题

该数据集有效解决了跨模态理解中视觉-语言对齐的学术难题，显著提升了界面元素定位的准确性与泛化能力。其通过标注数据驱动模型学习空间推理能力，为自动化交互任务建立了可量化的评估基准，推动了人机交互智能化的理论研究进程。

实际应用

实际应用中，该数据集支撑了智能助手、无障碍交互系统和自动化测试平台的开发。例如视障用户可通过语音指令触发界面操作，企业级软件可利用其实现业务流程自动化，显著提升了数字界面的可访问性与操作效率。

数据集最近研究