Screen2AX-Tree, Screen2AX-Element, Screen2AX-Group

Name: Screen2AX-Tree, Screen2AX-Element, Screen2AX-Group
Creator: 乌克兰天主教大学，利沃夫，乌克兰；MacPaw，基辅，乌克兰
Published: 2025-07-22 23:38:12
License: 暂无描述

arXiv2025-07-22 更新2025-07-24 收录

下载链接：

https://github.com/MacPaw/Screen2AX

下载链接

链接失效反馈

官方服务：

资源简介：

Screen2AX数据集由乌克兰天主教大学和MacPaw公司的研究人员创建，包含112个macOS应用程序的界面截图及其对应的UI元素检测、分组和层级可访问性元数据。数据集旨在为可访问性生成研究提供基础，帮助开发人员自动创建实时的、树状结构的可访问性元数据，从而提高桌面应用程序的可访问性。

提供机构：

乌克兰天主教大学，利沃夫，乌克兰；MacPaw，基辅，乌克兰

创建时间：

2025-07-22

原始信息汇总

Screen2AX 数据集概述

数据集简介

Screen2AX 是一个基于计算机视觉和深度学习的项目，旨在生成 macOS 应用程序的无障碍访问功能。相关研究论文可在 arXiv 查阅。

数据集列表

系统要求

macOS
Python (推荐 ≥ 3.11)
Conda
Pip

安装与使用

创建并激活项目环境： bash conda create -n screen2ax python=3.11 conda activate screen2ax pip install -r requirements.txt
无障碍生成脚本： bash python -m hierarchy_dl.hierarchy --image ./screenshots/spotify.png --save --filename spotify.json
屏幕阅读器： bash python -m screen_reader.screen_reader --name Spotify

许可证

YOLO 模型：GNU Affero General Public License (AGPL)
BLIP 模型：MIT License
数据集：Apache 2.0 license
代码库：MIT License

引用

bibtex @misc{muryn2025screen2axvisionbasedapproachautomatic, title={Screen2AX: Vision-Based Approach for Automatic macOS Accessibility Generation}, author={Viktor Muryn and Marta Sumyk and Mariya Hirna and Sofiya Garkot and Maksym Shamrai}, year={2025}, eprint={2507.16704}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2507.16704}, }

搜集汇总

数据集介绍

构建方式

Screen2AX系列数据集通过精心设计的计算机视觉流程构建，其核心创新在于仅依赖UI截图即可生成完整的可访问性元数据。研究团队采集了112款macOS应用的1127张屏幕截图，采用YOLOv11模型进行元素检测，结合BLIP模型生成语义描述，并利用空间关系与深度学习混合策略构建层次化结构。数据标注过程通过Roboflow平台进行人工校验，确保系统原生可访问性元数据的错误修正，最终形成包含元素检测、分组和完整树状结构的三种互补数据集。

特点

该数据集最显著的特点是实现了视觉输入到结构化可访问性元数据的端到端转换，其生成的层次化树状结构深度平均达到7层，远超移动端接口的3层深度。数据集包含52类UI元素的精细标注，其中AXButton类占比达70.2%，反映了桌面应用的交互密集特性。特别值得注意的是，数据集平衡了深浅色主题样本（52% vs 48%），并包含19种语义分组类型，为研究复杂桌面界面的可访问性提供了前所未有的细粒度标注。

使用方法

使用该数据集时，研究者可通过HuggingFace平台获取预处理的JSON格式标注。对于元素检测任务，建议采用Screen2AX-Element数据集进行YOLO系列模型微调；层次化分析可利用Screen2AX-Group的19类分组标注；完整可访问性树重建则需结合Screen2AX-Tree的树状结构数据。基准测试Screen2AX-Task包含5934条指令-元素对，可用于评估AI代理的任务执行能力。所有数据均配备原始截图与标准化坐标标注，支持计算机视觉与辅助技术的交叉研究。

背景与挑战

背景概述

Screen2AX系列数据集（包括Screen2AX-Tree、Screen2AX-Element和Screen2AX-Group）由乌克兰天主教大学和MacPaw的研究团队于2025年创建，旨在解决macOS应用程序中普遍存在的可访问性元数据缺失问题。该数据集通过计算机视觉技术从单一屏幕截图中自动生成实时、树状结构的可访问性元数据，填补了桌面操作系统在可访问性支持方面的研究空白。其核心创新在于利用视觉语言和对象检测模型，实现了对用户界面元素的层级化检测、描述和组织，显著提升了自主代理对复杂桌面界面的解析能力。数据集涵盖112个macOS应用程序的1127张截图，并标注了52种UI元素类别，为可访问性生成领域提供了首个公开的macOS基准数据集。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决macOS界面元素的高密度布局（平均每屏192个元素）、深度层级结构（树深达7层）以及非标准化控件带来的识别难题；在构建过程中，需克服开发者提供的原生可访问性元数据不完整（仅33%应用支持完整元数据）、标注不一致（如相同语义按钮存在多种边界框定义）以及动态界面元素捕捉等技术难点。此外，数据集的构建还需平衡视觉主题差异（浅色/深色界面占比52%/48%）和类别分布不均（AXButton占比70.2%）带来的模型偏差问题。

常用场景

经典使用场景

Screen2AX系列数据集在计算机视觉与无障碍技术交叉领域具有重要应用价值，其核心场景是通过视觉分析方法自动生成macOS系统的无障碍元数据。该数据集通过捕捉应用程序界面截图，结合深度学习模型对UI元素进行检测、分类和层次化组织，为缺乏原生无障碍支持的应用程序构建完整的可访问性树结构。在辅助技术开发场景中，研究人员可利用该数据集训练模型识别按钮、文本区域等52类UI元素，并重构其语义层次关系，显著提升屏幕阅读器等工具对复杂桌面界面的解析能力。

衍生相关工作

该数据集已催生多个标志性研究：在技术层面衍生出OmniParser V2等跨平台解析系统；在基准测试方面孕育了Screen2AX-Task评估体系；在理论层面推动了《UI Semantic Group Detection》等语义分组研究。其构建的层次化表示方法更被后续工作扩展应用于Web和移动端，形成包括AXNav测试回放系统、SeeClick视觉代理在内的技术谱系，持续推动人机交互领域的创新发展。

数据集最近研究