DeskVision

github2025-07-11 更新2025-07-16 收录

下载链接：

https://github.com/MooreThreads/DeskVision

下载链接

链接失效反馈

官方服务：

资源简介：

我们开源了自研的GUI多模态视觉理解模型GUIExplorer以及用于训练该模型的部分DeskVision数据集（完整数据集正在整理中，后续会提供）。该模型基于llava架构，不仅在开源GUI理解基准下达到了与前沿解决方案相似甚至更好的视觉理解效果，还支持视觉定位和在GUI理解功能方面的单步指令执行能力。

We have open-sourced our self-developed GUI multimodal visual understanding model, GUIExplorer, as well as a portion of the DeskVision dataset used for training it (the complete dataset is being compiled and will be provided subsequently). The model is based on the llava architecture and not only achieves similar, if not better, visual understanding performance compared to state-of-the-art solutions on the open-source GUI understanding benchmark but also supports single-step instruction execution for visual localization and GUI understanding capabilities.

创建时间：

2025-06-26

原始信息汇总

DeskVision数据集概述

数据集简介

名称：DeskVision
类型：大规模桌面区域标注数据集
用途：训练高级GUI代理的多模态视觉理解模型
关联模型：GUIExplorer（基于llava架构的GUI多模态视觉理解模型）

核心特点

区域标注能力：
- 提供桌面区域的详细标注（Region Captions）
- 支持开放源码的OS-Atlas桌面完整图像数据的区域标注
数据生成工具：
- 包含Detector和Captioner两个数据生成工具
- 工具使用说明见./scripts/DeskVision
数据格式：
- 部分数据以URL格式呈现（因数据合法性原因）
- 完整数据集正在整理中，后续将提供

基准测试表现

ScreenSpot基准：
- GUIExplorer模型在7B规模下取得82.86%平均准确率
- 在移动/桌面/网页的图标组件识别任务中表现最优
GUIEnv基准：
- 在Text2Bbox任务中取得多项最优指标：
  - IoU@0.5：82.56%
  - IoU@0.7：62.17%
  - Center@acc：87.66%

发布计划

[x] 推理脚本
[x] GUI理解预训练模型（7B）
[x] Gradio演示（支持指定GUI理解功能）
[x] 技术报告/论文
[x] 训练数据
[ ] 复杂指令的多步执行Agent模型
[ ] 训练脚本

获取方式

数据集地址：https://huggingface.co/datasets/caca9527/DeskVision
模型地址：https://huggingface.co/caca9527/GUIExplorer
论文地址：https://arxiv.org/abs/2503.11170

引用格式

bibtex @misc{xu2025deskvisionlargescaledesktop, title={DeskVision: Large Scale Desktop Region Captioning for Advanced GUI Agents}, author={Yibin Xu and Liang Yang and Hao Chen and Hua Wang and Zhi Chen and Yaohua Tang}, year={2025}, eprint={2503.11170}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2503.11170}, }

免责声明

本项目的开源代码、模型和数据集仅供学术研究使用，项目贡献者与用户之间不存在任何法律关系，不承担用户使用产生的任何责任。

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）智能化研究领域，DeskVision数据集的构建采用了创新的多模态处理流程。研究团队自主研发了Detector和Captioner两套核心工具，通过自动化检测与标注技术对桌面区域进行语义标注。数据集融合了自采集图像和开源OS-Atlas桌面图像资源，采用URL格式存储确保数据合法性，同时为完整图像生成精细的区域描述标注。这种混合数据源的构建策略既保障了数据多样性，又通过工具链实现了标注流程的标准化。

特点

作为目前规模领先的桌面区域语义理解数据集，DeskVision展现出三大核心特征：多粒度标注体系覆盖文本、图标、控件等GUI元素；支持视觉定位（Visual Grounding）与单步指令执行双重任务；基准测试表明其训练的GUIExplorer模型在ScreenSpot和GUIEnv等权威评测中，以7B参数量取得82.86%平均准确率，尤其在桌面图标识别（75.0%）和网页组件理解（81.55%）等细分任务上超越同类模型。数据集特有的区域描述（Region Captioning）能力为GUI智能体开发提供了细粒度语义支持。

使用方法

研究者可通过HuggingFace平台获取数据集资源，配套提供的GUIExplorer模型支持端到端的多模态任务处理。使用流程包含环境配置、权重下载和推理执行三个环节：基于LLaVA架构搭建Python3.10环境，下载预训练的7B模型至指定目录后，通过infer.py脚本即可执行OCR识别、视觉定位或指令执行等任务。输入参数支持绝对坐标区域检测和自然语言指令两种模式，输出包含可视化结果。对于快速验证，项目提供的Gradio演示系统包含预设案例，运行demo.py即可启动交互式体验界面。

背景与挑战

背景概述

DeskVision数据集由MooreThreads团队于2025年推出，旨在推动图形用户界面（GUI）多模态视觉理解领域的研究。该数据集专注于大规模桌面区域标注，为开发先进的GUI智能体提供关键支持。基于LLaVA架构开发的GUIExplorer模型在开源GUI理解基准测试中展现出卓越性能，不仅实现了视觉定位功能，还具备执行单步指令的能力。该研究团队进一步计划扩展模型功能，使其具备交互式对话能力，从而完善GUI智能体的完整功能体系。这一创新性工作为计算机视觉与自然语言处理的交叉领域研究开辟了新方向，对提升人机交互系统的智能化水平具有重要价值。

当前挑战

在解决GUI视觉理解这一核心问题时，DeskVision面临多重挑战。领域层面需克服跨平台GUI元素的异构性识别难题，包括不同操作系统间控件样式差异、动态界面元素捕捉等技术瓶颈。数据构建过程中，研究团队需处理大规模屏幕截图标注的复杂性，特别是对重叠控件和模糊文本区域的精确标注。同时，确保数据合法性要求对敏感信息进行特殊处理，这增加了数据集构建的技术难度。此外，模型训练需平衡视觉特征提取与语义理解的关系，这对多模态融合算法提出了更高要求。如何保持模型在开放环境中的泛化能力，也是该研究面临的重要挑战。

常用场景

经典使用场景

在图形用户界面（GUI）智能代理的研究领域，DeskVision数据集通过大规模桌面区域标注，为多模态视觉理解模型提供了丰富的训练资源。该数据集特别适用于开发能够执行视觉定位和单步指令的GUI代理，例如在复杂桌面环境中精准识别图标、文本区域或特定功能组件。其标注的多样性和规模使得研究者能够探索GUI元素与自然语言指令之间的深层语义关联。

实际应用

该数据集支撑的实际应用包括智能桌面助手开发和自动化测试工具优化。基于DeskVision训练的GUIExplorer模型可精准执行如'打开右下角浏览器'等自然语言指令，显著提升人机交互效率。在工业场景中，此类技术能辅助完成软件界面的自动化巡检，或为视障用户提供实时界面元素语音描述，具有广泛的社会价值。

衍生相关工作

DeskVision的发布推动了多项GUI理解领域的创新研究。以LLaVA-OneVision架构为基础的GUIExplorer模型在开源基准测试中取得82.86%的平均准确率，成为当前最先进的解决方案之一。相关工作如OS-Atlas和SeeClick等均借鉴了该数据集的构建方法，其区域标注范式更被广泛应用于移动端和Web端GUI理解模型的开发中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集