GroundCUA Dataset

github2025-11-11 更新2025-11-12 收录

下载链接：

https://github.com/ServiceNow/GroundCUA

下载链接

链接失效反馈

官方服务：

资源简介：

GroundCUA数据集是一个大规模、人工标注的桌面环境基础数据集，包含56K张屏幕截图，覆盖87个应用程序，拥有3.56M+人工验证标注，提供密集的专家标注监督和最大标注密度，覆盖几乎所有可见元素包括小图标和控件，50%的UI元素具有细粒度类别信息

GroundCUA is a large-scale, manually annotated foundational dataset for desktop environments. It contains 56K screen captures, covers 87 applications, and includes over 3.56 million manually verified annotations. The dataset provides dense expert annotation supervision and the maximum annotation density, covering nearly all visible elements including small icons and controls, with 50% of UI elements possessing fine-grained category information.

创建时间：

2025-10-17

原始信息汇总

GroundCUA 数据集概述

数据集基本信息

名称: GroundCUA (Grounding Computer Use Agents on Human Demonstrations)
类型: 桌面环境人机交互标注数据集
规模: 56K标注截图，3.56M+人工验证标注
应用覆盖: 87个桌面应用程序，涵盖12个类别
分辨率: 高分辨率图像（50万至700万像素）

核心特征

标注密度: 最大标注密度，覆盖几乎所有可见UI元素
标注质量: 专家人工标注，包含细粒度类别信息
元素覆盖: 包括小型图标和控件在内的各类UI元素
类别信息: 50%的UI元素提供细粒度分类信息

数据集结构

数据格式

监督微调数据格式 (ShareGPT格式): python { "conversations": [ {"from": "human", "value": "<image>指令文本"}, {"from": "function_call", "value": "动作JSON"} ], "system": "系统提示", "images": ["图像路径"], "tool": "工具定义" }

强化学习数据格式: python { "system": "系统提示", "instruction": "指令文本", "images": ["图像路径"], "gt_response": "标准响应", "gt_bbox": "边界框坐标" }

获取方式

bash pip install -U huggingface_hub huggingface_hub download ServiceNow/GroundCUA --repo-type dataset --local-dir ./GroundCUA

关联模型

GroundNext-3B: 30亿参数视觉语言模型
GroundNext-7B: 70亿参数视觉语言模型
训练效率: 仅使用70万训练样本达到最优性能

性能表现

桌面环境基准测试

ScreenSpot-Pro: GroundNext-7B达到48.9%
OSWorld-G: GroundNext-7B达到55.6%
UI-Vision: GroundNext-7B达到31.3%

跨平台泛化能力

MMBench-GUI: GroundNext-7B达到83.7%
ScreenSpot-v2: GroundNext-7B达到92.8%

研究用途

计算机使用代理的 grounding 任务研究
视觉语言模型训练与评估
跨平台GUI理解研究

引用信息

bibtex @misc{feizi2025groundingcomputeruseagents, title={Grounding Computer Use Agents on Human Demonstrations}, author={Aarash Feizi and Shravan Nayak and Xiangru Jian and Kevin Qinghong Lin and Kaixin Li and Rabiul Awal and Xing Han Lù and Johan Obando-Ceron and Juan A. Rodriguez and Nicolas Chapados and David Vazquez and Adriana Romero-Soriano and Reihaneh Rabbany and Perouz Taslakian and Christopher Pal and Spandana Gella and Sai Rajeswar}, year={2025}, eprint={2511.07332}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2511.07332} }

搜集汇总

数据集介绍

构建方式

在桌面智能代理研究领域，GroundCUA数据集通过系统化采集流程构建而成。研究团队收集了涵盖87种应用程序的5.6万张高分辨率屏幕截图，通过专业标注人员对界面元素进行密集标注，形成356万余条经过人工验证的标注数据。标注过程采用最大密度原则，确保覆盖包括小型图标和控件在内的所有可见界面元素，并为半数元素提供细粒度分类信息，构建出具有高质量监督信号的桌面环境交互数据集。

特点

该数据集展现出三大核心特征：其标注密度达到业界新高，几乎涵盖所有可见界面元素；标注质量经过严格把控，由训练有素的专家团队进行人工验证；覆盖范围具有广泛代表性，包含12类应用程序的高分辨率截图。特别值得注意的是，数据集中50%的界面元素配备细粒度分类标签，为模型理解复杂桌面环境提供丰富语义信息，这种密集监督机制为智能代理的精准定位能力奠定坚实基础。

使用方法

研究者可通过Hugging Face平台直接获取数据集，采用标准化的数据加载流程。数据集提供两种规范格式：监督微调阶段采用ShareGPT兼容格式，强化学习阶段则使用专用数据结构。使用流程包括环境配置、数据下载、模型训练和性能评估四个关键环节，支持在五大基准测试体系上进行综合评估。该数据集与主流训练框架深度集成，研究者可基于LLaMA-Factory进行监督微调，并利用verl框架实施强化学习，实现端到端的智能代理训练流程。

背景与挑战

背景概述

随着人工智能在桌面环境交互中的需求日益增长，构建可靠的计算机使用代理成为研究热点。GroundCUA数据集由Mila研究所、ServiceNow Research及多所高校联合团队于2025年创建，旨在解决自然语言指令与屏幕元素精准关联的核心问题。该数据集包含56,000张涵盖87种应用程序的高分辨率截图及356万条人工验证标注，通过密集标注策略覆盖各类界面元素，显著提升了桌面环境下的智能代理 grounding 能力，为跨平台人机交互研究提供了关键基础设施。

当前挑战

在解决桌面环境 grounding 问题时，模型需克服复杂界面元素的精确定位挑战，包括微小图标识别与动态控件响应。数据集构建过程中面临标注一致性与规模化的双重压力，需在保持最大标注密度的同时确保跨应用泛化能力。此外，训练效率优化要求模型在仅使用十分之一数据量的前提下实现跨域泛化，这对标注质量与算法设计提出了极高要求。

常用场景

经典使用场景

在桌面智能体研究领域，GroundCUA数据集为视觉语言模型提供了密集的界面元素标注基础。其涵盖87种应用程序的56K高分辨率截图与356万条人工验证标注，特别适用于训练模型精准定位界面控件。该数据集通过最大标注密度策略，覆盖了包括微小图标在内的几乎所有可见元素，为计算机操作智能体的视觉 grounding 任务建立了新的质量基准。

实际应用

在实际应用层面，基于GroundCUA训练的智能体已展现出卓越的跨领域适应能力。这些模型可部署于企业自动化办公系统，实现文档处理、软件操作等重复性任务的智能执行。在辅助技术领域，该数据集支撑的模型能为视障用户提供精准的界面导航服务，同时为软件测试自动化提供了可靠的元素定位解决方案。

衍生相关工作

该数据集催生了GroundNext系列视觉语言模型的诞生，这些模型在五个基准测试中均达到最先进水平。其创新的两阶段训练范式——监督微调与强化学习结合，为后续研究提供了高效训练范本。相关成果进一步推动了UI-TARS、OpenCUA等工作的演进，在操作系统任务与专业软件操作领域形成了完整的技术生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集