GroundCUA Dataset
收藏GroundCUA 数据集概述
数据集基本信息
- 名称: GroundCUA (Grounding Computer Use Agents on Human Demonstrations)
- 类型: 桌面环境人机交互标注数据集
- 规模: 56K标注截图,3.56M+人工验证标注
- 应用覆盖: 87个桌面应用程序,涵盖12个类别
- 分辨率: 高分辨率图像(50万至700万像素)
核心特征
- 标注密度: 最大标注密度,覆盖几乎所有可见UI元素
- 标注质量: 专家人工标注,包含细粒度类别信息
- 元素覆盖: 包括小型图标和控件在内的各类UI元素
- 类别信息: 50%的UI元素提供细粒度分类信息
数据集结构
数据格式
监督微调数据格式 (ShareGPT格式): python { "conversations": [ {"from": "human", "value": "<image>指令文本"}, {"from": "function_call", "value": "动作JSON"} ], "system": "系统提示", "images": ["图像路径"], "tool": "工具定义" }
强化学习数据格式: python { "system": "系统提示", "instruction": "指令文本", "images": ["图像路径"], "gt_response": "标准响应", "gt_bbox": "边界框坐标" }
获取方式
bash pip install -U huggingface_hub huggingface_hub download ServiceNow/GroundCUA --repo-type dataset --local-dir ./GroundCUA
关联模型
- GroundNext-3B: 30亿参数视觉语言模型
- GroundNext-7B: 70亿参数视觉语言模型
- 训练效率: 仅使用70万训练样本达到最优性能
性能表现
桌面环境基准测试
- ScreenSpot-Pro: GroundNext-7B达到48.9%
- OSWorld-G: GroundNext-7B达到55.6%
- UI-Vision: GroundNext-7B达到31.3%
跨平台泛化能力
- MMBench-GUI: GroundNext-7B达到83.7%
- ScreenSpot-v2: GroundNext-7B达到92.8%
研究用途
- 计算机使用代理的 grounding 任务研究
- 视觉语言模型训练与评估
- 跨平台GUI理解研究
引用信息
bibtex @misc{feizi2025groundingcomputeruseagents, title={Grounding Computer Use Agents on Human Demonstrations}, author={Aarash Feizi and Shravan Nayak and Xiangru Jian and Kevin Qinghong Lin and Kaixin Li and Rabiul Awal and Xing Han Lù and Johan Obando-Ceron and Juan A. Rodriguez and Nicolas Chapados and David Vazquez and Adriana Romero-Soriano and Reihaneh Rabbany and Perouz Taslakian and Christopher Pal and Spandana Gella and Sai Rajeswar}, year={2025}, eprint={2511.07332}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2511.07332} }




