CUActSpot

Name: CUActSpot
Creator: 东南大学; 穆罕默德·本·扎耶德人工智能大学; 武汉大学; 中山大学; 微软
Published: 2026-05-13 01:59:58
License: 暂无描述

arXiv2026-05-13 更新2026-05-14 收录

下载链接：

https://github.com/microsoft/Phi-Ground.git

下载链接

链接失效反馈

官方服务：

资源简介：

CUActSpot是由微软等机构联合构建的计算机使用代理基准测试数据集，旨在评估模型在复杂图形用户界面交互中的能力。该数据集包含206个精心设计的样本，覆盖GUI、文本、表格、画布和自然图像五种模态，并支持点击、拖拽和绘制等多种交互类型，数据通过人工标注和迭代筛选确保质量。数据集主要用于推动计算机使用代理在真实工作场景中的动作定位研究，解决现有基准测试中交互类型单一、缺乏复杂操作数据的问题，以提升模型在文档编辑、图像处理等任务中的可靠性。

CUActSpot is a benchmark dataset for computer-use agents jointly developed by Microsoft and other institutions, designed to evaluate the capabilities of models in complex graphical user interface (GUI) interactions. This dataset contains 206 meticulously curated samples covering five modalities: GUI, text, table, canvas, and natural image, and supports multiple interaction types including clicking, dragging, and drawing. Its quality is guaranteed through manual annotation and iterative screening. The dataset is primarily used to advance research on action localization for computer-use agents in real-world work scenarios, addressing the issues of single interaction types and lack of complex operation data in existing benchmarks, so as to improve the reliability of models in tasks such as document editing and image processing.

提供机构：

东南大学; 穆罕默德·本·扎耶德人工智能大学; 武汉大学; 中山大学; 微软

创建时间：

2026-05-13

搜集汇总

数据集介绍

构建方式

CUActSpot基准测试通过人工精细构建而成。首先，依据计算机交互界面的特性，将交互目标划分为GUI（标准控件）、文本、表格、画布和自然图像五大模态。其次，针对每种模态，基于关键点数量（单击一点、拖拽两点、绘制多点）及操作的有序性进行任务细化，并通过头脑风暴结合真实应用场景收集了12类共33种细化任务。随后，由独立于原标注者的三名人员对任务进行尝试，修正模糊描述并剔除人类无法完成的项目，最终保留了206个高质量样本。

使用方法

使用CUActSpot时，需令模型根据自然语言指令输出动作坐标（如单击位置或拖拽起点与终点），并通过预设的正确区域和禁止区域进行评估。正确区域可带排序属性以评估有序动作（如沿箭头拖拽），禁止区域用于防止模型通过随机点击取巧。最终以样本成功率作为评价指标，得分与真实环境下的端到端代理性能（如OSWorld）具有较高一致性，可有效衡量模型在复杂计算机交互中的实际接地能力。

背景与挑战

背景概述

CUActSpot由微软亚洲研究院与东南大学、武汉大学等机构的研究人员于2026年共同创建，旨在应对计算机使用代理（CUA）在复杂人机交互中的长尾挑战。传统GUI定位基准（如ScreenSpot-Pro）过度聚焦于标准小部件上的单一点击任务，忽视了办公软件中常见的拖拽、绘制等操作，导致高端模型在真实场景中频繁出错。通过对GPT-5.4的失效分析，团队发现复杂交互（如表格编辑、图像裁剪）的失败率远高于简单点击，而现有基准恰好缺失对此类能力的评估。该基准横跨GUI、文本、表格、画布和自然图像五种模态，涵盖点击、拖拽、绘制等多样化动作，共包含33个细粒度任务和206个样本，为衡量模型在复杂交互中的动作定位能力提供了全新标尺，在学术界与工业界引发广泛关注。

当前挑战

CUActSpot所解决的领域问题在于现有基准严重偏向小部件点击范式，无法反映CUA在真实工作流中面对表格拖拽、文本选择、图像边界描绘等复杂操作时的需求。这种评估缺口导致模型开发过度拟合于特定软件界面，其定位能力难以泛化至跨模态、多动作的场景。构建过程中面临两大挑战：一是数据标注的复杂性，传统自动化标注技术难以处理拖拽终点、绘制轨迹等非点状动作；二是任务多样性与歧义控制的平衡——需在33种细粒度任务中确保指令清晰性，同时彻底消除软件知识偏置，让评测结果真正反映定位而非领域知识。团队通过手动构建任务、引入正确区域与禁止区域的双重评估规则，并通过人类实验筛除歧义样本，成功实现了对复杂交互能力的精准诊断。

常用场景

经典使用场景

在图形用户界面代理的研究领域中，CUActSpot数据集被广泛用于评估模型在复杂人机交互任务上的表现。不同于以往仅聚焦于标准GUI小部件的点击操作，该数据集覆盖了GUI、文本、表格、画布和自然图像五种模态，并包含了点击、拖拽、绘制等多种精细动作类型。研究者通常利用该基准来检验视觉语言模型在处理多模态、多动作交互时的精准度与鲁棒性，尤其关注那些在真实计算机使用场景中频繁出现但以往被忽视的复杂交互，如文本范围选择、表格单元格拖拽及图像轮廓描摹等。

解决学术问题

该数据集的核心贡献在于揭示了现有GUI接地基准与真实应用场景之间的显著偏差。传统的基准如ScreenSpot-Pro和UI-Vision过于依赖特定软件知识，模型在这些基准上的表现往往受限于对特定界面的熟悉程度而非真正的接地能力。CUActSpot通过设计更少的软件依赖和更丰富的任务多样性，有效隔离了领域知识对评估的干扰，使研究者能够更准确地衡量模型在复杂交互中的核心接地能力。其引入的“品种缩放”现象表明，提升任务和模态多样性比单纯增加单一模态数据规模对模型泛化能力的提升更为关键，为后续模型训练策略提供了重要理论指导。

实际应用

在实际产业应用中，CUActSpot直接服务于图形用户界面代理的研发与优化。微软的研究团队利用该基准训练的Phi-Ground-Any-4B模型在OSWorld等端到端代理测试中展现出卓越的拖拽和绘制能力，能够可靠地完成文档编辑、表格填充、图像裁剪等办公自动化任务。该数据集还支撑了商业级CUA系统的迭代，例如在Azure OpenAI平台上评估GPT-5.4的计算机使用能力，帮助识别长尾复杂操作中的失败模式。此外，其提出的合成数据管线已被用于生成5000万条训练样本，覆盖了从CommonCrawl网页渲染到PowerPoint画布操作的广泛场景，显著降低了人工标注成本。

数据集最近研究