ScaleCUA

Name: ScaleCUA
Creator: 清华大学 KEG 实验室
Published: 2025-09-19 01:59:22
License: 暂无描述

arXiv2025-09-19 更新2025-11-21 收录

下载链接：

https://hf-mirror.com/datasets/OpenGVLab/ScaleCUA-Data

下载链接

链接失效反馈

官方服务：

资源简介：

ScaleCUA 是一个跨平台的计算机使用数据集，旨在帮助计算机使用代理（CUA）在多种操作系统和任务领域中自动操作图形用户界面（GUI）。该数据集涵盖了 6 种操作系统和 3 个 GUI 任务领域，包括 GUI 理解、GUI 定位和任务完成。数据集通过一个闭环管道收集，该管道结合了自动代理和人类专家的协同作用，以确保数据的覆盖范围和质量。数据集的创建过程包括数据收集、标注和转换，最终形成用于 GUI 理解、定位和动作建模的训练语料库。ScaleCUA 的应用领域包括桌面、移动和网页平台，旨在解决计算机使用代理在数据规模和模型泛化方面的局限性。

ScaleCUA is a cross-platform computer usage dataset designed to assist computer usage agents (CUA) in automatically operating graphical user interfaces (GUIs) across multiple operating systems and task domains. This dataset covers 6 operating systems and 3 GUI task domains, including GUI understanding, GUI localization and task completion. The dataset is collected via a closed-loop pipeline that combines the collaboration of automated agents and human experts to ensure data coverage and quality. The creation process of ScaleCUA includes data collection, annotation and conversion, and finally forms a training corpus for GUI understanding, localization and action modeling. The application fields of ScaleCUA cover desktop, mobile and web platforms, aiming to address the limitations of computer usage agents in terms of data scale and model generalization.

提供机构：

清华大学 KEG 实验室

创建时间：

2025-09-19

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，数据稀缺性长期制约着模型泛化能力的发展。ScaleCUA数据集通过构建跨平台交互式数据采集管道，整合了智能体-环境交互循环与专家-人工混合采集双循环机制，覆盖Windows、macOS、Linux、Android、iOS及Web六大平台。该管道采用统一动作空间设计，通过规则驱动探索与专家标注相结合的方式，累计收集超过200万张原始屏幕截图，并运用先进视觉语言模型进行自动化标注，最终形成包含47.1万理解样本、1710万定位样本和1.9万任务轨迹的立体化训练语料。

使用方法

研究者可通过三种范式调用该数据集训练GUI智能体：定位模式专注于从视觉观察中提取空间坐标，可与通用规划器构成模块化系统；直接动作模式通过端到端训练实现从像素到执行指令的映射，适用于实时交互场景；推理动作模式在生成操作前先输出思维链，通过显式推理提升复杂任务的执行可靠性。训练时建议采用渐进式策略，先基于理解与定位任务构建感知基础，再引入轨迹数据培养序列决策能力，最终通过多任务联合优化实现跨平台泛化。

背景与挑战

背景概述

ScaleCUA数据集由上海人工智能实验室于2025年9月推出，旨在解决计算机使用代理（CUA）领域的数据稀缺问题。该数据集通过融合自动化代理与人类专家的双循环数据采集管道，覆盖Windows、macOS、Linux、Android、iOS及Web六大平台，构建了包含GUI理解、界面元素定位和任务轨迹的综合性训练语料。其核心研究聚焦于突破视觉语言模型在图形界面交互中的泛化瓶颈，为构建跨平台通用计算机使用代理奠定了数据基础，显著推动了人机交互自动化研究的发展进程。

当前挑战

该数据集主要应对两大挑战：在领域问题层面，需解决图形用户界面中元素定位精度不足与多步骤任务规划复杂性之间的平衡问题，特别是在高动态性界面环境下保持交互策略的鲁棒性；在构建过程中，面临跨平台元数据异构性带来的标注一致性难题，以及自动化探索轨迹语义弱化与专家标注成本高昂之间的权衡困境，同时需克服软件界面频繁更新导致的轨迹数据时效性衰减问题。

常用场景

经典使用场景

在图形用户界面智能体研究领域，ScaleCUA数据集凭借其跨平台特性成为评估计算机使用代理的核心基准。该数据集覆盖Windows、macOS、Linux、Android、iOS和Web六大平台，通过双循环数据采集管道整合了自动化代理与环境交互轨迹及专家标注数据，为GUI理解、元素定位和任务规划提供标准化测试环境。研究者在开发新型视觉语言模型时，常采用该数据集验证模型在复杂界面环境中的多模态推理能力，特别是在处理高分辨率屏幕截图与结构化元数据协同分析方面展现出独特价值。

解决学术问题

ScaleCUA有效解决了图形界面智能体研究中的数据稀缺性与平台异构性难题。传统GUI数据集往往局限于单一平台或特定任务类型，而该数据集通过统一的动作空间设计和跨平台元数据标注，突破了界面元素定位精度与任务规划泛化性的技术瓶颈。其提供的17.1M grounding标注样本和19K任务轨迹，为研究界面元素视觉-语义对齐、长程交互决策等关键问题提供了坚实基础，显著推进了纯视觉基计算机使用代理的发展进程。

实际应用

在实际部署场景中，基于ScaleCUA训练的智能体已展现出卓越的跨平台自动化能力。企业级软件测试流程可通过该技术实现图形界面的自主遍历与功能验证，大幅降低人工测试成本。在无障碍辅助技术领域，视觉障碍用户能借助此类代理完成复杂的界面操作，如自动填写网页表单或操作移动应用。金融行业则利用其高精度元素定位特性，开发出符合监管要求的自动化交易监控系统，实现了对多平台交易软件的可信交互。

数据集最近研究