cua-lite/ScaleCUA

Name: cua-lite/ScaleCUA
Creator: cua-lite
Published: 2026-05-01 02:37:20
License: 暂无描述

Hugging Face2026-05-01 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/cua-lite/ScaleCUA

下载链接

链接失效反馈

官方服务：

资源简介：

cua-lite/ScaleCUA是一个大规模多平台/多任务类型的GUI数据集，涵盖理解、基础：动作、基础：边界框、基础：点和导航等任务类型。数据集经过预处理，包含结构化数据，如图像、消息和元数据。支持桌面、移动和网页平台。数据集加载方式、架构、布局、统计信息以及本地镜像指令均在README中详细说明。

cua-lite/ScaleCUA is a large-scale multi-platform/multi-task-type GUI dataset spanning understanding, grounding:action, grounding:bbox, grounding:point, and navigation tasks. The dataset is preprocessed and contains structured data with images, messages, and metadata. It supports desktop, mobile, and web platforms. The README provides detailed instructions on how to load the dataset, its schema, layout, statistics, and local mirroring.

提供机构：

cua-lite

搜集汇总

数据集介绍

构建方式

ScaleCUA数据集是面向图形用户界面（GUI）智能体研究的规模化多平台、多任务类型数据集，由OpenGVLab与zyliu发布的原始数据经cua-lite团队预处理后整合而成。该数据集覆盖桌面端、移动端与网页端三大平台，并按照grounding.action、grounding.bbox、grounding.point、navigation及understanding五种任务类型进行精细化组织。数据以Parquet格式存储，每行包含嵌入的图像序列、符合OpenAI对话格式的结构化消息列表以及详尽的元数据字段，坐标值统一归一化至[0, 1000]整数区间。数据划分包含训练集与验证集，其中验证集为同分布留出样本，且数据按平台、任务类型及变体层级存放在规范的目录结构中，便于高效检索与加载。

特点

该数据集的显著特点在于其多平台覆盖与任务类型的全面性，囊括了从基础的元素定位（边界框、点、动作）到高层次的界面理解（描述、转场、用户意图）乃至完整导航流程的多样需求。总计包含超过200万条训练样本与数万条验证样本，其中仅桌面端grounding.action任务就拥有48万余条数据，展现了极高的数据规模与丰富度。数据集高度结构化，每一条样本均携带包含平台、任务类型、变体等信息的元数据字段，支持细粒度筛选，同时HuggingFace上配置了细粒度的config_name，允许用户按平台或具体平台-任务组合进行选择性加载。原始图像总数超过64万张，总存储空间达366GB，确保了数据内容的多样性。

使用方法

研究者可通过HuggingFace的datasets库便捷加载ScaleCUA数据集。使用load_dataset函数即可加载完整数据集，或通过指定config_name参数按平台（如"desktop"）或平台-任务组合（如"mobile.grounding.action"）加载特定子集。加载后，数据以标准格式呈现，每行包含images、messages和metadata字段，messages字段采用OpenAI风格的多轮对话结构，可直接用于监督微调（SFT）任务。针对本地深度学习工作流，数据集还提供了配套的镜像下载与导出工具，可将远程数据同步至本地内容寻址图像存储结构，并通过SFT导出接口生成适用于训练消费的格式，支持去重与跨数据集混合操作，极大地提升了使用的灵活性与效率。

背景与挑战

背景概述

随着图形用户界面（GUI）的普及，智能代理在桌面、移动端和网页平台上自主完成用户指令的需求日益迫切，这要求模型具备理解屏幕内容、定位交互元素并执行一系列操作的能力。ScaleCUA数据集由上海人工智能实验室（OpenGVLab）等机构于2024年左右创建，旨在为多平台、多任务的GUI自主代理研究提供大规模训练资源。该数据集整合了来自OpenGVLab/ScaleCUA-Data和zyliu/ScaleCUA-Data-Understanding的原始数据，经过预处理形成覆盖理解、动作定位、边界框定位、点定位及导航等五大任务类型的高质量指令数据。ScaleCUA的出现填补了缺乏统一、大规模跨平台GUI指令数据的空白，为训练端到端的视觉语言模型以执行复杂的GUI操作任务奠定了坚实基础，在相关领域具有重要的推动作用。

当前挑战

ScaleCUA数据集所解决的核心领域挑战在于，现有模型在异构的桌面、移动与网页界面中难以泛化，且缺乏从任务理解到精准交互的端到端训练范式，导致自主代理面临指令执行效率低、跨平台迁移能力弱的问题。在构建过程中，数据集面临多源异构数据的融合挑战，包括不同来源中图像编码、坐标标注体系（如归一化至[0,1000]整数的标准化处理）以及平台间交互语义差异的统一。同时，规模庞大的数据量（总计超过210万条样本，64万余张独立图像，存储量达366GB）带来了高效的去重、分片及数据质量管控难题。此外，确保各类任务（如动作定位与导航规划）的标注一致性，并合理划分训练集与分布内验证集以避免数据泄露，也是构建过程中的关键挑战。

常用场景

经典使用场景

在图形用户界面（GUI）智能体研究的前沿领域，ScaleCUA作为一座横跨桌面、移动端与Web三大平台的鸿篇巨制，为多模态大模型的训练与评测提供了前所未有的数据沃土。其最经典的使用场景聚焦于视觉语言模型（VLM）在GUI理解与交互任务上的监督式微调（SFT），涵盖界面元素定位（grounding）、操作动作生成（action）、界面描述生成（caption）以及多步任务导航（navigation）等核心能力。研究者可依据不同平台与任务类型的精细组合（如mobile.grounding.bbox或web.navigation），精准筛选数据片段，用于训练能够像人类一样“看懂”屏幕并执行点击、滑动等操作的通用GUI智能体，堪称构建下一代自动化界面操作系统的基石。

解决学术问题

ScaleCUA的出现有效破解了GUI领域长期存在的两大困境：其一是多平台数据割裂导致的模型泛化不足，其二是细粒度交互标注缺失引发的推理链条断裂。通过提供超64万张独立屏幕截图及对应的结构化操作序列，该数据集使学术界得以系统研究如何让大语言模型从静态的界面理解跃迁至动态的意图执行。它具体支撑了跨平台GUI grounding的统一基准构建，推动了从“理解屏幕”到“规划步骤”再到“执行动作”的端到端智能体范式落地，其丰富的数据变体（如planning与screen_transition）还助力探索了任务规划与状态变化推理等更深层次的认知问题，对推动具身智能在数字世界的应用具有显著的理论与工程意义。

衍生相关工作

围绕ScaleCUA已衍生出一系列影响深远的研究工作。其原始贡献者OpenGVLab与zyliu在发布数据的同时，配套推出了CUA-Lite轻量化训练框架，为社区提供了标准化的本地镜像导出与SFT流程。后续学者基于该数据集提出了跨平台GUI智能体的统一架构，将desktop、mobile与web的grounding训练耦合至单一骨干网络中并显著提升了零样本迁移能力。另有工作聚焦于点级精确标注的细粒度训练，利用ScaleCUA中的grounding.point数据改进了元素定位的分辨率鲁棒性。学术界还涌现出将该数据集与WebArena、AndroidEnv等交互环境结合的新范式，通过先预训练后微调的两阶段策略，使智能体在真实网页和APP中达到接近人类的操作效率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集