Awesome CUA / GUI Agent Datasets for Computer and Phone Use

github2025-07-26 更新2025-07-27 收录

下载链接：

https://github.com/Khang-9966/Computer-Browser-Phone-Use-Agent-Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

一个精选的数据集列表，用于训练GUI代理——自动化与计算机、手机和浏览器上图形用户界面交互的AI系统。这些数据集支持点击、打字和导航视觉元素等任务，对于研究人员和开发者推进AI代理训练和GUI自动化至关重要。按年份排序（最近优先），每个条目包括数据集名称、简要描述、数据摘要和可用URL。

A curated list of datasets for training GUI Agents—AI systems that automate interactions with graphical user interfaces (GUIs) on computers, mobile phones, and browsers. These datasets support tasks such as clicking, typing, and navigating visual elements, and are critical for researchers and developers to advance AI agent training and GUI automation. Sorted by year (most recent first), each entry includes the dataset name, brief description, data summary, and available URL.

创建时间：

2025-07-25

原始信息汇总

GUI代理数据集概览（2024-2025）

2025年数据集

综合GUI数据集

Aria-UI/Aria-UI_Data
- 覆盖网页/移动/桌面端GUI基础数据
- 数据量：网页(290万指令+17.3万图)、移动(110万指令+10.4万图)、桌面(15万指令+7800图)
- 地址：https://huggingface.co/datasets/Aria-UI/Aria-UI_Data
AGUVIS
- 跨平台纯视觉GUI代理框架
- 分两阶段：
  - 阶段1：420万计算机/移动端基础样本
  - 阶段2：130万跨平台推理轨迹
- 地址：https://github.com/xlang-ai/aguvis

网页交互专项

Multimodal-Mind2Web
- HTML与网页截图配对数据集
- 包含7,775训练动作和6,418测试动作
- 地址：https://huggingface.co/datasets/osunlp/Multimodal-Mind2Web
Explorer
- 最大规模网页轨迹数据集
- 含94K成功轨迹、49K独立URL、72万截图
- 地址：https://arxiv.org/abs/2502.11357

移动端专项

Mobile-R1
- 中文移动应用交互数据集
- 1,007轨迹覆盖28个应用，含3,924交互步骤
- 地址：https://mobile-r1.github.io/Mobile-R1/
LearnGUI
- 移动GUI图示学习数据集
- 2,252离线任务+101在线任务覆盖73个APP
- 地址：https://huggingface.co/datasets/lgy0404/LearnGUI

桌面端专项

STEVE
- Windows系统UI基础私有数据集
- 含1万桌面图像+8万UI元素
- 地址：https://github.com/FanbinLu/STEVE
ShowUI_desktop
- 桌面GUI元素标注数据集
- 7,500截图含8,000元素标注
- 地址：https://huggingface.co/datasets/Voxel51/ShowUI_desktop

专业领域

AutomotiveUI-Bench-4K
- 车载信息娱乐系统数据集
- 998图像含4,208标注，覆盖15个汽车品牌
- 地址：https://paperswithcode.com/dataset/automotiveui-bench-4k
VideoCAD
- CAD软件操作视频数据集
- 41,000+标注CAD操作视频
- 地址：https://arxiv.org/html/2505.24838v1

2024年数据集

大规模基础

MultiUI
- 730万网页多模态指令样本
- 覆盖元素定位/动作预测等任务
- 地址：https://huggingface.co/datasets/neulab/MultiUI
OS-Atlas
- 跨平台GUI基础语料库
- 含1300万GUI元素覆盖三大平台
- 地址：https://osatlas.github.io/

交互轨迹

AgentTrek
- 网页教程衍生的高质量轨迹
- 4,902条含任务元数据和可复现轨迹
- 地址：https://agenttrek.github.io/
WebLINX
- 多轮对话网页导航数据集
- 2,300+专家演示含10万+交互
- 地址：https://huggingface.co/datasets/McGill-NLP/WebLINX

移动端

MobileViews
- 超60万移动端截图-视图层级对
- 覆盖2万+安卓应用
- 地址：https://huggingface.co/datasets/mllmTeam/MobileViews
AndroidControl
- 15,283个安卓任务演示
- 覆盖833个应用
- 地址：https://huggingface.co/datasets/H

评估基准

VisualAgentBench
- 跨平台GUI代理评估基准
- 含Android虚拟设备等测试环境
- 地址：https://github.com/THUDM/VisualAgentBench
VGA
- 视觉问答数据集
- 6.38万高质量VQA样本
- 地址：https://github.com/Linziyang1999/VGA-visual-GUI-assistant

搜集汇总

数据集介绍

构建方式

在图形用户界面（GUI）自动化领域，GUI Agent Datasets for Computer and Phone Use通过多种技术手段构建而成。数据集整合了来自网页、移动端和桌面端的交互数据，采用虚拟环境录制、多模态标注和自动化工具生成等方法。例如，Aria-UI数据集通过大规模网页爬取和人工标注结合的方式，收集了290万条指令和17.3万张图片；STEVE数据集则利用Windows虚拟机和辅助功能树数据，专门针对桌面UI元素进行标注。这些构建方法确保了数据在覆盖范围和质量上的多样性，为GUI智能体训练提供了坚实基础。

特点

该数据集最显著的特点是跨平台和多模态的综合性。它不仅涵盖网页、移动应用和桌面软件三大场景，还融合了视觉截图、HTML文档、辅助功能树等多种数据类型。以Multimodal-Mind2Web为例，其创新性地将网页截图与HTML源码配对，为智能体提供更丰富的上下文信息。同时，数据集还包含细粒度的动作标注（如点击坐标、输入文本）和语义标注（如任务描述、预期结果），这种多层次标注体系特别适合训练具备复杂推理能力的GUI智能体。值得注意的是，部分数据集如VideoGUI还引入了专业软件操作视频，进一步扩展了数据的时间维度。

使用方法

研究人员可通过Hugging Face等平台直接下载预处理好的数据集文件，通常包含JSON格式的标注数据和对应的图像资源。以Mobile-R1数据集为例，其data.jsonl文件完整记录了每个交互轨迹的屏幕截图路径、动作历史和执行参数，开发者可以便捷地将其转换为训练所需的输入输出对。对于高级应用场景，如OS-Genesis数据集提供的反向任务合成方法，用户可以通过调整轨迹奖励模型来生成特定类型的训练数据。大多数数据集都提供了详细的加载示例和评估脚本，支持PyTorch或TensorFlow等主流框架的直接调用。

背景与挑战

背景概述

GUI Agent Datasets for Computer and Phone Use 是一系列专注于图形用户界面（GUI）自动化交互的数据集集合，由多个研究机构与团队在2024至2025年间陆续发布。这些数据集旨在支持训练能够自动化执行点击、输入和导航等任务的AI代理，覆盖了网页、移动端和桌面端等多种平台。核心研究问题包括跨平台GUI元素的视觉定位、多模态指令理解以及复杂任务的长时程规划。其影响力显著推动了人机交互、自动化测试和智能辅助工具等领域的发展，为构建通用型GUI代理提供了丰富的数据基础。

当前挑战

该领域面临的核心挑战包括：1) 跨平台GUI元素的多样性与动态性导致视觉定位精度不足，例如网页弹窗或移动端悬浮按钮的实时检测；2) 多模态数据对齐的复杂性，需同时处理屏幕截图、可访问性树和操作指令的异构特征；3) 长时程任务中动作序列的容错性要求，如电商下单流程因页面加载延迟导致的决策中断。在数据构建层面，挑战体现为：大规模真实环境数据的采集成本高昂，需依赖虚拟化技术和众包标注；动态内容（如广告轮播）的标注一致性难以保证；以及跨设备分辨率差异对视觉模型泛化能力的负面影响。

常用场景

经典使用场景

在人工智能与图形用户界面交互的研究领域，GUI Agent Datasets为训练自动化GUI交互的AI系统提供了丰富的数据支持。这些数据集广泛应用于模拟用户在计算机、手机和浏览器上的点击、输入和导航等操作，为开发能够理解和执行复杂GUI任务的智能代理奠定了数据基础。特别是在多模态学习和视觉语言模型的研究中，这些数据集通过提供大量标注的屏幕截图和交互轨迹，成为评估和改进模型性能的重要工具。

实际应用

在实际应用层面，这些数据集直接支撑了智能助手、自动化测试工具和无障碍交互系统的开发。例如，基于Aria-UI数据训练的代理可同时处理网页、移动端和桌面应用的操作指令，大幅提升企业流程自动化效率。Mobile-R1等针对中文应用优化的数据集，则为本土化移动代理的研发提供了关键训练素材。工业界已采用此类数据构建能够自主完成软件操作、数据录入和系统监控的智能体，显著降低了人力成本并提高了任务执行的准确性。

衍生相关工作

该数据集的发布催生了多项标志性研究成果，如OS-Atlas提出的跨平台基础动作模型，以及AGUVIS框架实现的纯视觉跨端代理架构。Mind2Web系列工作通过引入在线评估机制，确立了网页代理性能测试的新范式。GUIMid创新性地将数学推理数据迁移至GUI领域，验证了跨域知识迁移的可行性。这些衍生研究不仅扩展了原始数据集的应用维度，更推动了整个GUI智能体领域向多模态、强泛化和可解释性方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集