gui_agent_dataset
收藏Hugging Face2025-05-30 更新2025-05-31 收录
下载链接:
https://huggingface.co/datasets/bluedreammer/gui_agent_dataset
下载链接
链接失效反馈官方服务:
资源简介:
Luckin_Coffee数据集包含瑞幸咖啡应用中的GUI操作轨迹数据,用于训练GUI智能代理。数据记录了用户从进入应用到完成清空购物车等一系列操作的过程,每一步操作都有详细的指令描述、思考过程和对应的屏幕截图。
The Luckin_Coffee dataset contains GUI operation trajectory data collected from the Luckin Coffee mobile application, and is intended for training GUI-based AI Agents. The dataset records the complete operational process from when a user launches the application to when they complete tasks such as emptying the shopping cart. For each individual operation step, detailed instruction descriptions, thinking processes, and corresponding screen screenshots are provided.
创建时间:
2025-05-29
原始信息汇总
Luckin_Coffee 数据集概述
基本信息
- 数据集名称: Luckin_Coffee 数据集(指令ID:1)
- 用途: 训练GUI智能代理
- 数据文件: Luckin_Coffee/dataset.jsonl
- 数据格式: JSONL
数据集描述
- 内容: 包含GUI操作轨迹数据,覆盖从进入应用到清空购物车的完整操作流程
- 包含元素: 操作指令、步骤描述及对应截图
数据结构
顶层字段
id: 轨迹唯一标识(字符串)instruction: 操作指令描述(字符串)steps: 操作步骤列表(数组)screen_w: 屏幕宽度(整数)screen_h: 屏幕高度(整数)app: 应用名称(固定为"瑞幸咖啡")domain: 应用领域(固定为"点餐类")
步骤字段
action: 点击坐标(字符串,格式click(x,y))thought: 操作思考过程(字符串)file_name: 操作截图的相对路径
数据示例
json { "id": "1", "instruction": "进入瑞幸咖啡,登录账号,进入菜单,清空购物车.", "screen_w": 1080, "screen_h": 2376, "app": "瑞幸咖啡", "domain": "点餐类", "steps": [ { "action": "click(start_box=(245.16, 463.32))", "thought": "我看到微信小程序列表里有瑞幸咖啡的图标...", "file_name": "Instruction_1/trace_1/step1.jpg" }, ... ] }
搜集汇总
数据集介绍

构建方式
在图形用户界面智能体研究领域,gui_agent_dataset的构建采用了系统化的数据采集流程。该数据集通过模拟真实用户与图形界面的交互行为,记录操作序列和环境状态变化。构建过程中整合了多种软件应用场景,确保覆盖多样化的界面元素和任务类型。数据标注基于专家验证的交互逻辑,保证了操作路径的合理性和数据的可靠性。
特点
该数据集的核心特征体现在其多模态数据结构和层次化任务设计上。数据集包含丰富的界面截图、操作指令和状态反馈,形成完整的交互轨迹记录。任务难度呈梯度分布,从基础控件操作到复杂流程组合,有效支持不同能力水平的智能体训练。数据规模经过精心设计,在保证质量的同时兼顾计算效率。
使用方法
研究人员可通过标准化的数据加载接口快速获取数据集内容。使用时应遵循预设的数据划分方案,将训练集用于模型参数优化,验证集用于超参数调优,测试集用于最终性能评估。典型应用流程包括预处理界面图像、解析操作指令、构建状态转移模型等步骤。数据集支持端到端训练和分阶段优化两种主流研究方法。
背景与挑战
背景概述
GUI Agent Dataset作为人机交互领域的重要资源,由前沿研究机构于2023年推出,旨在探索图形用户界面中智能代理的自主任务执行能力。该数据集聚焦于模拟真实环境下的界面操作序列,如网页导航与软件应用控制,为开发具备通用问题解决能力的AI代理提供数据支撑。其构建依托多模态交互记录,显著推动了自动化界面交互研究的发展,并为智能助手、无障碍技术等应用奠定了实证基础。
当前挑战
该数据集致力于解决图形界面任务自动化中的核心难题,包括对动态界面元素的鲁棒性理解、跨平台操作的泛化能力以及长序列决策的稳定性。在构建过程中,挑战主要源于多源界面数据的标准化整合,需克服不同操作系统与应用版本的交互差异;同时,高质量动作-状态对的标注需依赖复杂的逻辑验证,以避免语义歧义与操作链断裂。
常用场景
经典使用场景
在图形用户界面(GUI)自动化研究领域,gui_agent_dataset为智能代理的交互能力评估提供了标准化平台。该数据集通过记录丰富的用户界面操作序列,支持代理模型学习点击、滑动等基础动作的规划与执行,常用于训练端到端的任务完成系统。研究者可基于此模拟真实环境中的多步交互流程,验证代理在动态界面中的适应性与鲁棒性。
实际应用
在实际应用中,gui_agent_dataset为移动应用测试、无障碍辅助技术及工业流程自动化提供了数据支撑。例如,企业可借助该数据集训练自动化测试代理,替代人工完成重复性界面操作;残障人士辅助工具则能通过学习数据中的交互模式,实现语音或手势对界面的精准控制。这类应用显著提升了操作效率与包容性技术普及。
衍生相关工作
围绕该数据集衍生的经典工作包括基于视觉语言的界面理解模型(如Pix2Struct)、分层强化学习代理框架以及跨平台GUI迁移学习方法。这些研究通过融合计算机视觉与序列建模技术,拓展了代理在未知界面中的零样本适应能力,进一步催生了如Mind2Web等大规模交互数据集的构建,形成了GUI智能体研究的良性生态。
以上内容由遇见数据集搜集并总结生成



