gui_agent_dataset_dpo

Hugging Face2025-06-05 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/bluedreammer/gui_agent_dataset_dpo

下载链接

链接失效反馈

官方服务：

资源简介：

Luckin_Coffee数据集是一个包含GUI操作轨迹的数据集，用于训练GUI智能代理。它涵盖了用户在瑞幸咖啡小程序中的完整操作流程，从进入应用到清空购物车，包括操作指令、步骤描述、操作截图以及用户在实际交互场景中的回复内容。

The Luckin_Coffee Dataset is a dataset consisting of GUI operation trajectories, specifically designed for training GUI intelligent agents. It encompasses the complete user operation workflow within the Luckin Coffee Mini Program, spanning from launching the application to emptying the shopping cart. The dataset includes operation instructions, step-by-step descriptions, operation screenshots, as well as user response content collected in actual interaction scenarios.

创建时间：

2025-06-04

原始信息汇总

Luckin_Coffee 数据集（指令ID：1035）

数据集概述

用途：训练GUI智能代理
数据范围：覆盖从进入应用到清空购物车的完整操作流程
数据内容：包含操作指令、步骤描述及对应截图，用户交互场景包含实际回复内容

数据结构

顶层字段

id：轨迹唯一标识（字符串）
instruction：操作指令描述（字符串）
steps：操作步骤列表（数组）
screen_w：屏幕宽度（整数）
screen_h：屏幕高度（整数）
app：应用名称（固定为瑞幸咖啡）
domain：应用领域（固定为点餐类）

steps字段

action：点击坐标（格式click(x,y)）或用户交互指令（格式call_user(content=...)）
thought：操作思考过程（字符串）
file_name：操作截图相对路径（格式：instruction_1035/trace_{trace_id}/{step_image}）
user_reply：用户回复内容（仅当action为call_user时存在）

数据示例

json { "id": "1", "instruction": "请帮我在瑞幸咖啡小程序里下单，餐品如下：1杯卡布奇诺（杯型：大杯）。", "screen_w": 1080, "screen_h": 2376, "app": "瑞幸咖啡", "domain": "点餐类", "steps": [ { "action": "click(start_box=(561.6, 175.82))", "thought": "我在瑞幸咖啡的菜单页面上，需要找到卡布奇诺并进行下单...", "file_name": "instruction_1035/trace_1/step1.jpg" } ], "chosen": { "action": "click(start_box=(561.6, 175.82))", "thought": "我在瑞幸咖啡的菜单页面上，需要找到卡布奇诺并进行下单...", "file_name": "instruction_1035/trace_1/step1.jpg" }, "rejected": { "action": "call_user(content=你要什么糖度呢？)", "thought": "我看到当前页面是瑞幸咖啡小程序的首页...", "file_name": "instruction_1035/trace_1/step1.jpg", "user_reply": "少甜" } }

数据文件

训练集：Luckin_Coffee/dataset.jsonl

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，该数据集通过精心设计的交互轨迹收集流程构建而成。研究团队采用真实环境模拟与人工标注相结合的方式，记录多轮人机对话中的操作序列与响应选择，并利用直接偏好优化技术对高质量交互样本进行筛选与增强，确保数据兼具多样性和可靠性。

特点

该数据集涵盖丰富的界面操作场景，包含高精度的屏幕元素标注与动作语义描述。其突出特点在于融合了多模态输入输出结构，既保留原始屏幕布局信息，又整合自然语言指令与执行反馈，为模型提供兼具视觉与语义理解的训练基础。数据经过严格去噪与对齐处理，支持细粒度的行为分析与泛化能力评估。

使用方法

研究者可借助该数据集训练或评估GUI交互任务的强化学习与监督学习模型。使用时需加载预定义的轨迹格式，区分状态观察值、动作序列及奖励信号。建议采用跨任务验证框架，通过划分训练集与测试集评估模型在未知界面中的泛化性能，同时注意遵循伦理规范以确保实验可复现性。

背景与挑战

背景概述

在人机交互与人工智能融合发展的背景下，图形用户界面（GUI）智能代理的研究逐渐成为自动化与效率提升的关键方向。gui_agent_dataset_dpo由前沿研究团队于近年构建，旨在通过人类反馈的偏好优化方法，提升智能代理在GUI环境中的决策与操作能力。该数据集聚焦于解决自动化任务执行中的泛化性与适应性难题，为GUI交互的智能化研究提供了重要数据基础，推动了人机协作系统的实际应用与理论进展。

当前挑战

GUI智能代理领域面临的核心挑战在于环境动态性与任务多样性的复杂交互，要求模型具备高泛化能力与实时决策精度。数据构建过程中，需克服人类反馈数据收集的一致性难题，以及动态界面元素标注的语义对齐问题。同时，偏好优化目标的量化与偏差控制亦成为数据质量保障的关键挑战，直接影响代理行为的可靠性与可解释性。

常用场景

经典使用场景

在人机交互领域，GUI Agent Dataset DPO 主要用于训练和评估基于图形用户界面的智能代理系统。该数据集通过记录用户与图形界面的交互序列，为代理学习复杂的界面操作任务提供了丰富的训练样本。典型应用包括自动化软件测试、智能助手的行为优化以及多步骤任务的执行模拟，这些场景均依赖于对界面元素和用户意图的深度理解。

实际应用

在实际应用中，该数据集被广泛应用于开发智能桌面助手、自动化办公流程系统以及辅助残障人士的交互工具。例如，企业可利用其训练代理自动完成数据录入、报表生成等重复性工作，显著提升操作效率并降低人工成本。同时，在教育领域，它还能用于构建交互式学习代理，提供个性化的软件使用指导。

衍生相关工作

该数据集衍生了一系列经典研究工作，包括基于人类反馈的界面代理微调框架、跨平台GUI操作迁移模型以及多模态界面理解系统。这些工作显著提升了代理在复杂环境中的适应性和鲁棒性，并为后续研究如视觉-语言模型在界面自动化中的应用奠定了基础，推动了整个领域的技术演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集