five

GUI-Rise-pseudo-label

收藏
Hugging Face2025-12-04 更新2025-12-05 收录
下载链接:
https://huggingface.co/datasets/Leon022/GUI-Rise-pseudo-label
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含用于训练和评估GUI-Rise代理的伪标记GUI导航轨迹,如论文《GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation》中所述。GUI-Rise采用结构化的三阶段推理框架(“思考-行动-总结”)来增强GUI导航任务中的决策能力。数据集包含一个或多个JSON Lines(.jsonl)文件,每行代表一个动作的JSON对象,包括annotation_id、step_id和pseudo_labels字段。pseudo_labels字段进一步包含三个关键组件:progress_estimation(界面理解和进度估计)、decision_reasoning(策略制定)和history_summary(更新的历史摘要)。
创建时间:
2025-12-03
原始信息汇总

数据集概述:GUI-Rise Pseudo-Labeled GUI Navigation Trajectories

数据集描述

本数据集包含用于训练和评估GUI-Rise智能体伪标记GUI导航轨迹。该智能体在论文《GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation》中被提出。

  • 项目主页: https://leon022.github.io/GUI-Rise/
  • 代码仓库: https://github.com/Leon022/GUI-Rise-code
  • 论文地址: https://arxiv.org/pdf/2510.27210

动机与目的

GUI-Rise采用结构化的三阶段推理框架(“思考-行动-总结”)来增强GUI导航任务中的决策能力。为便于训练该智能体,本数据集提供了高质量的、机器生成的伪标签,这些标签将每个导航步骤分解为GUI-Rise范式所需的核心推理组件。

数据结构与内容

数据集由一个或多个JSON Lines(.jsonl)文件组成。每一行是一个代表单个动作的JSON对象。

数据字段

字段名 数据类型 描述
annotation_id string 任务或标注会话的唯一标识符。
step_id int 轨迹内步骤的顺序标识符(从0开始)。
pseudo_labels dict 包含三阶段推理输出的核心伪标签。

伪标签对象 (pseudo_labels)

该字典包含对应step_id的GUI-Rise推理框架的三个关键组件:

  1. progress_estimation (string): 界面理解与进度估计。分析当前GUI状态,识别相关元素和信息,并评估在完成整体任务目标方面取得的进展。
  2. decision_reasoning (string): 策略制定。详细说明选择下一个动作的推理过程。评估潜在动作,考虑约束条件,并为紧接的下一步制定计划。
  3. history_summary (string): 更新的历史摘要。提供截至当前步骤(包括当前步骤执行的动作)的交互历史的简明摘要。它综合了过去的动作和观察以保持上下文。

引用信息

如果使用本数据集,请引用相关的GUI-Rise论文: bibtex @article{liu2025gui, title={GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation}, author={Liu, Tao and Wang, Chongyu and Li, Rongjie and Yu, Yingchen and He, Xuming and Song, Bai}, journal={arXiv preprint arXiv:2510.27210}, year={2025} }

加载数据集

可以使用Hugging Face的datasets库轻松加载此数据集: python from datasets import load_dataset dataset = load_dataset("Leon022/GUI-Rise-pseudo-label")

搜集汇总
数据集介绍
main_image_url
构建方式
在图形用户界面导航研究领域,高质量标注数据的稀缺性构成了模型训练的主要瓶颈。GUI-Rise-pseudo-label数据集通过自动化流程构建,旨在为GUI-Rise智能体提供结构化的训练轨迹。其构建核心在于模拟智能体的“思考-行动-总结”三阶段推理框架,为导航轨迹中的每一步生成机器伪标签。这些伪标签并非源于人工标注,而是通过算法对任务进行分解,自动生成包含界面理解、决策推理与历史摘要的标准化输出,从而系统性地构建出大规模、格式统一的训练数据。
特点
本数据集的核心特征在于其深度结构化,紧密贴合GUI-Rise智能体的推理架构。每条数据记录不仅包含导航动作,更详尽地封装了每一步的思维过程,具体体现为进度评估、决策推演与历史摘要三个关键字段。这种设计将复杂的端到端导航任务解耦为可解释的推理步骤,为模型提供了清晰的学习目标。数据以JSON Lines格式组织,确保了高效的流式读取与处理,同时其字段设计具有明确的语义指向,极大地方便了研究者针对特定推理模块进行定向训练与评估。
使用方法
该数据集主要服务于基于GUI-Rise框架的导航智能体的训练与验证。使用者可通过Hugging Face `datasets`库便捷加载数据,将其输入模型以学习从界面状态到结构化推理链的映射关系。在实践中,模型的训练目标通常是根据给定的图形界面状态与历史,生成或预测对应的三阶段伪标签内容。此外,该数据集也可作为基准,用于评估其他导航模型在分步推理能力上的表现,通过对比模型输出与数据集中预设的伪标签,量化模型在界面理解、策略规划与历史归纳等方面的性能。
背景与挑战
背景概述
随着人工智能在图形用户界面自动化领域的深入探索,GUI导航任务对智能体提出了更高的认知与推理要求。在此背景下,GUI-Rise-pseudo-label数据集应运而生,由Tao Liu等研究人员于2025年创建,并作为论文《GUI-Rise: Structured Reasoning and History Summarization for GUI Navigation》的支撑数据。该数据集的核心研究问题聚焦于如何通过结构化的三阶段推理框架(“思考-行动-总结”)来增强智能体在复杂GUI环境中的决策能力,旨在推动人机交互与自动化代理技术向更高效、更可解释的方向发展,对相关领域的研究范式产生了显著影响。
当前挑战
在GUI导航领域,智能体面临的核心挑战在于如何准确理解动态变化的界面状态,并基于历史交互进行连贯的长期规划。GUI-Rise-pseudo-label数据集所针对的正是这一复杂决策问题,其挑战体现在对界面元素的语义理解、多步骤任务的进度评估以及历史信息的有效压缩与利用上。在数据构建过程中,研究团队需克服高质量伪标签生成的难题,包括确保机器生成的推理组件(如进度估计、决策推理和历史摘要)在逻辑上的一致性与准确性,以及如何将抽象的理论框架转化为可大规模应用的结构化数据,这本身即是一项艰巨的工程与算法挑战。
常用场景
经典使用场景
在图形用户界面智能体导航研究领域,GUI-Rise-pseudo-label数据集为训练和评估结构化推理模型提供了核心数据支撑。该数据集通过机器生成的伪标签,将每个导航步骤分解为“思考-行动-总结”三个推理阶段,使得研究者能够基于这些高质量标注轨迹,系统性地训练智能体在复杂GUI环境中的多步决策与状态理解能力。其典型应用场景包括构建端到端的GUI导航智能体,验证结构化推理框架的有效性,以及作为基准数据用于比较不同模型在界面理解与任务执行方面的性能差异。
实际应用
在实际应用层面,GUI-Rise-pseudo-label数据集能够助力开发自动化软件测试助手、无障碍辅助工具以及智能流程自动化系统。基于该数据集训练的智能体可应用于自动完成软件操作任务,例如表单填写、菜单导航或功能检索,从而提升办公效率与软件易用性。在无障碍技术领域,此类模型可帮助视障用户通过语音或其它交互方式操作图形界面。此外,数据集支持构建的智能体也能集成到机器人流程自动化平台中,执行基于GUI的重复性工作任务。
衍生相关工作
围绕该数据集衍生的经典工作主要集中于扩展结构化推理框架与探索新的预训练策略。例如,后续研究可能借鉴其“思考-行动-总结”范式,开发更精细的层次化推理模型或将其与视觉-语言大模型结合,以增强对动态界面的泛化理解。同时,该数据集的伪标签生成方法也启发了基于合成轨迹的强化学习与模仿学习研究,促进了在数据稀缺环境下GUI导航智能体的高效训练。这些工作共同推动了具身智能在数字环境中的推理与交互能力向更深层次发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作