GUI-ReWalk

Name: GUI-ReWalk
Creator: 字节跳动
Published: 2025-09-19 16:09:18
License: 暂无描述

arXiv2025-09-19 更新2025-09-23 收录

下载链接：

https://gui-rewalk.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

GUI-ReWalk数据集是由字节跳动公司开发的一个多阶段框架，用于生成真实且多样化的图形用户界面(GUI)轨迹数据。该框架首先通过随机探索阶段模拟人类的试错行为，然后逐步过渡到推理引导阶段，其中推断出的目标驱动着连贯且有目的的交互。此外，它还支持多步任务生成，能够在多个应用程序之间构建长跨度的流程。GUI-ReWalk通过结合随机性以实现多样性，以及目标感知推理以实现结构，生成能够更好地反映人机交互意图感知和适应性本质的数据。

The GUI-ReWalk dataset is a multi-stage framework developed by ByteDance for generating realistic and diverse graphical user interface (GUI) trajectory data. The framework first simulates human trial-and-error behavior via a random exploration phase, then gradually transitions to an inference-guided phase, where the inferred goals drive coherent and purposeful interactions. Moreover, it supports multi-step task generation and can construct long-span workflows across multiple applications. By integrating randomness to ensure diversity and goal-aware reasoning to maintain structural coherence, GUI-ReWalk generates data that better reflects the intent-aware and adaptive nature of human-computer interaction.

提供机构：

字节跳动

创建时间：

2025-09-19

原始信息汇总

GUI-ReWalk 数据集概述

数据集名称

GUI-ReWalk

核心目标

为图形用户界面（GUI）智能体生成大规模、高质量轨迹数据，以解决现有数据收集方法在多样性和有意义任务覆盖之间的权衡问题。

框架特点

多阶段合成框架：结合随机探索和推理引导阶段
多平台覆盖：支持移动端和桌面端环境
长尾模式：模拟人类试错行为
反思学习：通过回顾性注释记录执行动作和GUI状态
多跨度工作流：支持跨应用程序的长视野任务生成

数据生成流程

随机游走：从随机应用开始，逐步选择动作与元素交互
任务引导完成：完成最小步数任务形成跨度
跨应用任务启动：在相关应用中提出并执行新任务
回顾性注释：在每个子阶段后记录执行动作和GUI状态

数据统计

任务数量：50,000+
平均步数：22.5
环境类型：移动端和桌面端
标注方式：模型生成
思考类型：长思考
领域/轴任务支持：是

实验评估结果

基础能力测试

Screenspot-Pro基准测试结果

GUI-ReWalk-7B平均得分：35.1（文本+图标平均）
对比模型：UI-TARS-1.5-7B（46.4）、Qwen2.5-VL-7B（20.8）

OS-World-G基准测试结果

GUI-ReWalk-7B平均得分：27.5
对比模型：UI-TARS-1.5-7B（47.5）、Qwen2.5-VL-7B（16.8）

导航能力测试

AndroidControl和GUI-Odyssey基准测试

AndroidControl-Low：类型准确率91.7%，成功率96.3%
AndroidControl-High：类型准确率73.1%，成功率66.2%
GUI-Odyssey：类型准确率69.6%，成功率64.2%

模型训练

基于GUI-ReWalk数据集训练Qwen2.5-VL-7B模型，并在多个基准测试中评估。

论文信息

标题：GUI-ReWalk: Massive Data Generation for GUI Agent via Stochastic Exploration and Intent-Aware Reasoning
作者：Musen Lin, Minghao Liu, Taoran Lu, Lichen Yuan, Yiwei Liu, Haonan Xu, Yu Miao, Yuhao Chao, Zhaojian Li
年份：2025
arXiv编号：2509.15738
论文链接：https://arxiv.org/abs/2509.15738

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，数据稀缺问题长期制约着模型性能的突破。GUI-ReWalk通过多阶段混合生成框架创新性地解决了这一瓶颈，其构建过程始于模拟人类探索行为的随机游走阶段，采用均匀策略在马尔可夫链中进行无目标交互以覆盖多样界面状态。随着轨迹延伸，系统逐步过渡到推理引导阶段，利用大语言模型从部分观察序列中推断高层目标，形成类似马尔可夫决策过程的意图驱动交互。该框架还支持跨应用的多步长任务生成，通过回溯标注机制自动生成语义丰富的监督信号，并在遇到执行障碍时启动自适应目标修正流程，最终构建出兼具随机性和目的性的长程工作流。

特点

作为跨平台GUI交互数据集，GUI-ReWalk展现出四大核心特征：其多环境覆盖能力同时囊括移动端与桌面端应用，通过统一动作空间标准化了15类基础交互操作；长尾分布特性体现在随机探索阶段捕获的罕见但语义完整的任务轨迹，有效扩展了模型行为边界；反射学习机制赋予数据集自我修正能力，当遭遇死锁状态时能通过目标重构实现错误恢复；多步长工作流设计则真实还原了人类跨应用协作模式，平均轨迹长度达22.5步，显著优于现有单平台数据集。这些特性共同保障了数据在熵值密度和意图真实性方面的卓越表现。

使用方法

该数据集主要服务于GUI智能体的监督微调与强化学习训练。研究者可提取轨迹中的状态-动作对作为演示数据，利用回溯标注生成的层级指令构建多粒度监督信号。对于导航任务训练，建议优先采用跨应用的多步长轨迹以培养智能体的长期规划能力；而在 grounding 任务中，则可聚焦单步长内的精细交互序列。数据集内置的任务恢复案例特别适用于鲁棒性训练，能有效提升模型在异常状态下的适应能力。值得注意的是，使用时应遵循平台特异性规范，针对移动端和桌面端分别采用对应的动作子集，并利用应用多样性统计信息进行负样本采样优化。

背景与挑战

背景概述

GUI-ReWalk是由字节跳动研究团队于2025年提出的图形用户界面智能体数据集生成框架，旨在解决GUI智能体发展中高质量轨迹数据稀缺的核心瓶颈。该框架创新性地将人类与图形界面的交互过程建模为分层马尔可夫决策过程，通过融合随机探索与目标导向推理的双阶段机制，模拟人类从界面试探到意图驱动的自然行为演进。其设计灵感源于真实人机交互中探索边界、目标制定、跨应用协调与自我修正的渐进模式，突破了传统人工标注成本高昂与合成方法多样性不足的双重限制。该数据集覆盖移动端与桌面端双平台，包含超过5万条标注任务，平均轨迹长度达22.5步，为GUI智能体的感知、推理与行动能力提供了大规模、高质量的训练基础。

当前挑战

GUI-ReWalk针对的GUI智能体领域面临两大核心挑战：在领域问题层面，需解决图形界面中长视野任务规划、多应用工作流协调以及动态环境适应性的难题，特别是如何处理高密度图标识别、复杂布局理解与真实用户意图建模等视觉-语义耦合问题；在数据构建层面，框架需平衡随机探索的多样性与目标推理的结构性，避免生成无意义轨迹或过度拟合特定模式，同时克服登录操作隐私保护、系统级副作用隔离等实际部署约束。其多步长任务生成机制还需确保跨应用轨迹的语义连贯性，并通过反思性标注与错误恢复机制应对dead-end状态，最终实现对人类交互中“混沌与秩序”动态平衡的精准建模。

常用场景

经典使用场景

在图形用户界面智能体研究领域，GUI-ReWalk数据集通过多阶段轨迹生成框架实现了对真实人机交互行为的精准建模。该数据集最经典的应用场景体现在训练端到端的GUI智能体模型，其随机探索阶段模拟人类面对陌生界面时的试错行为，而推理引导阶段则通过大语言模型推断高层目标，驱动连贯的交互流程。这种结合混沌探索与目标导向的混合策略，使得生成的数据能够覆盖从基础操作到复杂工作流的完整交互谱系，为GUI智能体提供了丰富的学习样本。

衍生相关工作

GUI-ReWalk的推出催生了系列重要衍生研究。其多阶段生成框架启发了OS-Genesis等工作的反向任务合成思路，而统一动作空间设计则为UI-TARS等原生智能体架构提供了标准化交互范式。在基准建设方面，该数据集支撑的评估方法被GUI-World等视频基准采纳，推动了多模态GUI理解的发展。其错误恢复机制更成为Look-before-you-leap等反思型智能体的设计蓝本，这些工作通过引入预执行错误诊断显著提升了智能体的鲁棒性。这些衍生研究共同构成了GUI智能体研究的新范式，推动了该领域向更可靠、通用的方向发展。

数据集最近研究