GUI-Libra
收藏arXiv2026-02-26 更新2026-02-27 收录
下载链接:
https://gui-libra.github.io
下载链接
链接失效反馈官方服务:
资源简介:
GUI-Libra是由微软研究院与多所高校联合构建的图形用户界面推理数据集,包含8.1万条经过严格筛选的高质量样本。该数据集通过创新的构建与过滤流程,强化了推理轨迹与可执行动作的关联性,覆盖网页和移动端多平台交互场景。数据来源于现有开源GUI轨迹的增强与标注,重点解决动作对齐不足和噪声标签问题。其核心应用于提升原生GUI代理的决策能力,支持长视野任务导航中高层推理与底层执行的联合优化。
GUI-Libra is a graphical user interface (GUI) reasoning dataset jointly constructed by Microsoft Research and multiple universities, consisting of 81,000 high-quality samples rigorously curated. Through an innovative construction and filtering pipeline, this dataset strengthens the association between reasoning trajectories and executable actions, covering multi-platform interaction scenarios for both web and mobile interfaces. Derived from the enhancement and annotation of existing open-source GUI trajectories, the dataset primarily addresses the challenges of insufficient action alignment and noisy labels. Its core applications lie in enhancing the decision-making capabilities of native GUI agents and supporting joint optimization of high-level reasoning and low-level execution in long-horizon task navigation.
提供机构:
伊利诺伊大学厄巴纳-香槟分校; 微软; 北卡罗来纳大学教堂山分校
创建时间:
2026-02-26
搜集汇总
数据集介绍
构建方式
在图形用户界面智能体领域,高质量推理数据的稀缺性长期制约着模型的长时程决策能力。GUI-Libra数据集通过系统化的数据构建与过滤流程,从现有开源轨迹数据中提取并增强推理标注,形成了包含81K步骤的精选数据集。该流程首先整合了多个公开的GUI导航数据集,并统一为结构化的输入输出格式,其中输出包含用<think>标签包裹的推理轨迹和用<answer>标签包裹的可执行动作。随后,利用大语言模型生成与动作对齐的详细推理轨迹,并通过基于动作重预测和坐标对齐的两步自动过滤机制,有效去除了噪声样本,提升了数据质量与动作-推理的一致性。
特点
GUI-Libra数据集的核心特点在于其高质量的动作对齐推理标注以及跨领域的广泛覆盖。与先前仅包含简短或无推理轨迹的数据集相比,该数据集的平均推理令牌数显著更高,为模型提供了丰富的逐步思考监督信号。数据涵盖了网页和移动端两大领域,包含了点击、输入、滚动等13种常见GUI操作类型,反映了真实世界交互的多样性。此外,数据集经过精心过滤,确保了推理描述与可执行动作之间的高度匹配,减少了训练中的歧义。这种对长链推理与精确动作执行的共同强调,为训练兼具高级推理与低级执行能力的原生GUI智能体奠定了坚实基础。
使用方法
GUI-Libra数据集主要用于训练和评估具备推理能力的原生图形用户界面智能体。在使用时,模型接收包含系统提示、用户指令、交互历史及当前屏幕截图的输入,并生成包含推理轨迹和结构化动作的响应。该数据集支持两阶段训练流程:首先,在监督微调阶段,可采用动作感知的混合监督策略,同时使用带推理和不带推理的数据,并对动作和 grounding 令牌施加更高权重,以缓解长推理链导致的 grounding 性能下降。随后,在强化学习阶段,数据集可用于基于部分可验证奖励的策略优化,配合KL正则化等技术来稳定训练并提升离线指标与在线性能的关联性。评估时,可在AndroidWorld、WebArena等多类在线基准测试中检验模型的端到端任务完成能力。
背景与挑战
背景概述
GUI-Libra数据集由UIUC、微软及UNC-Chapel Hill的研究团队于2026年2月发布,旨在解决原生图形用户界面(GUI)智能体在长时程导航任务中推理与执行能力不足的核心问题。该数据集聚焦于构建高质量、动作对齐的推理数据,以弥合开源GUI智能体与闭源系统在复杂交互任务上的性能差距。通过整合多源公开轨迹数据并引入精细化的数据增强与过滤流程,GUI-Libra提供了包含81K步骤的GUI推理数据集,显著提升了动作与推理轨迹的对齐质量,为训练具备鲁棒决策能力的端到端GUI智能体奠定了关键数据基础,推动了视觉-语言模型在交互式界面应用中的前沿发展。
当前挑战
GUI-Libra致力于解决GUI智能体在长时程导航任务中的核心挑战,其首要难点在于如何有效协调高层推理与底层动作执行之间的冲突。具体而言,在监督微调阶段,引入过长的思维链推理往往会导致视觉定位精度显著下降,形成推理与定位之间的性能权衡困境。其次,在强化学习训练中,GUI交互环境存在部分可验证性难题:同一状态下可能存在多个可正确推进任务的有效动作,但离线监督仅能验证单个演示动作,从而引发奖励模糊性,使得离线步进指标难以可靠预测在线任务成功率。此外,数据构建过程中需克服开源轨迹数据噪声大、标注质量参差不齐的困难,并通过自动化过滤与对齐机制确保推理轨迹与可执行动作间的一致性。
常用场景
经典使用场景
在图形用户界面(GUI)智能体研究领域,GUI-Libra数据集被广泛用于训练端到端的原生GUI智能体,以提升其在长视野导航任务中的推理与执行能力。该数据集通过精心构建的81K条高质量推理轨迹,为模型提供了动作对齐的思维链监督,使得智能体能够在复杂多步交互中同时进行高层级规划与精准的视觉定位。经典使用场景包括在AndroidWorld、WebArena-Lite-v2等在线基准测试中,评估智能体完成跨屏幕、多步骤的实际任务(如移动应用操作、网页信息检索)的端到端成功率。
解决学术问题
GUI-Libra数据集主要解决了开源GUI智能体生态中高质量推理数据稀缺与训练流程通用化带来的两大核心学术问题。其一,针对现有轨迹数据中思维链简短、噪声较多的问题,该数据集通过自动化增强与过滤流程,提供了动作与推理高度对齐的监督信号,缓解了长思维链导致的视觉定位性能下降。其二,针对部分可验证奖励下的强化学习不稳定性,数据集支撑了保守优化策略的设计,通过KL正则化与成功自适应梯度缩放,改善了离线指标与在线任务成功率之间的预测一致性,为多步GUI决策中的奖励模糊性与分布偏移提供了理论分析与实证解决方案。
衍生相关工作
基于GUI-Libra数据集与训练框架,衍生出了一系列聚焦于GUI智能体高效后训练的经典研究工作。例如,后续研究借鉴其动作感知监督微调思路,探索了混合推理与直接动作数据在多种视觉语言模型上的泛化效果;其保守强化学习设计启发了对部分可验证奖励下策略漂移控制的深入分析,促进了KL正则化在GUI决策中的理论建模。同时,该数据集开源促进了跨平台轨迹数据的质量过滤标准统一,为ScaleCUA、OpenCUA等大规模GUI智能体训练提供了数据构建范本,推动了开源生态在长视野任务性能上向闭源系统看齐。
以上内容由遇见数据集搜集并总结生成



