GUI-Libra-81K

github2026-02-26 更新2026-02-27 收录

下载链接：

https://github.com/GUI-Libra/GUI-Libra

下载链接

链接失效反馈

官方服务：

资源简介：

81K步的推理数据集，包含动作重新预测过滤和边界框坐标验证。

An 81K-step reasoning dataset incorporating action reprediction filtering and bounding box coordinate verification.

创建时间：

2026-02-13

原始信息汇总

GUI-Libra 数据集概述

数据集基本信息

数据集名称：GUI-Libra-81K
数据集简介：一个包含 81K 步骤的推理数据集，用于训练原生 GUI 智能体。该数据集经过动作重预测过滤和边界框坐标验证处理。
数据集地址：https://huggingface.co/GUI-Libra
关联项目：GUI-Libra 后训练框架

核心内容与特点

目的：将开源视觉语言模型转变为强大的原生 GUI 智能体，使其能够通过单次前向传播完成查看屏幕截图、逐步推理并输出可执行动作。
关键组件：
- GUI-Libra-81K：提供带注释的推理数据。
- 动作感知监督微调：混合推理数据和直接动作数据，通过重新加权令牌，使模型在学习“为何点击”的同时不忘记“点击何处”。
- 保守强化学习：采用 KL 正则化的 GRPO 方法，在模糊奖励下保持稳定，并通过成功自适应缩放来抑制噪声负梯度。

数据集关联的训练与评估

训练流程：
1. 动作感知监督微调：基于基础视觉语言模型进行。
2. 保守强化学习：使用部分可验证奖励进行强化学习。
评估基准：
- AndroidWorld
- WebArena-Lite-v2
- Online-Mind2Web
- 离线评估：MM-Mind2Web, AndroidControl

数据格式

每个训练样本遵循统一的结构化格式：

输入：系统提示 + 用户指令 + 交互历史 + 屏幕截图
输出：

<think> 推理内容... </think> <answer> { "action_description": "动作描述", "action_type": "动作类型", "value": "值", "point_2d": [x, y] } </answer>
支持的动作类型：Click, Write, Terminate, Swipe, Scroll, NavigateHome, Answer, Wait, OpenAPP, NavigateBack, KeyboardPress, LongPress, Select。

可用资源

训练代码：支持 SFT 和 RL 训练，兼容 Qwen2.5-VL 和 Qwen3-VL 模型。
评估代码：涵盖 WebArena-Lite-v2、Online-Mind2Web、AndroidWorld 及离线评估。
模型检查点：GUI-Libra-3B/4B/7B/8B。
数据集：GUI-Libra-81K。

性能声明

GUI-Libra-4B/8B 模型在 AndroidWorld、WebArena-Lite-v2 和 Online-Mind2Web 基准测试中，匹配或超越了 GPT-4o/GPT-4.1/GPT-5-mini 以及 72/32B 原生模型，且无需任何在线数据收集。

引用

bibtex @misc{yang2026guilibratrainingnativegui, title={GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL}, author={Rui Yang and Qianhui Wu and Zhaoyang Wang and Hanyang Chen and Ke Yang and Hao Cheng and Huaxiu Yao and Baoling Peng and Huan Zhang and Jianfeng Gao and Tong Zhang}, year={2026}, eprint={2602.22190}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.22190}, }

许可证

本项目依据 MIT 许可证发布。

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体研究领域，数据质量直接影响模型的推理与执行能力。GUI-Libra-81K数据集的构建采用了严谨的多阶段处理流程，首先从原始交互轨迹中提取包含屏幕截图、用户指令及操作历史的样本。随后通过动作重预测过滤机制，对模型生成的动作进行二次验证，确保其与真实交互意图的一致性。同时，引入边界框坐标验证步骤，对点击、滑动等空间操作进行几何对齐校验，有效提升了动作标注的精确度。这一构建方法融合了自动化验证与人工校验思想，为后续监督微调与强化学习提供了高质量、高可靠性的多模态训练数据。

使用方法

该数据集主要用于训练具备端到端推理与执行能力的原生GUI智能体。研究人员可将其应用于两阶段训练流程：首先进行动作感知的监督微调，利用数据集中丰富的推理-动作对，使视觉语言模型学会根据界面状态规划并输出具体操作；随后可结合保守强化学习算法，在部分可验证的奖励信号下进一步优化策略稳定性。数据集支持在WebArena-Lite-v2、Online-Mind2Web及AndroidWorld等多个主流GUI评估基准上进行模型训练与验证。使用前需按照项目结构配置数据路径，并参照提供的训练脚本整合至SFT或RL训练管道中。

背景与挑战

背景概述

在人工智能与计算机视觉交叉领域，图形用户界面（GUI）智能体研究致力于开发能够理解屏幕图像并执行交互操作的自主系统。GUI-Libra-81K数据集由UIUC、微软及UNC-Chapel Hill等机构的研究团队于2026年提出，旨在通过后训练框架将开源视觉语言模型转化为高效的原生GUI智能体。该数据集聚焦于解决智能体在单次前向传播中完成截图感知、逐步推理与可执行动作输出的核心问题，其构建融合了动作重预测过滤与边界框坐标验证技术，显著提升了模型在AndroidWorld、WebArena-Lite-v2等基准测试中的性能，推动了具身智能与自动化界面交互领域的发展。

当前挑战

GUI-Libra-81K数据集所应对的领域挑战在于GUI智能体任务中推理与动作执行的精准对齐。传统方法中，简单引入思维链会损害模型的接地准确性，而标准强化学习在部分可验证的GUI奖励信号下难以保持离线至在线性能的稳定迁移。构建过程中的挑战则体现为数据质量的控制，需通过动作重预测过滤机制剔除噪声样本，并借助边界框坐标验证确保空间定位的可靠性，同时设计动作感知的监督微调策略以平衡模型对‘点击位置’与‘点击原因’的学习权重，避免遗忘关键操作知识。

常用场景

经典使用场景

在图形用户界面智能体研究领域，GUI-Libra-81K数据集主要被用于训练能够理解屏幕截图、进行逐步推理并输出可执行动作的端到端模型。该数据集通过精心设计的动作感知监督与部分可验证强化学习框架，为模型提供了从视觉感知到动作执行的完整学习范例。研究者通常利用其包含的81,000步推理数据，对开源视觉语言模型进行后训练，使其在Android、Web等跨平台环境中展现出卓越的交互能力。

解决学术问题

该数据集有效解决了图形用户界面智能体研究中长期存在的两大核心难题：推理过程与动作执行的脱节问题，以及部分可验证奖励下的强化学习稳定性问题。通过引入动作重预测过滤与边界框坐标验证机制，显著提升了模型的 grounding 准确性；其设计的保守强化学习策略，成功克服了传统方法在模糊奖励信号下性能不稳定的局限，为构建可靠、高效的自动化界面交互系统奠定了坚实的理论基础。

实际应用

在实际应用层面，基于GUI-Libra-81K训练出的智能体已成功部署于多种现实场景。例如，在自动化软件测试中，模型能够自主完成应用功能遍历与异常检测；在无障碍辅助技术领域，可为视障用户提供精准的界面导航与操作支持；在业务流程自动化方面，能够替代人工执行重复性的网页表单填写、数据查询等任务，显著提升工作效率并降低人力成本。

数据集最近研究