GUI-Libra-81K
收藏GUI-Libra 数据集概述
数据集基本信息
- 数据集名称:GUI-Libra-81K
- 数据集简介:一个包含 81K 步骤的推理数据集,用于训练原生 GUI 智能体。该数据集经过动作重预测过滤和边界框坐标验证处理。
- 数据集地址:https://huggingface.co/GUI-Libra
- 关联项目:GUI-Libra 后训练框架
核心内容与特点
- 目的:将开源视觉语言模型转变为强大的原生 GUI 智能体,使其能够通过单次前向传播完成查看屏幕截图、逐步推理并输出可执行动作。
- 关键组件:
- GUI-Libra-81K:提供带注释的推理数据。
- 动作感知监督微调:混合推理数据和直接动作数据,通过重新加权令牌,使模型在学习“为何点击”的同时不忘记“点击何处”。
- 保守强化学习:采用 KL 正则化的 GRPO 方法,在模糊奖励下保持稳定,并通过成功自适应缩放来抑制噪声负梯度。
数据集关联的训练与评估
- 训练流程:
- 动作感知监督微调:基于基础视觉语言模型进行。
- 保守强化学习:使用部分可验证奖励进行强化学习。
- 评估基准:
- AndroidWorld
- WebArena-Lite-v2
- Online-Mind2Web
- 离线评估:MM-Mind2Web, AndroidControl
数据格式
每个训练样本遵循统一的结构化格式:
-
输入:系统提示 + 用户指令 + 交互历史 + 屏幕截图
-
输出:
<think> 推理内容... </think> <answer> { "action_description": "动作描述", "action_type": "动作类型", "value": "值", "point_2d": [x, y] } </answer>
-
支持的动作类型:
Click,Write,Terminate,Swipe,Scroll,NavigateHome,Answer,Wait,OpenAPP,NavigateBack,KeyboardPress,LongPress,Select。
可用资源
- 训练代码:支持 SFT 和 RL 训练,兼容 Qwen2.5-VL 和 Qwen3-VL 模型。
- 评估代码:涵盖 WebArena-Lite-v2、Online-Mind2Web、AndroidWorld 及离线评估。
- 模型检查点:GUI-Libra-3B/4B/7B/8B。
- 数据集:GUI-Libra-81K。
性能声明
GUI-Libra-4B/8B 模型在 AndroidWorld、WebArena-Lite-v2 和 Online-Mind2Web 基准测试中,匹配或超越了 GPT-4o/GPT-4.1/GPT-5-mini 以及 72/32B 原生模型,且无需任何在线数据收集。
引用
bibtex @misc{yang2026guilibratrainingnativegui, title={GUI-Libra: Training Native GUI Agents to Reason and Act with Action-aware Supervision and Partially Verifiable RL}, author={Rui Yang and Qianhui Wu and Zhaoyang Wang and Hanyang Chen and Ke Yang and Hao Cheng and Huaxiu Yao and Baoling Peng and Huan Zhang and Jianfeng Gao and Tong Zhang}, year={2026}, eprint={2602.22190}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2602.22190}, }
许可证
本项目依据 MIT 许可证发布。



