UI-R1
收藏arXiv2025-03-27 更新2025-04-01 收录
下载链接:
http://arxiv.org/abs/2503.21620v1
下载链接
链接失效反馈官方服务:
资源简介:
UI-R1数据集是由维沃AI实验室和CUHK的MMLab共同构建的一个小而高质量的数据集,包含136个具有挑战性的任务,涵盖移动设备上的五种常见操作类型。该数据集通过三阶段的数据筛选过程,确保了样本的质量、难度和多样性。数据集的构建目的是为了增强多模态大型语言模型在图形用户界面(GUI)操作预测任务上的推理能力,通过基于规则的强化学习进行训练。
The UI-R1 dataset is a small yet high-quality collection co-developed by Vivo AI Lab and MMLab at the Chinese University of Hong Kong (CUHK). It contains 136 challenging tasks covering five common operation types on mobile devices. A three-stage data filtering pipeline is adopted to ensure the quality, difficulty and diversity of its samples. The dataset is developed to enhance the reasoning capabilities of multimodal large language models (LLMs) on graphical user interface (GUI) operation prediction tasks, and is utilized for training via rule-based reinforcement learning.
提供机构:
维沃AI实验室
创建时间:
2025-03-27
搜集汇总
数据集介绍

构建方式
UI-R1数据集的构建采用了基于规则强化学习(RL)的范式,专注于提升多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。数据集的构建过程包括三个阶段的数据筛选:质量、难度和多样性。首先,从ScreenSpot和ANDROIDCONTROL等开源数据集中筛选出高质量的任务样本,确保任务与元素的标注对齐。其次,通过模型性能评估识别出难以预测的样本,保留这些“困难”样本以提升模型的泛化能力。最后,确保样本在动作类型和元素类型上的多样性,最终形成一个包含136个高质量移动设备任务的精简数据集。
特点
UI-R1数据集的特点在于其高度的数据效率和任务多样性。尽管数据集规模较小,仅包含136个训练样本,但其通过精心筛选的样本覆盖了五种常见的移动设备动作类型(如点击、滚动、返回等),并确保了任务难度和元素类型的多样性。此外,数据集设计了一个统一的基于规则的动作奖励函数,包括动作类型奖励、坐标准确奖励和格式奖励,有效引导模型在推理过程中兼顾准确性和可解释性。这种设计使得模型在有限数据下仍能显著提升在领域内(ID)和领域外(OOD)任务中的表现。
使用方法
UI-R1数据集的使用方法主要围绕基于规则的强化学习框架展开。首先,模型接收GUI截图和用户文本指令作为输入,生成包含推理过程和最终动作预测的多条响应。随后,通过设计的奖励函数评估每条响应的质量,奖励函数涵盖动作类型匹配、坐标准确性以及输出格式的规范性。模型采用Group Relative Policy Optimization(GRPO)算法进行优化,通过比较响应组的相对优势更新策略。这种方法的优势在于无需大规模标注数据,仅需少量高质量样本即可实现模型性能的显著提升,适用于资源受限的环境。
背景与挑战
背景概述
UI-R1数据集由vivo AI Lab与MMLab @ CUHK的研究团队于2025年提出,旨在探索基于规则的强化学习(RL)如何增强多模态大语言模型(MLLMs)在图形用户界面(GUI)动作预测任务中的推理能力。该数据集包含136个高质量移动设备任务样本,涵盖点击、滑动、返回等五种常见动作类型,其创新性体现在通过策略优化算法(如GRPO)和统一规则奖励机制,显著提升了模型在领域内(ID)和跨领域(OOD)任务中的表现。该研究为GUI智能体的高效训练提供了新范式,推动了人机交互领域的发展。
当前挑战
UI-R1面临的挑战主要包括两方面:其一,在领域问题上,GUI动作预测需解决多模态融合(视觉截图与指令文本的关联)、动作类型与坐标的精准匹配(如点击位置的像素级定位)以及跨平台泛化(移动端到桌面端)等核心难题;其二,在构建过程中,需克服小样本数据下的模型优化瓶颈,通过三阶段筛选(质量、难度、多样性)确保数据有效性,同时设计兼顾动作类型奖励、坐标精度奖励和格式奖励的复合评估机制,以平衡模型推理与执行精度。
常用场景
经典使用场景
UI-R1数据集在图形用户界面(GUI)动作预测任务中展现了其经典应用场景。通过结合强化学习(RL)与规则驱动的奖励机制,该数据集特别适用于训练多模态大语言模型(MLLMs),使其能够准确预测用户在移动设备上的交互行为,如点击、滑动、返回等操作。这种场景不仅要求模型理解视觉信息,还需将其转化为具体的动作指令,从而在资源受限的环境中实现高效的人机交互。
实际应用
在实际应用中,UI-R1数据集可赋能智能助手、自动化测试工具等场景。例如,在移动应用测试中,模型能够根据屏幕截图自动生成交互指令,替代人工操作;在无障碍辅助技术中,帮助视障用户通过语音指令精准触发界面动作。其轻量化特性(如3B模型规模)尤其适合部署在终端设备,实现低延迟的实时交互。
衍生相关工作
UI-R1的强化学习框架衍生了一系列经典工作,如DeepSeek-R1在数学推理任务中的规则奖励设计,以及VLM-R1对视觉 grounding任务的扩展。在GUI领域,其奖励机制启发了后续研究如UGround-V1对元素定位的优化,而数据选择方法被Muennighoff等学者推广至其他小样本学习场景。这些工作共同推动了规则驱动RL在跨模态任务中的普适性应用。
以上内容由遇见数据集搜集并总结生成



