UI-Genie-RM-517k, UI-Genie-Agent-16k

Name: UI-Genie-RM-517k, UI-Genie-Agent-16k
Creator: 香港中文大学多媒体实验室 & vivo人工智能实验室
Published: 2025-05-28 01:58:06
License: 暂无描述

arXiv2025-05-28 更新2025-05-29 收录

下载链接：

https://github.com/Euphoria16/UI-Genie

下载链接

链接失效反馈

官方服务：

资源简介：

UI-Genie是一个自我改进框架，旨在解决GUI代理中的两个关键挑战：轨迹结果的验证具有挑战性，高质量的训练数据不可扩展。该框架通过奖励模型和自我改进流程分别解决这两个挑战。奖励模型UI-Genie-RM具有图像-文本交错架构，可以有效地处理历史上下文并统一动作级别和任务级别的奖励。为了支持UI-Genie-RM的训练，我们开发了精心设计的生成数据策略，包括基于规则的验证、受控轨迹破坏和硬负挖掘。为了解决第二个挑战，自我改进流程通过在动态环境中通过奖励引导的探索和结果验证来增强代理和奖励模型，逐步扩展可解决的复杂GUI任务。为了训练模型，我们生成了UI-Genie-RM-517k和UI-Genie-Agent-16k，建立了第一个专为GUI代理设计的奖励特定数据集，同时展示了无需手动注释即可生成高质量合成轨迹的能力。实验结果表明，UI-Genie在多个GUI代理基准测试中实现了最先进的性能，具有三代数据-模型自我改进。我们开源了我们的完整框架实现和生成的数据集，以促进GUI代理的进一步研究。

UI-Genie is a self-improving framework designed to address two critical challenges in GUI agents: the difficulty of trajectory result validation and the poor scalability of high-quality training data. The framework addresses these two challenges respectively: one via the reward model and the other via the self-improving pipeline. The reward model, UI-Genie-RM, features an image-text interleaved architecture that can effectively process historical context and unify action-level and task-level reward signals. To support the training of UI-Genie-RM, we developed carefully curated data generation strategies, including rule-based validation, controlled trajectory corruption, and hard negative mining. To resolve the second challenge, the self-improving pipeline enhances both the agent and the reward model through reward-guided exploration and result validation in dynamic environments, gradually expanding the spectrum of solvable complex GUI tasks. For model training, we generated two datasets, UI-Genie-RM-517k and UI-Genie-Agent-16k, establishing the first reward-specific dataset purpose-built for GUI agents, while showcasing the capability to generate high-quality synthetic trajectories without manual annotation. Experimental results demonstrate that UI-Genie achieves state-of-the-art performance across multiple GUI agent benchmarks, with three generations of data-model self-improvement cycles. We have open-sourced our complete framework implementation and the generated datasets to facilitate further research on GUI agents.

提供机构：

香港中文大学多媒体实验室 & vivo人工智能实验室

创建时间：

2025-05-28

原始信息汇总

UI-Genie数据集概述

数据集基本信息

名称: UI-Genie
类型: 移动GUI代理训练数据集
开发框架: 自改进框架(MLLM-based)
核心创新: 通过迭代代理-奖励模型协同进化消除人工标注需求

关键特性

无人工标注的合成轨迹生成
代理与奖励模型协同进化
自动化高质量数据集生成
跨多个基准测试达到SOTA性能

数据集组成

数据集名称	规模	描述	状态
UI-Genie-RM-517k	517K	首个GUI代理奖励数据集	即将发布
UI-Genie-Agent-16k	16K	高质量合成轨迹数据集	已发布(含5K样本)

模型性能

代理模型

模型	参数量	AndroidControl-Low(SR)	AndroidControl-High(SR)	AndroidLab(SR)	Android Arena(SR)
UI-Genie-Agent	3B	93.8	72.9	28.8	-
UI-Genie-Agent	7B	94.3	74.2	38.7	20.4
UI-Genie-Agent	72B	94.8	77.0	41.2	-

奖励模型

模型	参数量	Step-Level F1	Outcome-Level F1
UI-Genie-RM	7B	79.6	82.1

数据来源

AndroidControl训练集
AMEX训练集
AndroidLab训练集
UI-Genie-Agent-16k合成数据集

相关资源

论文: https://arxiv.org/abs/2505.21496
模型: https://huggingface.co/HanXiao1999/UI-Genie-Agent-7B
数据集: https://huggingface.co/datasets/HanXiao1999/UI-Genie-Agent-5k

搜集汇总

数据集介绍

构建方式

UI-Genie数据集的构建采用了创新的自增强框架，通过奖励模型（UI-Genie-RM）和自增强流程协同工作。具体而言，奖励模型采用图像-文本交错架构，有效处理历史上下文并统一动作级和任务级奖励。数据生成策略包括基于规则的验证、受控轨迹破坏和硬负样本挖掘，确保了数据的高质量和多样性。此外，通过奖励引导的探索和动态环境中的结果验证，逐步扩展可解决的复杂GUI任务，生成了UI-Genie-RM-517k和UI-Genie-Agent-16k两个数据集，无需人工标注。

特点

UI-Genie数据集具有以下显著特点：首先，它是首个专门为GUI代理设计的奖励数据集，包含517k个奖励数据样本，涵盖动作级和任务级奖励。其次，数据集通过合成轨迹生成策略确保了高质量的数据，避免了人工标注的繁琐和成本。此外，数据集具有高度的多样性和复杂性，覆盖了多种GUI任务和交互场景，适用于训练和评估多模态大语言模型（MLLM）在GUI代理任务中的表现。最后，数据集的构建过程具有可扩展性，能够通过自增强框架不断优化和扩展。

使用方法

UI-Genie数据集的使用方法主要包括以下几个方面：首先，奖励数据集（UI-Genie-RM-517k）可用于训练和评估GUI代理的奖励模型，通过动作级和任务级奖励的联合优化提升代理的交互能力。其次，代理数据集（UI-Genie-Agent-16k）可用于训练GUI代理模型，通过合成轨迹数据增强代理的泛化能力和任务完成率。此外，数据集还可用于评估GUI代理在静态和动态环境中的表现，支持多种评估指标（如成功率、动作类型准确率等）。最后，数据集的开源框架和实现细节为后续研究提供了便利，支持进一步的模型优化和应用扩展。

背景与挑战

背景概述

UI-Genie-RM-517k和UI-Genie-Agent-16k是由CUHK MMLab和vivo AI Lab于2025年联合推出的多模态大型语言模型（MLLM）数据集，旨在解决移动图形用户界面（GUI）智能体训练中的关键挑战。该数据集通过创新的自改进框架生成高质量合成轨迹，无需人工标注，显著提升了GUI智能体的轨迹验证和训练数据扩展能力。其核心研究问题聚焦于如何通过奖励模型和自改进流程，有效解决GUI智能体领域中的轨迹验证难题和高质量训练数据的可扩展性问题。这一突破性工作为移动GUI智能体的发展提供了首个专用奖励数据集，并在多个基准测试中达到了最先进的性能水平。

当前挑战

UI-Genie数据集面临的主要挑战体现在两个维度：领域问题挑战方面，GUI智能体的轨迹验证具有独特复杂性，其完成状态高度依赖历史上下文，现有评估框架难以提供准确的中间动作验证；构建过程挑战方面，缺乏可靠的验证方法导致当前训练仍依赖人工标注的操作轨迹，这些数据存在耗时、昂贵且难以扩展的固有缺陷。具体而言，构建过程中需克服三大技术难题：基于规则的验证需要精确匹配动作类型、坐标精度和语义一致性；受控轨迹破坏需通过早期截断、跨任务替换和冗余延续等机制生成负样本；硬负样本挖掘则需识别初始奖励模型误分类的样本以增强模型鲁棒性。

常用场景

经典使用场景

UI-Genie-RM-517k和UI-Genie-Agent-16k数据集在移动GUI代理领域具有广泛的应用场景。这些数据集主要用于训练和评估基于多模态大语言模型（MLLM）的GUI代理，特别是在移动设备上的自动化任务执行。经典使用场景包括移动应用的自动化测试、用户界面交互的模拟、以及复杂多步骤任务的自动化执行。通过提供高质量的合成轨迹数据和专门的奖励模型数据，这些数据集为研究者提供了强大的工具来开发和优化GUI代理。

实际应用

在实际应用中，UI-Genie-RM-517k和UI-Genie-Agent-16k数据集可以用于开发智能助手、自动化测试工具和辅助技术。例如，这些数据集可以用于训练代理来自动化常见的移动应用操作，如日历管理、电子邮件处理和社交媒体互动。此外，它们还可以用于开发辅助技术，帮助残障人士更轻松地使用移动设备。这些应用场景展示了数据集在现实世界中的广泛潜力和实用价值。

衍生相关工作

UI-Genie-RM-517k和UI-Genie-Agent-16k数据集衍生了一系列相关的研究工作。例如，基于这些数据集的研究可以探索如何进一步优化奖励模型的架构，以提高轨迹评估的准确性。此外，这些数据集还可以用于研究如何将自改进管道应用于其他领域的代理开发，如桌面应用或网页自动化。这些衍生工作不仅扩展了数据集的应用范围，还为GUI代理研究的未来发展提供了新的方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集