five

UI-NEXUS

收藏
arXiv2025-06-11 更新2025-06-12 收录
下载链接:
https://ui-nexus.github.io
下载链接
链接失效反馈
官方服务:
资源简介:
UI-NEXUS是一个全面评估移动代理在复合操作任务上性能的基准,旨在填补现有移动代理在处理复合任务时的泛化能力差距。该数据集由上海交通大学和Langboat Technology创建,包含100个交互式任务模板,平均最优步数为14.05,覆盖了三种类型的复合操作:简单连接、上下文转换和深入挖掘。数据集支持在20个完全可控的本地实用应用程序环境和30个在线中文和英文服务应用程序中进行交互式评估。UI-NEXUS旨在解决移动代理在执行复合任务时面临的挑战,例如任务执行不足、过度执行和注意力漂移等问题。

UI-NEXUS is a benchmark for comprehensively evaluating the performance of mobile agents on complex operational tasks, aiming to bridge the generalization gap of existing mobile agents when handling complex tasks. This dataset was created by Shanghai Jiao Tong University and Langboat Technology, and includes 100 interactive task templates with an average optimal step count of 14.05, covering three categories of complex operations: simple concatenation, context transformation, and in-depth exploration. It supports interactive evaluation across 20 fully controllable local practical application environments and 30 online service applications in both Chinese and English. UI-NEXUS is designed to address the challenges faced by mobile agents during complex task execution, such as insufficient task execution, over-execution, and attention drift.
提供机构:
上海交通大学
创建时间:
2025-06-11
原始信息汇总

Atomic-to-Compositional Generalization for Mobile Agents with A New Benchmark and Scheduling System

数据集概述

  • 数据集名称: UI-NEXUS
  • 开发团队: 上海交通大学 & Langboat Technology
  • 主要作者: Yuan Guo, Tingjia Miao, Zheng Wu, Pengzhou Cheng, Ming Zhou, Zhuosheng Zhang
  • 联系邮箱: yuanguo2004@gmail.com, zhangzs@sjtu.edu.cn

数据集特点

  • 目标: 评估移动代理在组合任务上的泛化能力
  • 任务分类:
    • Simple Concatenation
    • Context Transition
    • Deep Dive
  • 应用覆盖:
    • 20个完全可控的本地实用应用程序环境
    • 30个在线中英文服务应用程序
  • 任务模板: 100个交互式任务模板
  • 平均最优步骤数: 14.05

主要挑战

  • 现有移动代理在组合任务上表现不佳
  • 代表性失败模式:
    • 执行不足 (under-execution)
    • 过度执行 (over-execution)
    • 注意力漂移 (attention drift)

解决方案

  • Agent-NEXUS: 轻量级高效调度系统
    • 动态分解长视野任务为自包含原子子任务
    • 任务成功率提升: 24% 至 40%

演示示例

  1. 任务指令1: 在美团和饿了么上搜索星巴克美式咖啡,然后在价格最低的平台上下单,并停留在订单确认页面
  2. 任务指令2: 在Markor中打开三个列表文件,计算所有列表中每个唯一物品的总数量,创建按总数量排序的新笔记

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
UI-NEXUS数据集的构建基于模块化基础设施和精心策划的任务集。基础设施包括设备管理、代理配置和轨迹评估三个核心组件,支持高效的设备控制和统一的执行接口。任务收集涵盖了50个广泛使用的移动应用,包括本地实用程序和在线服务,涉及五种常见使用场景。通过采用三种子任务依赖结构,构建了20个种子任务,并利用GPT-4o和GPT-o1扩展任务集,随后进行人工细化以确保任务质量和类型平衡。
特点
UI-NEXUS数据集的特点在于其全面性和多样性。它系统地评估了三种子任务依赖结构(简单连接、上下文转换和深度探索),并覆盖了20个本地实用应用和30个中英文在线服务应用。数据集包含100个交互式任务模板,平均最优步骤数为14.05。此外,UI-NEXUS支持在20个完全可控的本地实用应用环境和30个在线服务应用中进行交互式评估,为移动代理的开发和评估提供了标准化平台。
使用方法
UI-NEXUS数据集的使用方法包括性能相关和效率相关的评估指标。性能相关指标包括任务成功率和终止原因,效率相关指标包括推理成本和推理延迟。在离线评估中,通过自动奖励信号实现任务成功率的自动验证;在线评估中,则采用MLLM-as-a-Judge和人工验证以确保准确性。数据集支持多种移动代理的评估,包括基于代理工作流和代理即模型的实现,为研究者提供了一个全面且可扩展的评估框架。
背景与挑战
背景概述
UI-NEXUS是由上海交通大学和Langboat Technology的研究团队于2025年提出的移动智能体基准测试数据集,旨在解决多模态大语言模型(MLLM)驱动的自主移动智能体在组合任务上的泛化能力问题。该数据集由20个本地工具应用和30个中英文在线服务应用构成,包含100个交互式任务模板,平均最优步骤数为14.05。UI-NEXUS首次系统性地定义了简单串联、上下文转换和深度探索三类组合操作,填补了现有研究在真实场景组合任务评估上的空白,为移动智能体的长程认知能力发展提供了标准化测试平台。
当前挑战
UI-NEXUS针对移动智能体面临的两大核心挑战:在领域问题层面,现有智能体存在原子任务到组合任务的显著泛化鸿沟,表现为执行不足、过度执行和注意力漂移等典型失败模式;在构建过程中,需解决多应用状态控制、双语指令对齐以及组合任务依赖关系建模等难题。实验表明,即使采用AGENT-NEXUS调度系统,主流智能体在组合任务上的成功率仍不足50%,尤其在需要跨应用上下文传递的深度探索任务中表现欠佳。
常用场景
经典使用场景
UI-NEXUS数据集在移动智能体研究领域被广泛用于评估和提升智能体在复杂组合任务中的表现。其典型使用场景包括测试智能体在简单串联、上下文转换和深度探索等组合操作中的执行能力。通过模拟真实移动应用环境,该数据集为研究者提供了一个可控且可扩展的实验平台,用于验证智能体在长时程任务管理和跨应用操作中的性能。
实际应用
在实际应用层面,UI-NEXUS数据集为开发更智能的移动助手系统奠定了基础。基于该数据集的研究成果可应用于自动化客服、无障碍辅助工具和跨应用工作流管理等场景。例如,在医疗健康领域,智能体可帮助老年用户完成复杂的预约挂号、用药提醒等组合操作;在金融领域,则可实现跨银行应用的账单汇总和支付自动化。
衍生相关工作
UI-NEXUS数据集催生了一系列相关研究工作,包括Mobile-Agent-E的层次化多智能体框架、OS-Atlas的视觉基础动作模型等。这些工作通过借鉴数据集的组合任务设计理念,进一步推动了移动智能体在长时程推理、跨应用导航等方面的技术进步。数据集提出的评估指标也被广泛应用于后续的智能体性能评测中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作