MVISU-Bench

Name: MVISU-Bench
Creator: 华南理工大学
Published: 2025-08-15 00:36:45
License: 暂无描述

arXiv2025-08-15 更新2025-08-14 收录

下载链接：

https://MVISU-Bench.github.io/

下载链接

链接失效反馈

官方服务：

资源简介：

MVISU-Bench是一个面向真实世界任务的双语基准数据集，包含了跨越137个移动应用程序的404个任务，涵盖了多应用、模糊、交互式、单应用和不道德指令五个类别。数据集的构建基于用户问卷调查，并通过专家设计的提示和LLM生成指令，经过多轮过滤和人工验证，确保了数据集的多样性和可靠性。MVISU-Bench旨在评估和提升视觉语言模型（VLM）在移动智能体领域的性能，并解决现有数据集在真实世界场景中应用的局限性。

MVISU-Bench is a bilingual benchmark dataset designed for real-world tasks. It contains 404 tasks spanning 137 mobile applications, covering five categories: multi-application, ambiguous, interactive, single-application, and unethical instruction. The dataset is constructed based on user questionnaires, expert-designed prompts and LLM-generated instructions, and undergoes multi-round filtering and manual validation to guarantee its diversity and reliability. MVISU-Bench aims to evaluate and improve the performance of Visual Language Models (VLMs) in the domain of mobile AI Agents, and address the limitations of existing datasets when applied in real-world scenarios.

提供机构：

华南理工大学

创建时间：

2025-08-13

原始信息汇总

MVISU-Bench 数据集概述

数据集简介

名称: MVISU-Bench
类型: 双语基准测试数据集（英语和中文）
规模: 404个任务，覆盖137个移动应用程序
开发背景: 基于大量用户问卷调查，针对移动智能体在现实世界任务中的表现评估

核心任务类型

Multi-App (MA): 多应用协同任务
Vague (VA): 模糊指令任务
Interactive (IN): 交互式任务
Single-App (SA): 单应用任务
Unethical (UN): 非伦理指令任务

关键技术贡献

Aider模块: 动态提示增强器
- 提升成功率: 整体19.55% (相比SOTA)
- 专项提升:
  - 非伦理指令53.52%
  - 交互式指令29.41%

评估指标

主要指标:
- 成功率(SR)
- API调用次数(AC)
- 持续时间(DT)
- 成本(Cost)
- 步骤数(Steps)
- 输入令牌数(IT)
- 操作时间(OT)

排行榜表现

排名	框架/模型	英语指令(ALL)	中文指令(ALL)
1	Human Expert Benchmark	97.98	98.06
2	Claude-3-5-sonnet Mobile-Agent-V2	55.05	35.92
3	Gemini-2.0-pro Mobile-Agent-E	45.96	44.66

数据集构建流程

问卷调查
指令生成
多轮筛选
人工验证

比较优势

源自真实用户问卷
更贴近用户对移动智能体的实际期望
覆盖更全面的任务类型

搜集汇总

数据集介绍

构建方式

MVISU-Bench数据集的构建采用了严谨的三阶段流程：首先基于用户问卷调研结果，通过GPT-4o生成涵盖多应用、模糊、交互、单应用及非伦理五大任务类型的初始指令；其次采用四重过滤规则（可执行性、去重、逻辑验证、风险控制）进行多轮自动化清洗；最后通过专家团队人工验证，确保指令真实性、类别平衡性和应用多样性。该流程最终精选出404个双语任务样本，覆盖137个主流移动应用。

特点

作为首个专注于真实场景移动代理任务的基准测试，MVISU-Bench具有三大核心特征：其任务设计源自3000份用户问卷，精准反映跨应用协作（25%）、模糊意图理解（20%）等现实需求；采用中英双语平行架构，51%中文与49%英文指令平衡分布；特别包含17%的非伦理指令评估模块，填补了现有研究在安全防护机制上的空白。数据集严格遵循应用领域多样性原则，生活服务（41.18%）与通用工具（27.94%）类应用占比突出。

使用方法

该数据集支持三种典型评估模式：单框架多模型对比测试可选用Mobile-Agent等主流代理框架；跨语言能力验证需分别执行中英文指令集；专项评估建议聚焦交互指令（零成功率）与非伦理指令（改进空间53.52%）等薄弱环节。配套开源的Aider模块可动态集成至评估流程，通过意图澄清、风险缓解等四重干预机制提升代理性能。评估指标需综合成功率（SR）、API调用次数（AC）及执行耗时（DT）等多维度数据。

背景与挑战

背景概述

MVISU-Bench是由华南理工大学的研究团队于2025年提出的一个针对移动智能体在真实世界任务中表现评估的双语基准测试数据集。该数据集围绕用户问卷调研中识别出的五大任务类型（多应用协作、模糊指令、交互式指令、单应用操作和伦理风险指令）构建，涵盖137个移动应用的404项任务。作为首个系统评估移动智能体在跨应用协作、意图模糊理解和伦理风险防范等复杂场景能力的基准，MVISU-Bench通过严谨的三阶段数据构建流程（指令生成-多轮过滤-人工验证），填补了现有评测体系与真实用户需求之间的鸿沟。其创新性地提出的动态提示优化模块Aider，在伦理指令和交互指令场景中分别实现了53.52%和29.41%的性能提升，为移动智能体的安全部署和交互设计提供了重要技术参考。

当前挑战

该数据集主要面临三方面挑战：在领域问题层面，现有移动智能体对模糊指令的意图理解准确率不足20%，跨应用任务执行成功率低于30%，且普遍缺乏对伦理指令的风险拦截机制；在数据构建层面，需平衡指令真实性（避免模拟应用操作）与伦理安全性（过滤有害内容）的矛盾，其中仅4.2%的初始生成指令通过最终验证；在评估维度层面，需设计多模态指标（如界面 grounding 准确率、跨应用状态跟踪能力）来全面衡量智能体在真实移动环境中的综合表现，这对评测框架的复杂事件建模能力提出了更高要求。

常用场景

经典使用场景

MVISU-Bench作为首个专注于移动智能体在真实多任务场景下的双语基准测试工具，其核心应用场景在于系统性评估基于视觉语言模型（VLM）的移动代理在跨应用协作、模糊指令解析、人机交互、单应用操作及伦理风险识别五大任务维度上的综合表现。通过模拟用户问卷调研中占比25%的跨应用场景（如‘在YouTube查找菜谱并分享至微信’）和17%的交互场景（如‘使用账户密码登录Uber’），该数据集为研究者提供了覆盖137个主流应用的404项结构化任务，有效填补了现有评测体系与真实用户需求间的鸿沟。

衍生相关工作

该数据集催生了三大方向经典研究：1）Mobile-Agent-V2框架通过引入MVISU-Bench的跨应用任务数据，将多步骤规划准确率提升至55.36%；2）基于其伦理指令集训练的Aider模块成为首个移动端风险拦截开源方案，被CoCoAgent等7个多模态系统采用；3）数据集构建方法论启发了后续AndroidLab等基准的层次化评估体系设计，其‘问卷-生成-验证’的三阶段数据 pipeline 已成为移动AI领域的标准实践。

数据集最近研究