Tequila510/Mobile-RobustBench

Name: Tequila510/Mobile-RobustBench
Creator: Tequila510
Published: 2026-05-01 09:54:31
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/Tequila510/Mobile-RobustBench

下载链接

链接失效反馈

官方服务：

资源简介：

Mobile-RobustBench是一个用于系统评估移动GUI代理在真实世界视觉扰动下鲁棒性的基准数据集。该数据集包含9个应用程序、143个任务和712个跟踪记录，平均每个跟踪记录有5.48个步骤。数据集结构包括数据文件夹（包含应用程序的截图、UI层次结构和标注文件）、评估文件夹（包含计算指标的脚本）等。数据格式详细描述了每个应用程序的JSON文件结构，包括任务描述、干净跟踪记录和扰动跟踪记录。此外，还详细列出了10种扰动类型及其影响。

Mobile-RobustBench is a benchmark for systematically evaluating the robustness of mobile GUI agents under real-world visual perturbations. The dataset includes 9 apps, 143 tasks, and 712 traces, with an average of 5.48 steps per trace. The dataset structure consists of a data folder (containing app screenshots, UI hierarchies, and annotation files), an evaluation folder (containing scripts for calculating metrics), etc. The data format details the JSON file structure for each app, including task descriptions, clean traces, and perturbed traces. Additionally, it lists 10 types of perturbations and their impacts.

提供机构：

Tequila510

搜集汇总

数据集介绍

构建方式

Mobile-RobustBench是一个专为评估移动端GUI智能体在视觉扰动下鲁棒性而构建的大规模基准数据集。其构建过程涵盖9款主流应用，包含143项具体任务，并基于每项任务采集了完整的操作轨迹，共计712条轨迹，平均每条轨迹包含5.48个步骤。在数据组织上，每款应用下独立存储了对应的截图、UI层级结构XML文件以及标注JSON文件，其中JSON文件详细记录了每个任务的清洁轨迹与扰动轨迹，扰动轨迹覆盖了10种精心设计的视觉扰动类型，如元素缺失、布局偏移、全屏遮罩等。这一构建方式确保了数据集在多样性、真实性与扰动可控性之间的平衡。

使用方法

Mobile-RobustBench的使用方法直观高效，研究者可通过加载各应用目录下的checkpoint_<app_name>.json文件获取完整的任务信息和轨迹数据。以官方提供的Python示例为参考，用户可遍历每个任务的清洁轨迹与不同扰动类型的轨迹，读取对应的截图和XML文件，结合动作与包围盒标注进行GUI智能体的输入与预测结果对比。数据集还附带了评测指标实现脚本evaluation/metrics.py，支持标准化评估流程，便于研究者直接在此基准上验证和比较不同智能体模型在视觉扰动下的表现表现。

背景与挑战

背景概述

在移动图形用户界面（GUI）智能体领域，现有基准测试大多评估理想条件下的任务完成能力，忽视了真实使用场景中难以避免的视觉扰动。Mobile-RobustBench是由研究团队于近期推出的专门基准，旨在系统评估移动GUI智能体在各类视觉扰动下的鲁棒性。该基准涵盖了9款主流应用、143个任务及712条操作轨迹，并精心设计了10种扰动类型，涉及元素级、布局级和屏幕级三个层面，全面模拟了加载延迟、广告遮挡、动态布局变化等现实挑战。其发布为衡量和提升智能体在复杂视觉环境中的可靠性提供了标准化评估框架，对推动移动自动化测试和人机交互领域的发展具有重要意义。

当前挑战

该数据集聚焦的核心挑战在于，移动GUI智能体在实际部署中需应对多样的视觉扰动，例如元素缺失、位移、外观变化或全屏覆盖等，这些扰动直接导致感知偏差和定位失败，极大影响任务执行的准确性与稳定性。在构建过程中，研究者面临多重难点：如何系统化地定义和分类具备真实性的扰动类型，如何高效采集和标注9个应用在10种扰动下的712条高质量轨迹（平均每步5.48个动作），以及如何保持不同应用间任务复杂度和评估标准的一致性。这些挑战使得Mobile-RobustBench成为检验智能体鲁棒性的重要试金石。

常用场景

经典使用场景

在移动图形用户界面（GUI）智能体的研究领域中，Mobile-RobustBench数据集被广泛用于评估视觉扰动下智能体的鲁棒性表现。该数据集涵盖了九款热门移动应用中的143项具体任务，并精心设计了包括元素缺失、布局偏移、全屏覆盖和主题变化在内的十种扰动类型，为研究者提供了一个系统化的评测平台。借助该数据集，研究者可以量化不同智能体在真实移动环境中的视觉感知与交互稳定性，从而推动更可靠的移动端自动化代理技术的演进。

解决学术问题

Mobile-RobustBench的推出有效解决了移动GUI智能体在鲁棒性评估方面缺乏标准化基准的学术困境。长期以来，学术界面临的一个核心难题是：视觉扰动（如广告弹窗、动态加载延迟、暗黑模式切换）如何影响智能体的任务完成能力。该数据集通过精细标注的扰动轨迹和统一评价指标，使得研究者能够系统性地探究感知阶段（如元素遮挡）与接地阶段（如布局变动）对智能体决策链的干扰机制，为构建更坚韧的人机交互算法提供了坚实的数据支撑和可重复的对比基础。

实际应用

在实际应用层面，Mobile-RobustBench所模拟的视觉扰动场景精准映射了移动端用户在日常生活中频繁遭遇的界面异常，例如应用内广告覆盖核心按钮、异步加载导致元素短暂缺失、或是夜间模式切换引发的颜色混淆。借助该数据集的测试框架，移动端自动化测试工具能够在部署前针对这些常见扰动进行压力测试，确保智能购物助手、语音导航代理等产品在真实混杂环境中的用户体验保持一致性和流畅性。此外，该数据集还能辅助开发用于视觉障碍人士的无障碍交互系统，提升辅助技术在动态界面下的响应准确率。

数据集最近研究