RealMobile

Hugging Face2026-06-30 更新2026-07-01 收录

下载链接：

https://huggingface.co/datasets/SeerRay-Lab/RealMobile

下载链接

链接失效反馈

官方服务：

资源简介：

RealMobile 是一个基于真实设备的移动图形用户界面（GUI）智能体评估基准数据集，源自《Xiaomi-GUI-0 技术报告》。与基于模拟器、模拟应用或静态截图的基准不同，该数据集构建于真实的用户流量之上，专为可复现的评估而手工打造，并完全在物理设备上针对实时的商业应用程序执行。其设计旨在真实反映现实世界条件下的执行稳定性，包括真实的账户状态、支付认证、权限对话框、验证码、动态页面加载等模拟器基准无法复现的异常状态，从而弥合高基准分数与实际可用性之间的差距。数据集包含在物理 Android 设备（手机/平板）上针对实时商业应用收集的完整“观察-决策-执行”轨迹。每个轨迹包含步骤级的设备截图、UI 层次结构（XML）、OCR 识别结果以及人工标注的动作描述与推理过程。数据以目录结构组织，主要包含多个批次，总数据量规模在1万到10万之间。核心标注文件为 task.json，其中包含轨迹元数据和步骤级记录列表。辅助文件包括步骤级的截图、UI层次文件、OCR结果文件和OCR增强的UI表示文件。该基准覆盖了14个广泛使用的应用程序，涉及多个领域。基准包含100个任务，划分为四个能力维度：基础操作、安全与反思、记忆与知识以及复杂推理与规划，其中57%的任务是跨应用的。评估采用细粒度评分协议。该数据集适用于评估端到端移动GUI智能体性能、训练或微调GUI智能体以及研究处理真实世界异常状态的能力。数据集在 CC BY-NC 4.0 许可证下发布，供非商业研究使用。

RealMobile is a real-device-based mobile graphical user interface (GUI) agent evaluation benchmark dataset, originating from the Xiaomi-GUI-0 Technical Report. Unlike benchmarks based on simulators, simulated applications, or static screenshots, this dataset is built on real user traffic, manually crafted for reproducible evaluation, and executed entirely on physical devices targeting live commercial applications. It is designed to authentically reflect execution stability under real-world conditions, including real account states, payment authentication, permission dialogs, CAPTCHAs, dynamic page loads, and other abnormal states that simulator benchmarks cannot replicate, thereby bridging the gap between high benchmark scores and practical usability. The dataset contains complete observation-decision-execution trajectories collected on physical Android devices (phones/tablets) for live commercial applications. Each trajectory includes step-level device screenshots, UI hierarchy (XML), OCR recognition results, and manually annotated action descriptions and reasoning processes. The data is organized in a directory structure, primarily including multiple batches, with a total data volume ranging from 10,000 to 100,000. The core annotation file is task.json, which contains trajectory metadata (e.g., instructions, device information, application package names) and a list of step-level records. Each step record includes actions, thoughts, screenshot and XML filenames, target bounding boxes, timestamps, and various annotation and quality control flags. Auxiliary files include step-level screenshots (.png/.jpg), UI hierarchy files (.xml), OCR result files (.json), and OCR-enhanced UI representation files (_ocr.xml). The benchmark covers 14 widely used applications across domains such as video streaming, social media, instant messaging, e-commerce, navigation, travel booking, music streaming, news aggregation, and digital reading. It comprises 100 tasks, divided into four capability dimensions: basic operations (e.g., clicking, scrolling, inputting), safety & reflection (respecting user-defined boundaries and identifying infeasible goals), memory & knowledge (retaining factual/subjective information across steps and applying world knowledge), and complex reasoning & planning (long-horizon planning, multi-source aggregation, and adaptive decision-making), with 57% of the tasks being cross-application. Evaluation employs a fine-grained scoring protocol, manually decomposing each tasks execution into a series of verifiable sub-goals (typically 3-6 per task), calculating a continuous score in the range [0, 1] based on the proportion of completed sub-goals, and includes a veto mechanism (where certain irrecoverable errors result in a score of 0). The dataset is suitable for: 1) evaluating end-to-end mobile GUI agents performance in real-device task completion, anomaly recognition, and cross-application robustness; 2) training or fine-tuning GUI agents (e.g., via supervised fine-tuning, step-level reinforcement learning) using real-device trajectories, grounding supervision, and step-level reasoning; 3) researching the ability to handle abnormal states (e.g., login flows, CAPTCHAs, permission prompts, payment authentication) under real-world distribution. The dataset is released under the CC BY-NC 4.0 license for non-commercial research use.

创建时间：

2026-06-29

原始信息汇总

RealMobile 数据集概述

基本信息

发布机构: SeerRay 团队（小米）
许可证: CC BY-NC 4.0（非商业研究用途）
任务类型: 图像-文本到文本（image-text-to-text）
语言: 中文
数据规模: 10K < n < 100K
主页: https://seerray-lab.github.io/Xiaomi-GUI-0/

核心定位

RealMobile 是一个基于真实物理设备的移动 GUI Agent 基准测试数据集，源于《Xiaomi-GUI-0 技术报告》。它完全使用真实用户流量构建、支持可复现评估，并在真实物理设备上针对真实商业应用执行。

与现有基准测试的区别

真实设备与真实应用：在实体 Android 手机/平板上运行真实商业应用，而非模拟器或仿真环境。
细粒度评分：通过人工分解的可验证子目标进行评分，输出 [0,1] 连续分数，支持部分进度判断。
跨应用覆盖：57% 的任务涉及多个应用，要求 Agent 在应用边界间维持状态。

基准设计

应用与能力域

覆盖 14 个广泛使用的应用，包括抖音、小红书、微博、高德地图、盒马、得物、Bilibili、携程、Soda Music、腾讯视频、QQ 音乐、QQ、今日头条、番茄小说。

100 个任务分布在四个能力域

能力域	子维度	任务数	平均应用数	多应用比例
基础操作	基本操作	10	1.30	10%
安全与反思	安全约束 / 反思	7 / 9	1.31	31%
记忆与知识	客观记忆 / 主观记忆 / 世界知识	16 / 7 / 10	1.73	58%
复杂推理与规划	数学与逻辑 / 多源比较 / 复杂客观 / 复杂主观规划	10 / 12 / 13 / 6	2.49	78%
总体	—	100	1.93	57%

评估协议

子目标分解：每个任务分解为 3-6 个可验证的子目标。
评分公式：得分 = 完成子目标数 / 总子目标数，输出 [0,1] 连续值。
否决机制：某些不可恢复错误（如发错联系人、删除用户数据、未授权金融交易）直接判为 0 分。
条件分支：允许多条有效执行路径，任意有效路径均可获得满分。
验证框架：结合 XML 结构匹配（XPath 查询 UI 层级）和逻辑语义规则（顺序与一致性约束），通过自动评估管线处理轨迹数据（截图、XML、动作）生成分数。

数据集内容

该仓库托管采用 RealMobile 格式的已标注真实设备轨迹数据。每个 episode 包含完整的观察-决策-行动轨迹，附带每步截图、UI 层级（XML）、OCR 结果和人工标注的动作/推理。

目录结构

2026-04-29/（33 个 episode）：按应用/跨应用场景组织（文件夹名如 小红书_高德地图）
third/（108 个 episode）：按 episode ID 组织（8 字符十六进制目录名）
其他批次（first/、second/、fourth/）采用相同格式

目录布局示例

2026-04-29 格式：

2026-04-29/ └── <应用名称>/ # 如 b站、抖音_微博 └── BMK评测/ └── <episode-uuid>/ ├── task.json ├── 0.png 0.xml ├── 0_ocr.xml ├── 0.json └── ...

third 格式：

third/ └── <episode-id>/ # 如 076ba41c ├── task.json ├── 1.png 1.jpg 1.xml ├── 1_ocr.xml ├── 1.json └── ...

文件格式说明

task.json — Episode 主清单和标注文件，核心字段包括：

episode_id：Episode 标识符
query：自然语言用户指令
phone、os、os_version：设备信息
screen_resolution：屏幕分辨率 [宽, 高]
app_package：前台应用包名
data：每步记录列表（包含 step、action、thought、screenshot、xml、bbox、timestamp 等）

<step>.json — 每步 OCR 输出，包含识别文本框（text、confidence、4 点多边形 box）

<step>.png / <step>.jpg — 设备截图

<step>.xml — Android UI 层级视图树

<step>_ocr.xml — OCR 增强的 UI 表示

预期用途

在真实设备上评估端到端移动 GUI Agent 的任务完成度、异常识别和跨应用鲁棒性
使用真实设备轨迹进行 GUI Agent 训练/微调（SFT、步骤级 RL）
研究真实分布下的异常状态处理（登录流程、验证码、权限弹窗、支付认证）

引用

bibtex @techreport{seerray2026xiaomigui0, title = {Xiaomi-GUI-0 Technical Report}, author = {SeerRay Team}, year = {2026}, institution = {Xiaomi}, url = {https://seerray-lab.github.io/Xiaomi-GUI-0/} }

搜集汇总

数据集介绍

构建方式

RealMobile数据集源自真实用户流量，在物理Android设备上针对14款主流商业应用（如抖音、小红书、高德地图等）采集完整的观察-决策-执行轨迹。每一条轨迹均以人工标注的方式逐帧记录，包含屏幕截图、UI层次结构（XML）、OCR识别结果及步骤级的人类标注动作与推理过程。数据集按照应用场景与跨应用组合进行组织，轨迹文件夹内以弹匣式结构存储，提供task.json清单文件及逐步骤的多模态数据（图像、XML、OCR输出与边界框），为GUI智能体的精细化评估与训练构建了高保真的实验基础。

使用方法

本数据集主要服务于移动端GUI智能体的全链路研究。在评估方面，研究者可将任务指令与多模态轨迹输入至待测模型，利用内置的双重验证框架（基于XPath查询的XML结构匹配与OCR补充验证，配合逻辑语义规则）自动计算细粒度评分。在训练方面，数据集提供了丰富的步骤级监督信号，支持监督微调（SFT）与基于步骤级奖励的强化学习，用于提升模型在真实账户状态、验证码识别、权限处理等复杂场景下的鲁棒性与异常处理能力。数据使用需遵循CC BY-NC 4.0非商业研究许可协议。

背景与挑战

背景概述

移动图形用户界面（GUI）智能体旨在通过感知屏幕截图和层级结构，自主完成用户在真实设备上的操作任务，其研究进展深受评测基准的驱动。然而，现有基准多依赖模拟器、模拟应用或静态截图，难以复现真实环境中账户状态、动态加载、权限弹窗等复杂情景，导致高基准分数与低实际可用性之间的显著差距。为弥合这一鸿沟，Xiaomi旗下SeerRay团队于2026年发布了RealMobile数据集，该基准构建于真实物理设备上，基于实际用户流量设计了100项跨14款主流应用的任务，覆盖基础操作、安全反思、记忆知识与复杂推理四大能力域。其精细化的子目标评分机制和跨应用覆盖特性，为移动GUI智能体的鲁棒性与泛化能力评估提供了前所未有的真实性与诊断精度，在学术界与工业界引发了广泛关注。

当前挑战

RealMobile所面临的挑战首先体现在领域问题的复杂性上：移动GUI智能体需在动态变化的真实界面中精准执行操作，应对登录验证、验证码、支付认证、应用间跳转等异常状态，这与模拟环境中的确定性操作截然不同，对智能体的环境适应能力提出了严苛要求。在数据集构建过程中，挑战同样显著：团队需在真实物理设备上协同管理多项商业应用的实时状态，确保任务的可复现性与公平性，同时手动分解100项任务为数百个可验证的子目标，并设计XML结构匹配、OCR与逻辑规则相结合的自动评判框架。此外，跨应用任务占比高达78%，要求智能体在应用边界间维持状态记忆，数据采集与标注的标准化流程亦需兼顾隐私合规与版权限制，这些都构成了数据集构建中的关键难题。

常用场景

经典使用场景

RealMobile数据集专为评估和训练真实设备上的移动端GUI智能体而构建。与依赖模拟器或静态截图的传统基准不同，RealMobile在物理安卓设备上运行，实时操作真实商业应用，覆盖抖音、小红书、高德地图等14款主流App。其经典使用场景包括：跨应用任务执行（如从视频平台复制链接后跳转至社交App分享）、安全与反射能力测试（如识别并拒绝执行不可逆操作或违反用户隐私边界的指令）、以及复杂推理与规划评估（如多源信息比较、长期依赖的决策链路）。通过对每一步操作进行细粒度子目标分解与打分，RealMobile能够精准诊断智能体在真实动态环境下的鲁棒性。

解决学术问题

RealMobile直面移动GUI智能体领域一个长期存在的核心矛盾——模拟环境下高分表现与现实部署时可用性之间的巨大鸿沟。传统基准因忽略真实账户状态、验证码弹框、支付认证、动态页面加载等异常场景，导致学术评估结果严重失真。该数据集通过引入真实用户流量与环境，系统性解决了以下学术问题：跨应用状态维护能力量化、异常状态处理（包括登录流、权限提示等）的可靠性评测、以及智能体在非理想条件下的自纠正与安全边界感知能力分析。其细粒度打分机制更首次提供了超越二值通过率的连续性能信号，使研究社区能够精确定位模型短板。

实际应用

在产业界，RealMobile为移动端自动化智能体的落地提供了关键验证工具。具体实践场景包括：手机厂商（如小米）的GUI助手在出厂前的稳定性压力测试，智能体框架开发者（如Meta、Google）对Agent系统在支付、消息发送等高敏感场景下的安全合规性审计，以及第三方服务商（如外卖、电商平台）对跨App操作流程（如从导航App跳转至即时通讯App分享位置）的端到端自动化验收。此外，该数据集还可用于训练企业级客服机器人的GUI操作能力，帮助其在真实用户流量中学习识别验证码、处理权限对话框等高频异常。

数据集最近研究