RealMobile
收藏RealMobile 数据集概述
基本信息
- 发布机构: SeerRay 团队(小米)
- 许可证: CC BY-NC 4.0(非商业研究用途)
- 任务类型: 图像-文本到文本(image-text-to-text)
- 语言: 中文
- 数据规模: 10K < n < 100K
- 主页: https://seerray-lab.github.io/Xiaomi-GUI-0/
核心定位
RealMobile 是一个基于真实物理设备的移动 GUI Agent 基准测试数据集,源于《Xiaomi-GUI-0 技术报告》。它完全使用真实用户流量构建、支持可复现评估,并在真实物理设备上针对真实商业应用执行。
与现有基准测试的区别
- 真实设备与真实应用:在实体 Android 手机/平板上运行真实商业应用,而非模拟器或仿真环境。
- 细粒度评分:通过人工分解的可验证子目标进行评分,输出 [0,1] 连续分数,支持部分进度判断。
- 跨应用覆盖:57% 的任务涉及多个应用,要求 Agent 在应用边界间维持状态。
基准设计
应用与能力域
覆盖 14 个广泛使用的应用,包括抖音、小红书、微博、高德地图、盒马、得物、Bilibili、携程、Soda Music、腾讯视频、QQ 音乐、QQ、今日头条、番茄小说。
100 个任务分布在四个能力域
| 能力域 | 子维度 | 任务数 | 平均应用数 | 多应用比例 |
|---|---|---|---|---|
| 基础操作 | 基本操作 | 10 | 1.30 | 10% |
| 安全与反思 | 安全约束 / 反思 | 7 / 9 | 1.31 | 31% |
| 记忆与知识 | 客观记忆 / 主观记忆 / 世界知识 | 16 / 7 / 10 | 1.73 | 58% |
| 复杂推理与规划 | 数学与逻辑 / 多源比较 / 复杂客观 / 复杂主观规划 | 10 / 12 / 13 / 6 | 2.49 | 78% |
| 总体 | — | 100 | 1.93 | 57% |
评估协议
- 子目标分解:每个任务分解为 3-6 个可验证的子目标。
- 评分公式:
得分 = 完成子目标数 / 总子目标数,输出 [0,1] 连续值。 - 否决机制:某些不可恢复错误(如发错联系人、删除用户数据、未授权金融交易)直接判为 0 分。
- 条件分支:允许多条有效执行路径,任意有效路径均可获得满分。
- 验证框架:结合 XML 结构匹配(XPath 查询 UI 层级)和逻辑语义规则(顺序与一致性约束),通过自动评估管线处理轨迹数据(截图、XML、动作)生成分数。
数据集内容
该仓库托管采用 RealMobile 格式的已标注真实设备轨迹数据。每个 episode 包含完整的观察-决策-行动轨迹,附带每步截图、UI 层级(XML)、OCR 结果和人工标注的动作/推理。
目录结构
2026-04-29/(33 个 episode):按应用/跨应用场景组织(文件夹名如小红书_高德地图)third/(108 个 episode):按 episode ID 组织(8 字符十六进制目录名)- 其他批次(
first/、second/、fourth/)采用相同格式
目录布局示例
2026-04-29 格式:
2026-04-29/ └── <应用名称>/ # 如 b站、抖音_微博 └── BMK评测/ └── <episode-uuid>/ ├── task.json ├── 0.png 0.xml ├── 0_ocr.xml ├── 0.json └── ...
third 格式:
third/ └── <episode-id>/ # 如 076ba41c ├── task.json ├── 1.png 1.jpg 1.xml ├── 1_ocr.xml ├── 1.json └── ...
文件格式说明
task.json — Episode 主清单和标注文件,核心字段包括:
episode_id:Episode 标识符query:自然语言用户指令phone、os、os_version:设备信息screen_resolution:屏幕分辨率 [宽, 高]app_package:前台应用包名data:每步记录列表(包含 step、action、thought、screenshot、xml、bbox、timestamp 等)
<step>.json — 每步 OCR 输出,包含识别文本框(text、confidence、4 点多边形 box)
<step>.png / <step>.jpg — 设备截图
<step>.xml — Android UI 层级视图树
<step>_ocr.xml — OCR 增强的 UI 表示
预期用途
- 在真实设备上评估端到端移动 GUI Agent 的任务完成度、异常识别和跨应用鲁棒性
- 使用真实设备轨迹进行 GUI Agent 训练/微调(SFT、步骤级 RL)
- 研究真实分布下的异常状态处理(登录流程、验证码、权限弹窗、支付认证)
引用
bibtex @techreport{seerray2026xiaomigui0, title = {Xiaomi-GUI-0 Technical Report}, author = {SeerRay Team}, year = {2026}, institution = {Xiaomi}, url = {https://seerray-lab.github.io/Xiaomi-GUI-0/} }




