five

Magic-RICH

收藏
Hugging Face2025-08-27 更新2025-08-28 收录
下载链接:
https://huggingface.co/datasets/GUIAgent/Magic-RICH
下载链接
链接失效反馈
官方服务:
资源简介:
Magic-RICH是一个用于评估真实智能手机环境中移动GUI智能体的中文基准数据集,包含4000个步骤级别的样本,分布在四个子集中,涵盖17个类别和超过150个流行应用程序。数据集包括特殊动作,如截图和长截图,用于评估智能体的性能。
创建时间:
2025-08-19
原始信息汇总

Magic-RICH 数据集概述

数据集简介

Magic-RICH 是一个用于评估移动 GUI 智能体在真实智能手机环境中表现的中文基准数据集。该数据集包含 4,000 个步骤级样本,涵盖 17 个类别和超过 150 个流行应用程序。与许多先前的 GUI 数据集不同,Magic-RICH 还包含特殊操作(如截图和长截图),以更好地反映真实世界的交互。该数据集仅用于评估(无训练/开发分割),并在开源 GUI 智能体 MagicGUI 的开发中使用。

数据集组成

Magic-RICH 由四个平衡的子集组成(每个子集 1,000 个样本):

  • Routine:高频、单步操作(如点击、滚动、文本输入)
  • Instruction:直接用户命令(如"打开..."、"检查会员资格"),测试指令到操作的映射
  • Complex:需要推理的更难任务(逻辑条件、视觉分析、多步导航)
  • Handling Exception:特殊情况包括
    • 非交互式(页面无法操作)
    • 已完成(任务已完成)
    • 加载中(页面仍在过渡中)

评估指标

推荐使用三个指标进行评估:

  • Type – 操作类型准确率(如点击与滚动的区分)
  • Grd – 定位准确率(点击/滚动位置是否落在真实标注元素框内)
  • SR – 步骤级别的完全正确率(所有参数都正确)

技术信息

  • 语言:中文
  • 许可证:Apache-2.0
  • 规模:1K<n<10K
  • 任务类别:其他

相关资源

  • 主页:https://github.com/OpenBMB/AgentCPM-GUI
  • 论文:https://arxiv.org/abs/2508.03700
  • 仓库:https://huggingface.co/datasets/GUIAgent/Magic-RICH

引用信息

如果使用 Magic-RICH,请引用相关论文。

搜集汇总
数据集介绍
main_image_url
构建方式
在移动GUI智能体评估领域,Magic-RICH数据集通过精心设计的构建流程展现了其科学性与系统性。该数据集从超过150款热门安卓应用中采集了4,000个步骤级样本,涵盖17个应用类别,并特别纳入了截图与长截图等真实交互动作。构建过程中采用四类平衡子集设计,包括常规操作、指令执行、复杂任务和异常处理场景,每个子集包含1,000个样本,确保了评估场景的全面覆盖与代表性。
特点
Magic-RICH的突出特点在于其高度仿真的移动交互环境与多维评估体系。数据集不仅包含基础的单步操作如点击、滚动和文本输入,更创新性地引入了页面不可操作、任务已完成和页面加载中等特殊异常状态。其评估指标设计独具匠心,通过动作类型准确率、视觉定位准确率和步骤级完整正确率三重维度,全面衡量智能体的综合性能,为移动GUI智能体研究提供了精细化的评估基准。
使用方法
该数据集专为评估目的设计,不包含训练集与验证集划分,研究者可直接将其作为测试基准使用。评估时需按照预设的三项核心指标执行:动作类型准确率(Type)检验基础操作分类能力,视觉定位准确率(Grd)评估界面元素定位精度,步骤级完整正确率(SR)则综合考核所有参数的准确性。通过这套标准化评估流程,能够客观量化GUI智能体在真实移动环境中的实际表现。
背景与挑战
背景概述
移动图形用户界面智能体研究领域近年来备受关注,Magic-RICH数据集由荣耀技术团队于2025年创建,旨在构建针对中文移动环境的GUI智能体评估基准。该数据集聚焦于智能手机交互场景中的视觉 grounding 与指令执行问题,涵盖17个应用类别和150余款流行应用,通过4000个步骤级样本系统评估智能体在真实移动环境中的交互能力。其创新性在于纳入了截图、长截图等特殊操作类型,显著提升了移动GUI智能体评估的生态效度,为移动交互智能研究提供了重要基础设施。
当前挑战
移动GUI智能体面临的核心挑战在于准确解析视觉界面元素与自然语言指令的对应关系,特别是在动态加载界面和多模态交互场景中的实时响应能力。数据集构建过程中需克服移动应用界面多样性和交互逻辑复杂性带来的标注困难,包括对非交互状态、加载中状态等特殊情形的精确标注。此外,中文移动环境的地域特性与交互习惯差异也增加了数据采集与标注的一致性维护难度,要求标注体系既能覆盖常规操作又能准确捕捉异常处理场景。
常用场景
经典使用场景
在移动图形用户界面智能体研究领域,Magic-RICH数据集作为评估基准,专门用于测试智能体在真实智能手机环境中的交互能力。其经典使用场景涵盖对17个应用类别、超过150款流行应用的4000个步骤级样本进行系统性评估,尤其注重特殊操作如截屏和长截屏的模拟,以全面检验智能体在复杂移动环境中的执行精度与适应性。
实际应用
Magic-RICH的实际应用场景主要集中于智能手机自动化任务执行,例如智能助手操作、无障碍辅助交互、以及应用测试自动化。其覆盖的高频操作、复杂指令和异常处理样本,能够直接支撑智能体在真实移动设备中完成用户命令、导航多级界面、并应对加载中或已完成等动态状态,提升人机交互的自然性与效率。
衍生相关工作
该数据集衍生了多项经典研究工作,其中最具代表性的是开源GUI智能体MagicGUI的开发,其通过强化学习微调策略在Magic-RICH上实现了显著性能提升。此外,它也为基于视觉-语言模型的移动智能体训练提供了标准评估框架,激发了后续在跨应用任务泛化、多模态动作预测等方向的创新探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作