AndroidControl-Curated
收藏github2025-10-22 更新2025-10-23 收录
下载链接:
https://github.com/batechworks/AndroidControl_Curated
下载链接
链接失效反馈官方服务:
资源简介:
AndroidControl-Curated是一个经过严格净化流程改进的基准数据集,用于评估GUI代理的真实性能。该数据集解决了原始AndroidControl基准中的模糊性和事实错误问题,包含简单和困难两个版本的任务,能够更准确地反映GUI代理的实际能力。在增强后的基准上,最先进的模型在复杂任务上的成功率接近80%,表明设备上的GUI代理比之前认为的更接近实际部署。
AndroidControl-Curated is a rigorously refined benchmark dataset developed through strict purification workflows, designed to evaluate the real-world performance of GUI agents. This dataset addresses the ambiguities and factual errors present in the original AndroidControl benchmark, and includes two task variants: simple and hard, which enable more accurate reflection of the actual capabilities of GUI agents. On this enhanced benchmark, state-of-the-art models achieve a success rate of nearly 80% on complex tasks, demonstrating that on-device GUI agents are far closer to practical deployment than previously assumed.
创建时间:
2025-10-21
原始信息汇总
AndroidControl-Curated 数据集概述
数据集基本信息
- 数据集名称: AndroidControl-Curated
- 官方论文: AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification
- Hugging Face数据集地址: https://huggingface.co/datasets/batwBMW/AndroidControl_Curated
- Hugging Face模型地址: https://huggingface.co/batwBMW/Magma-R1
数据集背景与目的
AndroidControl-Curated是一个经过优化的GUI代理基准测试数据集,旨在解决原始AndroidControl基准测试中存在的模糊性和事实错误问题。该数据集通过严格的净化流程改进,更准确地评估GUI代理的真实能力。
数据集特点
- 改进重点: 解决基准测试中的系统性问题,包括模糊性和事实错误
- 评估方法: 使用边界框意图对齐替代严格的点匹配评估
- 数据规模: 仅使用2,400个精选样本训练即可达到与31,000个原始样本相当的性能
性能表现
在AndroidControl-Curated基准测试上,最先进的模型在复杂任务上的成功率接近80%,显著高于原始基准测试约60%的表现。
数据集文件结构
数据集包含以下测试集文件:
- android_control_high_bbox.json
- android_control_high_point.json
- android_control_low_bbox.json
- android_control_low_point.json
- android_control_high_task-improved.json
评估指标
- 类型准确率 (Type %): 动作类型预测准确率
- 定位准确率 (Grounding %): 使用E_bbox评估的定位准确率
- 成功率 (SR %): 任务执行成功率
相关模型
- Magma-R1: 在该数据集上训练的新SOTA模型
- 支持模型: 包括OS-Atlas-4B、UI-R1、GUI-R1系列、Qwen3-VL系列等
引用信息
bibtex @article{leung2025androidcontrolcurated, title={AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification}, author={LEUNG Ho Fai (Kevin) and XI XiaoYan (Sibyl) and ZUO Fei (Eric)}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025}, institution={BMW ArcherMind Information Technology Co. Ltd. (BA TechWorks)} }
搜集汇总
数据集介绍

构建方式
在图形用户界面智能体评估领域,AndroidControl-Curated通过系统化基准净化流程重构了原始数据集。该流程首先将坐标匹配机制升级为边界框意图对齐评估,通过检测预测坐标是否落入目标UI元素边界框来更准确地反映用户意图。随后采用大语言模型与人类专家协同的修正机制,基于执行共识失败识别高风险样本,并经过严格的人工验证确保任务描述的准确性与逻辑一致性。
特点
作为精炼化的GUI智能体基准测试集,AndroidControl-Curated展现出显著的特征优势。数据集采用双层难度结构设计,包含简易与困难两个子集以全面评估模型能力。其核心创新在于引入边界框意图对齐的评估标准,有效解决了原始基准中存在的模糊性和事实错误问题。实验数据表明,该数据集能更真实地反映智能体性能,使先进模型的成功率提升至接近80%,揭示了GUI智能体实际部署的潜在可能性。
使用方法
研究人员可通过标准化流程使用该数据集进行模型评估。首先从Hugging Face平台获取经过处理的测试集文件,包括不同精度级别的边界框与坐标数据。配置评估环境后,通过专用脚本加载模型权重与基准图像目录,系统将自动执行任务类型准确率、定位精度和成功率等多维度指标计算。该评估框架支持生成详细的结果报告,为GUI智能体的性能优化提供可靠依据。
背景与挑战
背景概述
随着移动设备虚拟助手技术的快速发展,传统基于固定API的交互方式已难以满足复杂场景需求。2025年,由BMW ArcherMind信息技术研究院主导构建的AndroidControl-Curated数据集应运而生,旨在通过基准净化方法重新评估图形界面智能体的真实潜力。该数据集源自对原始AndroidControl基准的系统性优化,聚焦于解决移动端人机交互中意图理解与动作执行的精准映射问题,其创新性评估框架为轻量化模型在端侧部署提供了重要理论依据,显著推动了具身智能在移动计算领域的发展进程。
当前挑战
在图形界面智能体评估领域,传统基准存在标注模糊与事实错误等系统性问题,导致模型性能被严重低估。AndroidControl-Curated构建过程中面临双重挑战:其一是领域问题的本质复杂性,需在动态交互环境中实现视觉元素定位与操作意图的精确对齐;其二是数据净化工程的技术难点,涉及从坐标匹配到边界框评估的范式转换,以及通过大语言模型与专家协同的纠错机制,确保评估标准既保持严谨性又具备实际可操作性。
常用场景
经典使用场景
在移动智能体研究领域,AndroidControl-Curated作为基准测试集被广泛应用于评估图形用户界面代理的交互能力。该数据集通过精心设计的任务流程,模拟真实Android环境中的复杂操作场景,如应用导航、信息检索和系统设置调整等。研究人员利用其标准化评估框架,能够系统性地测试代理在类型识别、目标定位和任务完成等方面的综合表现,为模型性能比较提供了可靠依据。
实际应用
在现实应用层面,该数据集支撑的GUI代理技术已逐步融入智能设备生态系统。基于其训练优化的代理模型能够替代传统API依赖型助手,实现更灵活的跨应用操作。这种技术可广泛应用于智能家居控制、无障碍辅助服务以及企业自动化流程等场景,显著提升了移动设备的自主交互能力,为下一代智能终端的普及奠定了技术基础。
衍生相关工作
该数据集的发布催生了多项创新性研究,其中最具代表性的是Magma-R1模型的开发。该模型通过GRPO训练范式在少量精选样本上实现了与大规模训练相当的性能。同时,基于边界框的意图对齐评估方法已成为GUI代理研究的新标准,启发了后续工作如OS-Atlas-4B等在模型架构和训练策略上的改进,推动了整个领域的评估范式变革。
以上内容由遇见数据集搜集并总结生成



