AndroidControl-Curated

github2025-10-22 更新2025-10-23 收录

下载链接：

https://github.com/batechworks/AndroidControl_Curated

下载链接

链接失效反馈

官方服务：

资源简介：

AndroidControl-Curated是一个经过严格净化流程改进的基准数据集，用于评估GUI代理的真实性能。该数据集解决了原始AndroidControl基准中的模糊性和事实错误问题，包含简单和困难两个版本的任务，能够更准确地反映GUI代理的实际能力。在增强后的基准上，最先进的模型在复杂任务上的成功率接近80%，表明设备上的GUI代理比之前认为的更接近实际部署。

AndroidControl-Curated is a rigorously refined benchmark dataset developed through strict purification workflows, designed to evaluate the real-world performance of GUI agents. This dataset addresses the ambiguities and factual errors present in the original AndroidControl benchmark, and includes two task variants: simple and hard, which enable more accurate reflection of the actual capabilities of GUI agents. On this enhanced benchmark, state-of-the-art models achieve a success rate of nearly 80% on complex tasks, demonstrating that on-device GUI agents are far closer to practical deployment than previously assumed.

创建时间：

2025-10-21

原始信息汇总

AndroidControl-Curated 数据集概述

数据集基本信息

数据集名称: AndroidControl-Curated
官方论文: AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification
Hugging Face数据集地址: https://huggingface.co/datasets/batwBMW/AndroidControl_Curated
Hugging Face模型地址: https://huggingface.co/batwBMW/Magma-R1

数据集背景与目的

AndroidControl-Curated是一个经过优化的GUI代理基准测试数据集，旨在解决原始AndroidControl基准测试中存在的模糊性和事实错误问题。该数据集通过严格的净化流程改进，更准确地评估GUI代理的真实能力。

数据集特点

改进重点: 解决基准测试中的系统性问题，包括模糊性和事实错误
评估方法: 使用边界框意图对齐替代严格的点匹配评估
数据规模: 仅使用2,400个精选样本训练即可达到与31,000个原始样本相当的性能

性能表现

在AndroidControl-Curated基准测试上，最先进的模型在复杂任务上的成功率接近80%，显著高于原始基准测试约60%的表现。

数据集文件结构

数据集包含以下测试集文件：

android_control_high_bbox.json
android_control_high_point.json
android_control_low_bbox.json
android_control_low_point.json
android_control_high_task-improved.json

评估指标

类型准确率 (Type %): 动作类型预测准确率
定位准确率 (Grounding %): 使用E_bbox评估的定位准确率
成功率 (SR %): 任务执行成功率

引用信息

bibtex @article{leung2025androidcontrolcurated, title={AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification}, author={LEUNG Ho Fai (Kevin) and XI XiaoYan (Sibyl) and ZUO Fei (Eric)}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025}, institution={BMW ArcherMind Information Technology Co. Ltd. (BA TechWorks)} }

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体评估领域，AndroidControl-Curated通过系统化基准净化流程重构了原始数据集。该流程首先将坐标匹配机制升级为边界框意图对齐评估，通过检测预测坐标是否落入目标UI元素边界框来更准确地反映用户意图。随后采用大语言模型与人类专家协同的修正机制，基于执行共识失败识别高风险样本，并经过严格的人工验证确保任务描述的准确性与逻辑一致性。

特点

作为精炼化的GUI智能体基准测试集，AndroidControl-Curated展现出显著的特征优势。数据集采用双层难度结构设计，包含简易与困难两个子集以全面评估模型能力。其核心创新在于引入边界框意图对齐的评估标准，有效解决了原始基准中存在的模糊性和事实错误问题。实验数据表明，该数据集能更真实地反映智能体性能，使先进模型的成功率提升至接近80%，揭示了GUI智能体实际部署的潜在可能性。

使用方法

研究人员可通过标准化流程使用该数据集进行模型评估。首先从Hugging Face平台获取经过处理的测试集文件，包括不同精度级别的边界框与坐标数据。配置评估环境后，通过专用脚本加载模型权重与基准图像目录，系统将自动执行任务类型准确率、定位精度和成功率等多维度指标计算。该评估框架支持生成详细的结果报告，为GUI智能体的性能优化提供可靠依据。

背景与挑战

背景概述

随着移动设备虚拟助手技术的快速发展，传统基于固定API的交互方式已难以满足复杂场景需求。2025年，由BMW ArcherMind信息技术研究院主导构建的AndroidControl-Curated数据集应运而生，旨在通过基准净化方法重新评估图形界面智能体的真实潜力。该数据集源自对原始AndroidControl基准的系统性优化，聚焦于解决移动端人机交互中意图理解与动作执行的精准映射问题，其创新性评估框架为轻量化模型在端侧部署提供了重要理论依据，显著推动了具身智能在移动计算领域的发展进程。

当前挑战

在图形界面智能体评估领域，传统基准存在标注模糊与事实错误等系统性问题，导致模型性能被严重低估。AndroidControl-Curated构建过程中面临双重挑战：其一是领域问题的本质复杂性，需在动态交互环境中实现视觉元素定位与操作意图的精确对齐；其二是数据净化工程的技术难点，涉及从坐标匹配到边界框评估的范式转换，以及通过大语言模型与专家协同的纠错机制，确保评估标准既保持严谨性又具备实际可操作性。

常用场景

经典使用场景

在移动智能体研究领域，AndroidControl-Curated作为基准测试集被广泛应用于评估图形用户界面代理的交互能力。该数据集通过精心设计的任务流程，模拟真实Android环境中的复杂操作场景，如应用导航、信息检索和系统设置调整等。研究人员利用其标准化评估框架，能够系统性地测试代理在类型识别、目标定位和任务完成等方面的综合表现，为模型性能比较提供了可靠依据。

实际应用

在现实应用层面，该数据集支撑的GUI代理技术已逐步融入智能设备生态系统。基于其训练优化的代理模型能够替代传统API依赖型助手，实现更灵活的跨应用操作。这种技术可广泛应用于智能家居控制、无障碍辅助服务以及企业自动化流程等场景，显著提升了移动设备的自主交互能力，为下一代智能终端的普及奠定了技术基础。

衍生相关工作

该数据集的发布催生了多项创新性研究，其中最具代表性的是Magma-R1模型的开发。该模型通过GRPO训练范式在少量精选样本上实现了与大规模训练相当的性能。同时，基于边界框的意图对齐评估方法已成为GUI代理研究的新标准，启发了后续工作如OS-Atlas-4B等在模型架构和训练策略上的改进，推动了整个领域的评估范式变革。

以上内容由遇见数据集搜集并总结生成