AndroidControl-Curated
收藏arXiv2025-10-21 更新2025-10-24 收录
下载链接:
https://github.com/batechworks/AndroidControl_Curated
下载链接
链接失效反馈官方服务:
资源简介:
AndroidControl-Curated 是一个经过精心优化的基准数据集,旨在更准确地评估图形用户界面 (GUI) 代理的能力。该数据集通过一个严格的净化流程改进,解决了原始 AndroidControl 基准数据集中存在的模糊性和事实错误,从而系统地低估了代理的能力。在改进后的基准数据集上,最先进的模型在复杂任务上的成功率接近 75%,显示出设备上的 GUI 代理实际上比以前认为的更接近实际部署。该数据集的创建旨在解决当前设备上虚拟助手功能受限的问题,推动下一代基于 GUI 代理的虚拟助手的发展。
提供机构:
宝马 ArcherMind 信息科技有限公司
创建时间:
2025-10-21
原始信息汇总
AndroidControl-Curated 数据集概述
数据集基本信息
- 数据集名称: AndroidControl-Curated
- 官方论文: AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification
- 数据集地址: https://huggingface.co/datasets/batwBMW/AndroidControl_Curated
- 模型地址: https://huggingface.co/batwBMW/Magma-R1
数据集背景与目的
AndroidControl-Curated 是一个经过严格净化的 GUI 智能体基准测试数据集,旨在解决原始 AndroidControl 基准测试中存在的模糊性和事实错误问题。该数据集通过系统化的净化流程,更准确地评估 GUI 智能体的真实能力。
数据集特点
- 净化流程: 采用两阶段系统化净化方法
- 评估改进: 从坐标匹配转向意图对齐的接地评估
- 任务修正: 通过 LLM-人类协作进行任务级修正
数据集组成
数据集包含以下测试集文件:
android_control_high_bbox.jsonandroid_control_high_point.jsonandroid_control_low_bbox.jsonandroid_control_low_point.jsonandroid_control_high_task-improved.json
性能表现
在 AndroidControl-Curated 基准测试上,最先进的模型在复杂任务上的成功率接近 80%,表明设备端 GUI 智能体比之前认为的更接近实际部署。
主要模型性能对比
在 AndroidControl-Curated-Easy 子集上:
- OS-Atlas-4B: 类型准确率 91.9%,接地准确率 83.8%,成功率 80.6%
- Magma-R1: 类型准确率 91.3%,接地准确率 94.2%,成功率 88.0%
在 AndroidControl-Curated-Hard 子集上:
- Qwen3-VL-235B: 类型准确率 88.2%,接地准确率 83.6%,成功率 76.5%
- Magma-R1: 类型准确率 84.2%,接地准确率 84.8%,成功率 75.3%
技术方法
基准测试净化流程
- 阶段1: 从坐标匹配到意图对齐的接地评估
- 阶段2: 通过 LLM-人类协作进行任务级修正
Magma-R1 训练范式
- 密集奖励: 基于高斯核的接地奖励
- 平衡学习: 动作类型比例优化
- 高效训练: 生成式 REINFORCE 与策略优化
引用信息
bibtex @article{leung2025androidcontrolcurated, title={AndroidControl-Curated: Revealing the True Potential of GUI Agents through Benchmark Purification}, author={LEUNG Ho Fai (Kevin) and XI XiaoYan (Sibyl) and ZUO Fei (Eric)}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025}, institution={BMW ArcherMind Information Technology Co. Ltd. (BA TechWorks)} }
搜集汇总
数据集介绍

构建方式
在图形用户界面智能体评估领域,AndroidControl-Curated通过系统化净化流程重构了基准数据集。该数据集基于原始AndroidControl基准,采用半自动化修正管道构建:首先将评估标准从精确坐标匹配升级为基于边界框的意图对齐机制,通过文档对象模型映射实现交互区域验证;随后运用执行共识失败策略识别高风险样本,借助大型语言模型进行因果归因与修正建议生成;最终通过人类专家验证确保数据可靠性,形成包含清晰任务描述与多路径解决方案的净化数据集。
特点
该数据集在图形用户界面智能体评估中展现出显著特性:采用意图对齐的边界框评估范式,有效解决了传统坐标匹配对智能体能力的系统性低估;任务指令经过语义净化,消除了模糊描述与多义性问题,确保评估目标的明确性;支持多有效动作路径的识别,更贴合真实用户交互场景的多样性;数据标签经过事实性校验,修正了约30%的原始基准错误,包括错误标注轨迹与逻辑矛盾问题;同时保留原始基准的任务复杂度分级体系,为不同能力层级的智能体提供精准评估尺度。
使用方法
在图形用户界面智能体研发实践中,该数据集可作为核心评估工具与训练资源。研究人员可将其作为标准测试平台,通过边界框匹配机制评估智能体的交互意图理解能力;开发者可利用其净化后的高质量样本进行模型微调,特别是在强化学习框架中结合高斯核密集奖励机制优化决策策略;该数据集支持分层评估模式,既可进行端到端任务完成度测试,也能单独验证 grounding 准确率;同时其提供的多解决方案范式为智能体行为多样性研究提供了理想实验环境,推动通用图形用户界面智能体向实用化方向发展。
背景与挑战
背景概述
AndroidControl-Curated数据集由BMW ArcherMind信息技术公司于2025年发布,旨在解决图形用户界面代理评估中的基准质量问题。该数据集基于AndroidControl基准改进而成,核心研究聚焦于消除原始基准中的模糊性和事实错误,以更准确地衡量GUI代理在移动设备自动化任务中的真实能力。通过引入意图对齐的边界框评估和任务级校正流程,该数据集显著提升了评估可靠性,推动了紧凑型视觉语言模型在设备端虚拟助手领域的实用化进程。
当前挑战
该数据集主要应对图形用户界面代理领域的两大挑战:在领域问题层面,需解决移动设备复杂任务中动态界面理解与多步操作规划的精度问题;在构建过程中,面临原始基准数据标签系统性缺陷的修正难题,包括约30%样本存在的任务描述模糊、多有效动作未标注及地面真值错误等问题。通过半自动化净化流程结合专家验证,最终实现了评估指标与真实交互意图的对齐。
常用场景
经典使用场景
在图形用户界面智能体研究领域,AndroidControl-Curated数据集作为基准测试工具,主要用于评估模型在移动设备应用中的自动化交互能力。该数据集通过精心筛选的真实任务场景,如音乐播放器操作、食谱搜索等,为研究者提供了标准化的测试环境。其核心价值在于通过意图对齐的边界框评估机制,准确衡量模型对界面元素的定位精度,从而推动GUI智能体在复杂任务中的性能优化。
实际应用
在智能车载系统和移动终端场景中,AndroidControl-Curated支撑开发的GUI智能体可实现语音指令到界面操作的无缝转换。例如在驾驶场景中,用户通过自然语言指令即可完成导航设置、音乐播放等复杂操作,大幅提升交互效率与安全性。该数据集优化的任务流程与评估标准,为开发具备多步骤任务执行能力的嵌入式智能助手提供了关键技术支撑。
衍生相关工作
基于该数据集的研究催生了多项创新成果,其中Magma-R1模型通过GRPO强化学习框架实现了小样本高效训练。相关研究如InfiGUI-R1提出的空间推理蒸馏架构、UI-R1探索的策略优化方法,均在AndroidControl-Curated验证了其有效性。这些工作共同推动了从反应式执行到深思熟虑决策的GUI智能体范式转变,形成了以数据质量为核心的新兴研究方向。
以上内容由遇见数据集搜集并总结生成



