AndroidControl_Curated

Hugging Face2025-10-22 更新2025-10-22 收录

下载链接：

https://huggingface.co/datasets/batwBMW/AndroidControl_Curated

下载链接

链接失效反馈

官方服务：

资源简介：

AndroidControl-Curated是一个经过优化的GUI代理性能基准数据集，它通过纯化管道改进了原始的AndroidControl基准，揭示了GUI代理的真实潜力。该数据集使得最新的Magma-R1模型在复杂任务上的成功率接近80%，显著提高了GUI代理的性能。

创建时间：

2025-10-09

原始信息汇总

AndroidControl-Curated 数据集概述

数据集基本信息

数据集名称: AndroidControl-Curated
核心贡献: 通过基准净化流程改进的AndroidControl基准测试精炼版本
主要目标: 准确评估GUI代理在Android设备上的真实性能

数据集背景

问题识别: 发现原始AndroidControl基准测试存在模糊性和事实错误
解决方案: 通过严格的净化流程增强AndroidControl基准测试
意义: 在增强基准上，最先进模型的复杂任务成功率接近80%

数据集特点

基准净化流程

第一阶段: 从坐标匹配转向意图对齐的接地评估
- 用边界框基础的意图对齐替换严格的点基础匹配
- 评估预测点是否落在目标UI元素边界框内
第二阶段: 通过LLM-人类协作的任务级校正
- 通过执行共识失败识别高风险样本
- 使用LLMs进行自动因果归因和校正
- 严格的人类专家验证

性能表现

模型对比结果

最佳表现模型:
- Magma-R1: 在Easy子集上达到88.0%成功率，在Hard子集上达到75.3%成功率
- OS-Atlas-4B: 在Easy子集上达到80.6%成功率
- Qwen3-VL-235B: 在Hard子集上达到76.5%成功率

净化效果验证

性能提升: 从AndroidControl到AndroidControl-Curated，各模型成功率提升显著
最大提升: Magma-R1在Hard子集上提升17.7个百分点

技术方法

训练范式

GRPO优化: 使用生成性REINFORCE与策略优化
密集奖励: 基于高斯核的接地奖励提供连续反馈
平衡学习: 动作类型比例优化解决类别不平衡问题
高效训练: 仅使用2,400个精选样本达到与31,000个样本相当的性能

数据集文件组成

android_control_high_bbox.json
android_control_high_point.json
android_control_low_bbox.json
android_control_low_point.json
android_control_high_task-improved.json

相关资源

论文: https://arxiv.org/abs/2510.18488v1
模型: https://huggingface.co/batwBMW/Magma-R1
代码库: https://github.com/batechworks/AndroidControl_Curated

搜集汇总

数据集介绍

构建方式

在图形用户界面智能体评估领域，AndroidControl-Curated通过系统性净化流程重构了基准数据集。该构建方法采用双阶段优化策略：首先将严格坐标匹配机制转变为基于边界框的意图对齐评估，通过检测预测坐标是否落入目标UI元素边界内来提升评估合理性；随后建立大型语言模型与人类专家的协同修正机制，基于执行共识失败识别高风险样本，结合自动化因果归因与专家验证实现任务层级的精准校正。

特点

该数据集显著提升了图形用户界面智能体评估的准确性与可靠性。其核心特征体现在评估范式的根本性革新：采用边界框意图对齐机制取代传统点对点匹配，有效解决了原始基准中存在的模糊性与事实错误问题。通过精心设计的难度分级体系，将任务划分为简易与困难两个子集，为模型能力评估提供多维视角。实验数据表明，经净化后的基准使先进模型的成功率提升至接近80%，真实反映了图形用户界面智能体的实际潜力。

使用方法

研究人员可通过标准化流程使用该数据集进行图形用户界面智能体评估。首先从HuggingFace平台获取经处理的测试集文件，包括不同精度级别的边界框与坐标数据。配置评估环境后，通过专用评估脚本加载预训练模型权重与基准图像目录，系统将自动执行多维度性能分析。评估结果将生成结构化报告，涵盖动作类型准确率、定位精度与任务成功率等关键指标，为模型优化提供量化依据。该标准化流程确保了评估结果的可复现性与跨模型可比性。

背景与挑战

背景概述

随着移动设备智能化进程的加速，以Siri和Google Assistant为代表的设备端虚拟助手逐渐成为人机交互的核心枢纽。然而传统助手受限于预设API框架的刚性约束，难以适应复杂多变的用户需求。2025年由BMW ArcherMind技术团队发布的AndroidControl-Curated数据集，正是针对图形用户界面智能体评估体系的重要革新。该数据集通过系统化净化流程重构了AndroidControl基准测试，揭示了现有评估体系对智能体能力的系统性低估现象，为移动端GUI智能体的实用化部署提供了科学依据。

当前挑战

在图形用户界面智能体研究领域，原始基准测试存在的标注模糊与事实错误严重阻碍了模型能力的准确评估。AndroidControl-Curated构建过程中面临双重挑战：其一是技术层面需解决坐标匹配与意图对齐的度量鸿沟，将严格坐标匹配升级为边界框意图对齐评估；其二是质量管控层面需通过LLM-人工协同机制实现任务级修正，包括高风险样本识别、因果归因校正等环节。这些挑战的突破使得模型在复杂任务上的成功率从60%提升至近80%，显著推进了设备端GUI智能体的实用化进程。

常用场景

经典使用场景

在移动智能交互领域，AndroidControl-Curated数据集主要应用于图形用户界面智能体的能力评估与优化。该数据集通过精心设计的净化流程，消除了原始基准中存在的模糊性和事实错误，为研究人员提供了更可靠的评估环境。其典型使用场景包括测试智能体在复杂安卓应用任务中的执行准确率，例如界面元素定位、多步骤操作规划等核心能力验证。

解决学术问题

该数据集有效解决了图形用户界面智能体研究领域的基准评估失真问题。传统基准存在的系统性缺陷导致模型性能被严重低估，而通过引入边界框意图对齐和任务级修正机制，AndroidControl-Curated显著提升了评估的准确性与公正性。这一突破性进展不仅纠正了学界对现有模型能力的误判，更为智能体性能评估方法论提供了新的范式。

衍生相关工作

基于该数据集衍生的重要研究包括Magma-R1模型的创新训练范式。通过生成式强化学习策略优化方法，仅用2400个精选样本就达到了传统模型需31000样本的训练效果。同时，该数据集催生的评估方法论革新也影响了后续研究，如OS-Atlas-4B等模型在净化基准上的优异表现，进一步推动了GUI智能体研究范式的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集