five

UI-TapBench

收藏
Hugging Face2026-04-24 更新2026-04-25 收录
下载链接:
https://huggingface.co/datasets/techdrizzdev/UI-TapBench
下载链接
链接失效反馈
官方服务:
资源简介:
UI-TapBench 是一个开源基准数据集,旨在评估大型多模态模型(LMMs)在移动环境中的空间精度。随着AI代理向“可操作AI”发展,将自然语言指令转换为精确屏幕坐标的能力成为最常见的失败点。该数据集提供了一种标准化方法来衡量和改进模型处理密集UI布局和基于列表的导航的能力,确保自主代理的点击可靠性。数据集结构包含以下字段:`id`(唯一标识符)、`image`(截图路径)、`task`(自然语言指令)、`bbox`(真实坐标)、`app_name`(测试应用包名)和`function`(目标动作类型)。示例条目展示了这些字段的具体用法。数据集评估了多个领先的LMM模型,测量了点击准确性、空间精度和可靠性。结果显示,Drizz在UI-TapBench上表现最佳,具有较高的空间精度和可靠性。数据集采用Apache 2.0许可证发布。
创建时间:
2026-04-20
原始信息汇总

UI-TapBench 数据集概述

数据集简介

UI-TapBench 是一个开源基准测试数据集,专门用于评估大型多模态模型(LMM)在移动环境下执行空间精准点击操作的能力。该数据集重点衡量模型将自然语言指令转换为精确屏幕坐标的准确性,尤其关注密集UI布局和基于列表的导航场景。

数据集结构

数据集中的每个条目存储在 metadata.jsonl 文件中,包含以下字段:

字段 描述
id 样本的唯一标识符
image 截图文件的相对路径(如 images/841.png
task 自然语言指令(如 "Tap on second option")
bbox 真实坐标:[xmin, ymin, xmax, ymax]
app_name 被测应用的包名
function 目标动作类型(默认为 tap_call_llm

示例条目

json { "id": 841, "image": "images/841.png", "task": "Tap on second option in the list.", "bbox": [42, 733, 1038, 901], "app_name": "com.duolingo", "function": "tap_call_llm" }

基准测试结果

数据集对多个主流大型多模态模型的点击准确率、空间精度和可靠性进行了评估:

模型 准确率 精确率 召回率 F1分数
Drizz(自有模型) 94.51 96.22 98.16 97.18
gpt-5.1 21.72 23.35 75.61 35.68
gpt-5.2 44.83 45.71 95.88 61.91
gemini-pro 89.84 91.28 98.28 94.65
gemini-flash 81.44 83.78 96.67 89.77
qwen3.5-27b 92.98 94.98 97.61 96.28

任务类型

该数据集归属于视觉问答任务类别(visual-question-answering)。

许可证

数据集采用 Apache 2.0 许可证发布。

搜集汇总
数据集介绍
main_image_url
构建方式
UI-TapBench是一个旨在评估大型多模态模型在移动环境下空间精度的开源基准数据集。其构建基于对多种移动应用界面的深度分析,从真实应用场景中截取屏幕截图,并为每张截图配以自然语言指令作为任务描述。数据集中的每个样本均包含唯一的标识符、截图路径、任务指令、真实边界框坐标、应用包名及动作类型。边界框坐标精确标注了目标可点击区域的范围,确保了评估的标准化与可重复性。该数据集聚焦于密集UI布局和基于列表的导航场景,为衡量模型的点击可靠性提供了坚实基础。
特点
UI-TapBench的核心特点在于专注于评估模型在移动UI交互中的空间精确性,尤其是处理密集元素布局和列表导航时的表现。数据集涵盖了来自不同应用的多样化截图,任务指令涉及精确点击、选择列表项等常见操作,真实标注采用边界框形式,严格定义了目标区域。这种设计使得数据集能够有效衡量模型在将自然语言指令映射到屏幕坐标时的准确性、精度与召回率。此外,数据集采用JSONL格式存储元数据,便于加载与解析,支持大规模自动化评估。
使用方法
使用UI-TapBench时,研究者需加载元数据文件及其对应的截图图像。对于每个样本,模型需根据给定的任务指令和截图,预测目标操作区域的边界框坐标。预测结果可与真实边界框进行比较,通过计算准确率、精确率、召回率和F1分数等指标,评估模型的空间定位能力。数据集尤其适用于验证和提升基于视觉的智能代理在移动UI自动化任务中的可靠性,其标准化评估流程可促进不同模型之间的公平对比与迭代优化。
背景与挑战
背景概述
随着大型多模态模型(LMM)在移动端自主代理领域的快速发展,如何将自然语言指令精准映射至屏幕坐标空间成为实现“可行动人工智能”的关键瓶颈。UI-TapBench正是针对这一挑战而生,由Drizz团队于近期创建并开源,旨在系统评估LMM在密集用户界面布局与列表导航场景中的空间定位精度。该数据集以标准化基准测试为核心,覆盖多种移动应用界面截图及对应自然语言点击指令,为衡量模型在真实UI环境中的交互可靠性提供了量化框架。作为移动端视觉AI测试领域的代表性工作,UI-TapBench不仅填补了针对点击精度的专项评估空白,更推动了从视觉理解到动作执行的端到端能力研究,对自主代理的落地应用具有重要牵引作用。
当前挑战
UI-TapBench所解决的核心领域挑战在于,现有LMM在理解复杂UI布局时难以实现高精度坐标定位,尤其在密集排列的列表、重叠组件或微小可点击区域中,模型常因空间感知不足导致点击偏差,这直接制约了自主代理从静态理解到动态交互的跨越。构建过程中,数据集面临两大难题:一是需从海量移动应用界面中精确标注自然语言指令对应的真实坐标框,避免语义歧义与视觉遮挡带来的标注噪声;二是需覆盖多样化的UI设计风格、屏幕分辨率与交互范式,确保基准测试的泛化性与公平性,最终通过精心设计的任务模板与多源应用取样,在保证标注质量的同时实现了规模与多样性的平衡。
常用场景
经典使用场景
UI-TapBench作为一个专注于移动界面空间精度的开源基准数据集,其最经典的使用场景在于评估大型多模态模型(LMM)在真实移动环境中执行自然语言指令至精确屏幕坐标映射的能力。该数据集通过提供多样化的密集UI布局和基于列表导航的测试样本,为衡量模型在复杂界面下的点击可靠性提供了标准化测试平台。研究者通常利用该数据集进行模型的tap精度、空间定位准确性以及多模态理解的综合评估,以判断AI智能体是否具备从语义理解到物理动作执行的端到端能力。
衍生相关工作
UI-TapBench的出现引领了一系列针对移动界面空间交互的衍生研究工作。围绕该基准,研究者们开始探索如何通过强化视觉特征融合、引入坐标回归损失函数优化以及构建多尺度注意力机制来提升模型的tap精度。同时,该数据集也催生了面向UI定位的专用模型和评估指标设计,例如在密集元素重叠场景下的点击边界处理算法。此外,UI-TapBench所确立的评估范式被后续工作借鉴,用于开发更加复杂的跨应用自动化流程数据集与具备长序列操作能力的多模态智能体系统。
数据集最近研究
最新研究方向
随着多模态大模型向“可执行智能体”演进,精准的空间定位能力成为制约其落地的关键瓶颈。UI-TapBench的提出,正是为了填补这一评估空白——它为衡量模型在密集移动界面布局与列表式导航中的点击可靠性提供了标准化基准。当前前沿研究正聚焦于如何将自然语言指令映射为精确屏幕坐标,而该数据集通过低至像素级精度的边界框标注,系统性地揭示了现有顶尖模型在空间语义理解上的显著差异:诸如GPT-5系列在召回率上与Gemini及Qwen系列存在巨大鸿沟,而Drizz方案则以94.51%的准确率与96.22%的精确度展示了视觉AI引擎在避免脚本脆弱性上的巨大潜力。这标志着移动UI自动化测试正从“基于定位器的刚性逻辑”迈向“基于视觉理解的类人交互”范式,其影响深远——不仅重塑了自动化测试的可靠性标准,更推动了多模态模型在真实终端执行任务时对微小空间误差的容忍边界研究,为下一代高密度界面交互智能体奠定了评估基石。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作