UI-TapBench

Hugging Face2026-04-24 更新2026-04-25 收录

下载链接：

https://huggingface.co/datasets/techdrizzdev/UI-TapBench

下载链接

链接失效反馈

官方服务：

资源简介：

UI-TapBench 是一个开源基准数据集，旨在评估大型多模态模型（LMMs）在移动环境中的空间精度。随着AI代理向“可操作AI”发展，将自然语言指令转换为精确屏幕坐标的能力成为最常见的失败点。该数据集提供了一种标准化方法来衡量和改进模型处理密集UI布局和基于列表的导航的能力，确保自主代理的点击可靠性。数据集结构包含以下字段：`id`（唯一标识符）、`image`（截图路径）、`task`（自然语言指令）、`bbox`（真实坐标）、`app_name`（测试应用包名）和`function`（目标动作类型）。示例条目展示了这些字段的具体用法。数据集评估了多个领先的LMM模型，测量了点击准确性、空间精度和可靠性。结果显示，Drizz在UI-TapBench上表现最佳，具有较高的空间精度和可靠性。数据集采用Apache 2.0许可证发布。

创建时间：

2026-04-20

原始信息汇总

UI-TapBench 数据集概述

数据集简介

UI-TapBench 是一个开源基准测试数据集，专门用于评估大型多模态模型（LMM）在移动环境下执行空间精准点击操作的能力。该数据集重点衡量模型将自然语言指令转换为精确屏幕坐标的准确性，尤其关注密集UI布局和基于列表的导航场景。

数据集结构

数据集中的每个条目存储在 metadata.jsonl 文件中，包含以下字段：

字段	描述
`id`	样本的唯一标识符
`image`	截图文件的相对路径（如 `images/841.png`）
`task`	自然语言指令（如 "Tap on second option"）
`bbox`	真实坐标：`[xmin, ymin, xmax, ymax]`
`app_name`	被测应用的包名
`function`	目标动作类型（默认为 `tap_call_llm`）

示例条目

json { "id": 841, "image": "images/841.png", "task": "Tap on second option in the list.", "bbox": [42, 733, 1038, 901], "app_name": "com.duolingo", "function": "tap_call_llm" }

基准测试结果

数据集对多个主流大型多模态模型的点击准确率、空间精度和可靠性进行了评估：

模型	准确率	精确率	召回率	F1分数
Drizz（自有模型）	94.51	96.22	98.16	97.18
gpt-5.1	21.72	23.35	75.61	35.68
gpt-5.2	44.83	45.71	95.88	61.91
gemini-pro	89.84	91.28	98.28	94.65
gemini-flash	81.44	83.78	96.67	89.77
qwen3.5-27b	92.98	94.98	97.61	96.28

任务类型

该数据集归属于视觉问答任务类别（visual-question-answering）。

许可证

数据集采用 Apache 2.0 许可证发布。

搜集汇总

数据集介绍

构建方式

UI-TapBench是一个旨在评估大型多模态模型在移动环境下空间精度的开源基准数据集。其构建基于对多种移动应用界面的深度分析，从真实应用场景中截取屏幕截图，并为每张截图配以自然语言指令作为任务描述。数据集中的每个样本均包含唯一的标识符、截图路径、任务指令、真实边界框坐标、应用包名及动作类型。边界框坐标精确标注了目标可点击区域的范围，确保了评估的标准化与可重复性。该数据集聚焦于密集UI布局和基于列表的导航场景，为衡量模型的点击可靠性提供了坚实基础。

特点

UI-TapBench的核心特点在于专注于评估模型在移动UI交互中的空间精确性，尤其是处理密集元素布局和列表导航时的表现。数据集涵盖了来自不同应用的多样化截图，任务指令涉及精确点击、选择列表项等常见操作，真实标注采用边界框形式，严格定义了目标区域。这种设计使得数据集能够有效衡量模型在将自然语言指令映射到屏幕坐标时的准确性、精度与召回率。此外，数据集采用JSONL格式存储元数据，便于加载与解析，支持大规模自动化评估。

使用方法

使用UI-TapBench时，研究者需加载元数据文件及其对应的截图图像。对于每个样本，模型需根据给定的任务指令和截图，预测目标操作区域的边界框坐标。预测结果可与真实边界框进行比较，通过计算准确率、精确率、召回率和F1分数等指标，评估模型的空间定位能力。数据集尤其适用于验证和提升基于视觉的智能代理在移动UI自动化任务中的可靠性，其标准化评估流程可促进不同模型之间的公平对比与迭代优化。

背景与挑战

背景概述

随着大型多模态模型（LMM）在移动端自主代理领域的快速发展，如何将自然语言指令精准映射至屏幕坐标空间成为实现“可行动人工智能”的关键瓶颈。UI-TapBench正是针对这一挑战而生，由Drizz团队于近期创建并开源，旨在系统评估LMM在密集用户界面布局与列表导航场景中的空间定位精度。该数据集以标准化基准测试为核心，覆盖多种移动应用界面截图及对应自然语言点击指令，为衡量模型在真实UI环境中的交互可靠性提供了量化框架。作为移动端视觉AI测试领域的代表性工作，UI-TapBench不仅填补了针对点击精度的专项评估空白，更推动了从视觉理解到动作执行的端到端能力研究，对自主代理的落地应用具有重要牵引作用。

当前挑战

UI-TapBench所解决的核心领域挑战在于，现有LMM在理解复杂UI布局时难以实现高精度坐标定位，尤其在密集排列的列表、重叠组件或微小可点击区域中，模型常因空间感知不足导致点击偏差，这直接制约了自主代理从静态理解到动态交互的跨越。构建过程中，数据集面临两大难题：一是需从海量移动应用界面中精确标注自然语言指令对应的真实坐标框，避免语义歧义与视觉遮挡带来的标注噪声；二是需覆盖多样化的UI设计风格、屏幕分辨率与交互范式，确保基准测试的泛化性与公平性，最终通过精心设计的任务模板与多源应用取样，在保证标注质量的同时实现了规模与多样性的平衡。

常用场景

经典使用场景

UI-TapBench作为一个专注于移动界面空间精度的开源基准数据集，其最经典的使用场景在于评估大型多模态模型（LMM）在真实移动环境中执行自然语言指令至精确屏幕坐标映射的能力。该数据集通过提供多样化的密集UI布局和基于列表导航的测试样本，为衡量模型在复杂界面下的点击可靠性提供了标准化测试平台。研究者通常利用该数据集进行模型的tap精度、空间定位准确性以及多模态理解的综合评估，以判断AI智能体是否具备从语义理解到物理动作执行的端到端能力。

衍生相关工作

UI-TapBench的出现引领了一系列针对移动界面空间交互的衍生研究工作。围绕该基准，研究者们开始探索如何通过强化视觉特征融合、引入坐标回归损失函数优化以及构建多尺度注意力机制来提升模型的tap精度。同时，该数据集也催生了面向UI定位的专用模型和评估指标设计，例如在密集元素重叠场景下的点击边界处理算法。此外，UI-TapBench所确立的评估范式被后续工作借鉴，用于开发更加复杂的跨应用自动化流程数据集与具备长序列操作能力的多模态智能体系统。

数据集最近研究