WebClick

Name: WebClick
Creator: H Company
Published: 2025-06-03 21:29:03
License: 暂无描述

arXiv2025-06-03 更新2025-06-06 收录

下载链接：

https://huggingface.co/datasets/Hcompany/WebClick

下载链接

链接失效反馈

官方服务：

资源简介：

WebClick是一个针对网页定位器的新基准数据集，旨在解决现有基准在网页环境中的不足。数据集由人类标注的数据和基于策略的代理交互数据组成，专门针对现代网页中的特殊用户界面元素。该数据集的创建旨在促进代理系统的研究进展，并在Hugging Face平台上公开。WebClick数据集在网页定位和交互方面具有重要作用，有助于提高代理系统的性能和实用性。

WebClick is a novel benchmark dataset for web locators, designed to address the shortcomings of existing benchmarks in web environments. This dataset consists of human-annotated data and policy-based agent interaction data, specifically targeting special user interface (UI) elements in modern web pages. It was created to advance research on agent systems and is publicly released on the Hugging Face platform. The WebClick dataset plays a critical role in web localization and interaction, helping to improve the performance and practicality of agent systems.

提供机构：

H Company

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

WebClick数据集是通过精心收集和标注的网页截图构建而成，主要来源于三个渠道：代理在解决WebVoyager任务时的交互数据、人类日常网页操作记录以及日历界面交互数据。这些数据经过人工筛选，确保涵盖现代网页中常见的复杂交互元素，如日历和嵌套菜单。数据集的构建还包括对交互元素的精确坐标标注，以便评估模型在网页定位任务中的表现。

使用方法

WebClick数据集主要用于评估视觉语言模型在网页元素定位任务中的性能。研究人员可以通过提供网页截图和交互指令，测试模型返回的坐标是否落在标注的边界框内。该数据集支持对模型在真实网页环境中定位精确性的量化评估，特别适合用于训练和验证专门针对网页交互优化的视觉语言模型。

背景与挑战

背景概述

WebClick数据集由H Company团队于2025年6月提出，作为视觉语言模型（VLM）在网页导航和信息提取领域的专用评估基准。该数据集聚焦于用户界面（UI）元素定位这一核心问题，旨在解决现代网页环境中动态组件（如日历和嵌套菜单）的精准交互挑战。作为Holo1模型训练的关键组成部分，WebClick通过整合来自代理策略交互、人类日常网页操作及日历界面标注的三源数据，填补了现有通用UI定位基准（如Screenspot和GroundUI）在网页特定场景下的评估空白。其1639张涵盖100余个网站的标注截图，显著提升了代理系统在复杂网页环境中的操作可靠性，为视觉导航代理Surfer-H实现92.2%的WebVoyager任务准确率提供了基础支撑。

当前挑战

WebClick面临的挑战主要体现在两个维度：在领域问题层面，需解决网页动态组件（如实时更新的日历控件）的跨平台定位难题，以及多语言网页元素的功能意图理解偏差问题；在构建过程中，数据标注需平衡人类操作的真实性与代理生成数据的规模效应，同时应对网页视觉多样性导致的元素识别歧义。具体而言，日历任务的区域格式差异使模型需同步处理视觉布局与文化语境，而嵌套菜单的层级关系标注要求三维空间映射至二维坐标的精确转换。此外，自监督生成的代理行为数据存在动作路径偏差风险，需通过对抗样本增强和人类专家校验来确保数据质量。

常用场景

经典使用场景

WebClick数据集作为视觉语言模型（VLM）在网页导航和信息提取任务中的核心评估基准，专注于用户界面（UI）元素的精确定位能力。其典型应用场景包括训练和验证模型在复杂动态网页环境（如日历、嵌套菜单等）中的交互准确性，通过模拟人类点击行为优化代理系统的操作效率。数据集通过整合真实网页截图、人工标注及代理交互轨迹，构建了覆盖100余个网站的1639个样本，为模型提供了高度仿真的测试环境。

解决学术问题

该数据集解决了通用UI定位模型在网页特定场景下的性能瓶颈问题，填补了现有基准（如Screenspot、GroundUI）对动态网页组件适配不足的空白。其通过引入日历导航等挑战性任务，推动模型在跨区域日期格式识别、结构元素解析等复杂场景中的研究进展，显著提升了视觉-动作映射的学术探索深度。Holo1模型在WebClick上72.92%的日历任务准确率验证了其对学术难题的突破性贡献。

实际应用

在工业实践中，WebClick直接赋能自动化网页代理（如Surfer-H）实现精准操作，支持票务预订、表单填写等高精度需求场景。其标注数据可集成至企业级RPA系统，降低人工标注成本达40%。实际部署案例显示，基于该数据集训练的Holo1-7B模型将电商网页的自动化操作成功率提升至89.77%，显著优化了客户服务机器人的响应效率。

数据集最近研究