single-click_bench

Hugging Face2025-11-14 更新2025-11-15 收录

下载链接：

https://huggingface.co/datasets/alexandrayakovleva/single-click_bench

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个用于评估仅需要单次点击的网页交互任务的基准数据集。数据集的每个实例包括两个任务表述（简化和类人化）、一个预保存的HTML文件用于获取截图或元数据，以及带有元素边界框和XPath的评价目标注释。该数据集能够系统地评估网页代理在视觉定位、任务理解和动作预测等方面的能力。

创建时间：

2025-11-12

原始信息汇总

Single-Click Benchmark for Web Interaction 数据集概述

数据集简介

该基准定义了一个仅需单次点击即可完成的最小化网页交互任务
每个实例包含两种任务表述（简化版和类人版）、用于获取截图或元数据的预存HTML文件，以及用于评估的元素边界框和XPath目标标注
支持系统评估网络代理的视觉定位、任务理解和动作预测能力

数据规模

规模类别：n<1K（小于1000个样本）

数据结构

字段	描述
`initial_url`	源网页URL
`html_path`	预存HTML文件的相对路径
`xpath`	目标元素的XPath
`element_text`	可点击元素的文本内容
`x`, `y`, `w`, `h`	元素的边界框坐标
`simplified_task_description`	简短动作指令
`human-like_task_description`	相同动作的自然语言指令

技术说明

边界框坐标(x, y, w, h)使用Playwright在Linux环境下提取，其他操作系统可能因字体渲染差异出现轻微变化
评估建议：当XPath匹配或预测点击坐标落入目标边界框内时，可判定预测正确
可选操作：在评估前可通过XPath重新定位元素来验证存储的边界框

数据示例

json { "initial_url": "https://data.govt.nz/about/", "html_path": "0.html", "xpath": "/html/body/header/div/div/div/button[2]", "element_text": "Search", "x": 933, "y": 25, "w": 110.08, "h": 40, "simplified_task_description": "Click on the element that displays Search or conveys its meaning.", "human-like_task_description": "Explore the search functionality to find datasets or information related to data.govt.nz." }

搜集汇总

数据集介绍

构建方式

在网页交互研究领域，single-click_bench数据集通过系统化采集真实网页环境中的交互元素构建而成。该数据集以Playwright工具在Linux环境下自动抓取网页HTML结构，并精确记录目标元素的XPath定位信息与边界框坐标。每个实例包含原始网页链接、本地存储的HTML文件路径，以及通过自动化脚本提取的交互元素文本内容与空间位置数据，确保了数据采集过程的可复现性与跨平台兼容性。

特点

该数据集的核心特征在于其精心设计的双重任务描述体系，既包含简洁明确的指令型描述，又提供符合人类自然语言习惯的情景化任务说明。每个数据实例均配备完整的视觉定位标注，包括基于像素坐标的边界框数据和标准化的XPath元素定位信息。这种多维度的标注方案使得数据集能同时支持视觉感知、语义理解与交互决策等多维能力的评估，为网页智能体研究提供了立体化的评测基准。

使用方法

研究者可通过加载本地存储的HTML文件还原网页视觉场景，结合两种不同风格的任务描述训练或评估智能体的交互能力。评估时可采用双重验证机制：既可通过XPath匹配度进行逻辑层验证，也可通过坐标点是否落入目标边界框进行空间层验证。这种灵活的评估策略有效克服了不同操作系统间字体渲染差异带来的影响，确保了评测结果的可靠性与普适性。

背景与挑战

背景概述

随着智能体技术在网页交互领域的深入发展，评估模型在真实网页环境中的基础能力成为关键研究课题。Single-Click Benchmark由研究团队于近期构建，专注于定义最小化网页交互任务，仅需单次点击即可完成操作。该数据集通过预设HTML文件、目标元素边界框坐标及XPath标注，系统化评估网页智能体的视觉定位、任务理解和动作预测等核心能力，为网页交互智能体的标准化测评提供了重要基准。

当前挑战

该数据集致力于解决网页交互智能体在基础动作执行层面的评估挑战，包括视觉元素定位精度和语义任务理解准确性。在构建过程中面临多重技术难题：跨平台字体渲染差异导致边界框坐标漂移，需要设计容错评估机制；动态网页元素定位的稳定性保障要求精确的XPath标注策略；同时需平衡简化任务描述与自然语言指令之间的语义一致性，确保评估结果的可靠性和泛化能力。

常用场景

经典使用场景

在网页交互智能体研究领域，single-click_bench数据集被广泛应用于评估模型在简化环境中的基础交互能力。该数据集通过预存HTML文件和标准化标注，支持对视觉定位与动作预测任务的系统性测试，研究者可基于单次点击任务验证代理对网页元素的理解精度，为复杂交互研究奠定基础。

实际应用

在实际场景中，该数据集为网页自动化测试与无障碍交互设计提供了关键支持。开发人员可借助其标注体系优化屏幕阅读器的元素定位精度，同时为电商平台按钮检测、政府网站导航优化等具体应用提供验证框架，切实提升数字服务的可访问性与用户体验。

衍生相关工作

基于该数据集衍生的经典研究包括跨模态网页元素定位模型、端到端交互代理架构等突破性工作。这些研究通过融合视觉特征与DOM结构信息，显著提升了智能体在动态网页中的鲁棒性，后续工作进一步扩展了数据集的评估维度，形成了网页交互研究的重要范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集