ShowUI-web

Hugging Face2025-01-05 更新2025-01-06 收录

下载链接：

https://huggingface.co/datasets/showlab/ShowUI-web

下载链接

链接失效反馈

官方服务：

资源简介：

ShowUI-web是一个专注于网页视觉元素定位的数据集。该数据集通过解析器收集了22K张截图，保留了如‘Button’或‘Checkbox’等视觉相关元素，同时移除了静态文本。数据集包含图像、图像URL、指令、边界框、点和类型等特征。数据集分为一个训练集，包含21988个例子，总大小为59376321字节。

ShowUI-web is a dataset focused on web visual element localization. This dataset collects 22,000 screenshots via parsers, retains visual-related elements such as "Button" or "Checkbox", while removing static text. The dataset includes features such as images, image URLs, instructions, bounding boxes, points and element types. It is split into a single training set containing 21,988 examples, with a total size of 59,376,321 bytes.

创建时间：

2025-01-04

搜集汇总

数据集介绍

构建方式

ShowUI-web数据集的构建过程体现了对Web界面视觉元素的精准捕捉与处理。研究团队开发了一个专门的解析器，从22K张网页截图中筛选出与视觉相关的元素，如‘Button’或‘Checkbox’等，同时剔除了静态文本内容。这一过程确保了数据集的纯粹性和针对性，为视觉元素的基础研究提供了高质量的标注数据。

特点

该数据集的特点在于其专注于Web界面中的视觉元素，提供了丰富的图像、图像URL、指令、边界框、点坐标及类型信息。这些特征不仅覆盖了视觉元素的多样性和复杂性，还通过精确的标注支持了视觉元素的基础任务，如检测和识别。数据集的结构设计使得其能够广泛应用于视觉语言模型的研究与开发。

使用方法

使用ShowUI-web数据集时，研究人员和开发者可以通过加载数据集中的图像和标注信息，进行视觉元素的检测、识别和交互研究。数据集的结构化设计支持直接应用于机器学习模型的训练和评估，特别是在视觉语言模型和GUI视觉代理的开发中。通过结合图像和详细的标注信息，用户可以深入探索视觉元素在Web界面中的应用和表现。

背景与挑战

背景概述

ShowUI-web数据集由ShowLab团队于2024年发布，旨在解决网页视觉元素定位的核心问题。该数据集专注于网页界面中的视觉元素，如按钮、复选框等，通过解析器从22K张网页截图中提取并保留这些元素，同时剔除了静态文本等无关信息。该数据集的研究背景源于视觉-语言-动作模型在图形用户界面（GUI）中的应用需求，特别是在自动化测试、辅助功能增强等领域。ShowUI-web的发布为视觉代理模型的研究提供了重要的数据支持，推动了GUI视觉理解技术的发展。

当前挑战

ShowUI-web数据集面临的挑战主要体现在两个方面。首先，网页视觉元素的多样性和复杂性使得精确标注和定位变得困难，尤其是在动态生成或嵌套结构的界面中。其次，数据集的构建过程中，如何有效区分并保留与视觉相关的元素，同时去除无关的静态文本，是一个技术难点。此外，确保数据集的多样性和代表性，以覆盖不同网页设计和交互模式，也是构建过程中需要克服的挑战。这些挑战不仅影响了数据集的构建质量，也对后续模型训练和评估提出了更高的要求。

常用场景

经典使用场景

在计算机视觉与自然语言处理交叉领域，ShowUI-web数据集被广泛应用于网页视觉元素的定位与识别任务。通过提供包含图像、图像URL、指令、边界框、点坐标及元素类型的数据，该数据集为研究者提供了一个丰富的资源，用于训练和评估视觉元素定位模型。特别是在网页自动化测试和用户界面设计优化中，该数据集的应用尤为突出。

衍生相关工作

基于ShowUI-web数据集，研究者们开发了一系列经典工作，如视觉元素定位模型、多模态学习框架及网页自动化测试工具。这些工作不仅在学术界引起了广泛关注，还在工业界得到了实际应用。例如，基于该数据集训练的模型已被应用于多个网页自动化测试平台，显著提升了测试效率和准确性。

数据集最近研究