five

ShowUI-web

收藏
Hugging Face2025-01-05 更新2025-01-06 收录
下载链接:
https://huggingface.co/datasets/showlab/ShowUI-web
下载链接
链接失效反馈
官方服务:
资源简介:
ShowUI-web是一个专注于网页视觉元素定位的数据集。该数据集通过解析器收集了22K张截图,保留了如‘Button’或‘Checkbox’等视觉相关元素,同时移除了静态文本。数据集包含图像、图像URL、指令、边界框、点和类型等特征。数据集分为一个训练集,包含21988个例子,总大小为59376321字节。

ShowUI-web is a dataset focused on web visual element localization. This dataset collects 22,000 screenshots via parsers, retains visual-related elements such as "Button" or "Checkbox", while removing static text. The dataset includes features such as images, image URLs, instructions, bounding boxes, points and element types. It is split into a single training set containing 21,988 examples, with a total size of 59,376,321 bytes.
创建时间:
2025-01-04
搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-web数据集的构建过程体现了对Web界面视觉元素的精准捕捉与处理。研究团队开发了一个专门的解析器,从22K张网页截图中筛选出与视觉相关的元素,如‘Button’或‘Checkbox’等,同时剔除了静态文本内容。这一过程确保了数据集的纯粹性和针对性,为视觉元素的基础研究提供了高质量的标注数据。
特点
该数据集的特点在于其专注于Web界面中的视觉元素,提供了丰富的图像、图像URL、指令、边界框、点坐标及类型信息。这些特征不仅覆盖了视觉元素的多样性和复杂性,还通过精确的标注支持了视觉元素的基础任务,如检测和识别。数据集的结构设计使得其能够广泛应用于视觉语言模型的研究与开发。
使用方法
使用ShowUI-web数据集时,研究人员和开发者可以通过加载数据集中的图像和标注信息,进行视觉元素的检测、识别和交互研究。数据集的结构化设计支持直接应用于机器学习模型的训练和评估,特别是在视觉语言模型和GUI视觉代理的开发中。通过结合图像和详细的标注信息,用户可以深入探索视觉元素在Web界面中的应用和表现。
背景与挑战
背景概述
ShowUI-web数据集由ShowLab团队于2024年发布,旨在解决网页视觉元素定位的核心问题。该数据集专注于网页界面中的视觉元素,如按钮、复选框等,通过解析器从22K张网页截图中提取并保留这些元素,同时剔除了静态文本等无关信息。该数据集的研究背景源于视觉-语言-动作模型在图形用户界面(GUI)中的应用需求,特别是在自动化测试、辅助功能增强等领域。ShowUI-web的发布为视觉代理模型的研究提供了重要的数据支持,推动了GUI视觉理解技术的发展。
当前挑战
ShowUI-web数据集面临的挑战主要体现在两个方面。首先,网页视觉元素的多样性和复杂性使得精确标注和定位变得困难,尤其是在动态生成或嵌套结构的界面中。其次,数据集的构建过程中,如何有效区分并保留与视觉相关的元素,同时去除无关的静态文本,是一个技术难点。此外,确保数据集的多样性和代表性,以覆盖不同网页设计和交互模式,也是构建过程中需要克服的挑战。这些挑战不仅影响了数据集的构建质量,也对后续模型训练和评估提出了更高的要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理交叉领域,ShowUI-web数据集被广泛应用于网页视觉元素的定位与识别任务。通过提供包含图像、图像URL、指令、边界框、点坐标及元素类型的数据,该数据集为研究者提供了一个丰富的资源,用于训练和评估视觉元素定位模型。特别是在网页自动化测试和用户界面设计优化中,该数据集的应用尤为突出。
衍生相关工作
基于ShowUI-web数据集,研究者们开发了一系列经典工作,如视觉元素定位模型、多模态学习框架及网页自动化测试工具。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用。例如,基于该数据集训练的模型已被应用于多个网页自动化测试平台,显著提升了测试效率和准确性。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理的交叉领域,ShowUI-web数据集为网页视觉元素的定位提供了新的研究视角。该数据集通过解析网页截图,专注于保留如按钮、复选框等视觉相关元素,剔除了静态文本,从而为视觉代理模型提供了高质量的标注数据。当前,研究者们正利用该数据集探索视觉-语言-动作模型的潜力,特别是在网页自动化任务中的应用。这一研究方向不仅推动了视觉代理技术的发展,也为网页交互的智能化提供了新的可能性。通过结合大规模预训练模型,ShowUI-web数据集在提升模型对复杂网页结构的理解能力方面展现出显著优势,为未来的网页自动化工具和人机交互界面设计奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作