five

ShowUI-web|网页视觉元素数据集|图像识别数据集

收藏
huggingface2025-01-05 更新2025-01-06 收录
网页视觉元素
图像识别
下载链接:
https://huggingface.co/datasets/showlab/ShowUI-web
下载链接
链接失效反馈
资源简介:
ShowUI-web是一个专注于网页视觉元素定位的数据集。该数据集通过解析器收集了22K张截图,保留了如‘Button’或‘Checkbox’等视觉相关元素,同时移除了静态文本。数据集包含图像、图像URL、指令、边界框、点和类型等特征。数据集分为一个训练集,包含21988个例子,总大小为59376321字节。
创建时间:
2025-01-04
AI搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-web数据集的构建过程体现了对Web界面视觉元素的精准捕捉与处理。研究团队开发了一个专门的解析器,从22K张网页截图中筛选出与视觉相关的元素,如‘Button’或‘Checkbox’等,同时剔除了静态文本内容。这一过程确保了数据集的纯粹性和针对性,为视觉元素的基础研究提供了高质量的标注数据。
特点
该数据集的特点在于其专注于Web界面中的视觉元素,提供了丰富的图像、图像URL、指令、边界框、点坐标及类型信息。这些特征不仅覆盖了视觉元素的多样性和复杂性,还通过精确的标注支持了视觉元素的基础任务,如检测和识别。数据集的结构设计使得其能够广泛应用于视觉语言模型的研究与开发。
使用方法
使用ShowUI-web数据集时,研究人员和开发者可以通过加载数据集中的图像和标注信息,进行视觉元素的检测、识别和交互研究。数据集的结构化设计支持直接应用于机器学习模型的训练和评估,特别是在视觉语言模型和GUI视觉代理的开发中。通过结合图像和详细的标注信息,用户可以深入探索视觉元素在Web界面中的应用和表现。
背景与挑战
背景概述
ShowUI-web数据集由ShowLab团队于2024年发布,旨在解决网页视觉元素定位的核心问题。该数据集专注于网页界面中的视觉元素,如按钮、复选框等,通过解析器从22K张网页截图中提取并保留这些元素,同时剔除了静态文本等无关信息。该数据集的研究背景源于视觉-语言-动作模型在图形用户界面(GUI)中的应用需求,特别是在自动化测试、辅助功能增强等领域。ShowUI-web的发布为视觉代理模型的研究提供了重要的数据支持,推动了GUI视觉理解技术的发展。
当前挑战
ShowUI-web数据集面临的挑战主要体现在两个方面。首先,网页视觉元素的多样性和复杂性使得精确标注和定位变得困难,尤其是在动态生成或嵌套结构的界面中。其次,数据集的构建过程中,如何有效区分并保留与视觉相关的元素,同时去除无关的静态文本,是一个技术难点。此外,确保数据集的多样性和代表性,以覆盖不同网页设计和交互模式,也是构建过程中需要克服的挑战。这些挑战不仅影响了数据集的构建质量,也对后续模型训练和评估提出了更高的要求。
常用场景
经典使用场景
在计算机视觉与自然语言处理交叉领域,ShowUI-web数据集被广泛应用于网页视觉元素的定位与识别任务。通过提供包含图像、图像URL、指令、边界框、点坐标及元素类型的数据,该数据集为研究者提供了一个丰富的资源,用于训练和评估视觉元素定位模型。特别是在网页自动化测试和用户界面设计优化中,该数据集的应用尤为突出。
衍生相关工作
基于ShowUI-web数据集,研究者们开发了一系列经典工作,如视觉元素定位模型、多模态学习框架及网页自动化测试工具。这些工作不仅在学术界引起了广泛关注,还在工业界得到了实际应用。例如,基于该数据集训练的模型已被应用于多个网页自动化测试平台,显著提升了测试效率和准确性。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理的交叉领域,ShowUI-web数据集为网页视觉元素的定位提供了新的研究视角。该数据集通过解析网页截图,专注于保留如按钮、复选框等视觉相关元素,剔除了静态文本,从而为视觉代理模型提供了高质量的标注数据。当前,研究者们正利用该数据集探索视觉-语言-动作模型的潜力,特别是在网页自动化任务中的应用。这一研究方向不仅推动了视觉代理技术的发展,也为网页交互的智能化提供了新的可能性。通过结合大规模预训练模型,ShowUI-web数据集在提升模型对复杂网页结构的理解能力方面展现出显著优势,为未来的网页自动化工具和人机交互界面设计奠定了坚实基础。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Obstacle-dataset OD

该数据集用于十五种障碍物检测,包含VOC格式和YOLO训练的.txt文件,数据集中的图像来自VOC数据集、COCO数据集、TT100K数据集以及作者团队实地收集的图片。

github 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

糖尿病预测数据集

糖尿病相关的医学研究或者健康数据

AI_Studio 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录