ShowUI-desktop-8K|UI定位数据集|数据增强数据集

huggingface2024-11-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/showlab/ShowUI-desktop-8K

下载链接

链接失效反馈

资源简介：

ShowUI-desktop-8K是一个专注于PC端UI定位的数据集，包含从OmniAct数据集获取的截图和注释。通过GPT-4o模型对原始注释进行了增强，添加了外观、空间关系和预期功能等多种属性。数据集包含训练集，共有7496个样本，总大小为16591347652.088字节。

创建时间：

2024-11-27

原始信息汇总

ShowUI-desktop-8K 数据集概述

数据集信息

特征

image_url: 字符串类型
image: 图像类型
instruction: 字符串类型
bbox: 浮点数序列类型
point: 浮点数序列类型
type: 字符串类型

分割

train: 包含7496个样本，数据大小为16591347652.088字节

数据大小

下载大小: 327573839字节
数据集大小: 16591347652.088字节

配置

default: 数据文件路径为data/train-*

数据集来源

基于PC的UI定位数据集，截图和注释最初来源于OmniAct。
使用GPT-4o增强原始注释，丰富了外观、空间关系和预期功能等多样属性。

引用

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

AI搜集汇总

数据集介绍

构建方式

ShowUI-desktop-8K数据集的构建基于PC端的界面截图及其标注，原始数据来源于OmniAct数据集。为了增强数据的多样性和丰富性，研究团队利用GPT-4o对原始标注进行了扩展，增加了诸如外观、空间关系和功能意图等多维度的属性信息。这一过程不仅提升了数据的质量，还为后续的视觉-语言-动作模型训练提供了更为全面的基础。

特点

ShowUI-desktop-8K数据集包含了7496个训练样本，每个样本均包含图像URL、图像数据、指令文本、边界框坐标、关键点坐标以及类型信息。这些特征使得该数据集在PC端界面理解任务中具有显著优势，能够支持复杂的视觉-语言交互任务。数据集的高质量标注和多样性使其成为训练和评估GUI视觉代理模型的理想选择。

使用方法

使用ShowUI-desktop-8K数据集时，用户可以通过Hugging Face平台直接下载数据文件，并利用提供的训练样本进行模型训练。数据集的结构清晰，支持多种任务，如界面元素识别、指令理解和空间关系推理。用户还可以参考GitHub和arXiv上的相关资源，快速上手并应用于实际项目中。通过引用相关论文，用户能够进一步了解数据集的技术细节和应用场景。

背景与挑战

背景概述

ShowUI-desktop-8K数据集由ShowLab团队于2024年发布，专注于PC端用户界面（UI）的视觉定位任务。该数据集基于OmniAct数据集，通过GPT-4o技术对原始标注进行了增强，涵盖了外观、空间关系和功能意图等多维度属性。其核心研究问题在于如何通过视觉语言模型实现对图形用户界面的精准理解与交互。该数据集的发布为GUI视觉代理领域提供了重要的基准资源，推动了视觉语言模型在UI自动化任务中的应用。

当前挑战

ShowUI-desktop-8K数据集在解决UI视觉定位问题时面临多重挑战。首先，UI元素的多样性和复杂性要求模型具备高精度的视觉识别能力，以区分不同控件及其功能。其次，空间关系的标注需要精确捕捉元素之间的相对位置，这对数据标注的准确性和一致性提出了较高要求。在构建过程中，团队需克服数据来源的局限性，并通过GPT-4o技术对标注进行扩展，以确保数据的丰富性和多样性。此外，如何将视觉信息与语言指令有效结合，以实现对UI的智能化操作，也是该数据集面临的核心挑战之一。

常用场景

经典使用场景

ShowUI-desktop-8K数据集在计算机视觉与自然语言处理交叉领域的研究中，被广泛应用于图形用户界面（GUI）的视觉代理任务。该数据集通过提供丰富的PC屏幕截图及其对应的标注信息，支持模型在理解用户界面元素及其功能的基础上进行交互。研究者可以利用该数据集训练和评估视觉语言模型，使其能够准确识别界面元素并执行相应的操作。

衍生相关工作

ShowUI-desktop-8K数据集的发布催生了一系列相关研究，特别是在视觉语言模型和GUI交互领域。基于该数据集，研究者提出了多种新颖的模型架构和训练方法，如多模态融合网络和基于强化学习的界面操作策略。这些工作不仅提升了模型在GUI任务中的表现，还为其他多模态任务提供了借鉴。此外，该数据集还被用于评估现有模型的泛化能力，推动了视觉语言模型的进一步发展。

数据集最近研究