five

ShowUI-desktop-8K|UI定位数据集|数据增强数据集

收藏
huggingface2024-11-27 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/showlab/ShowUI-desktop-8K
下载链接
链接失效反馈
资源简介:
ShowUI-desktop-8K是一个专注于PC端UI定位的数据集,包含从OmniAct数据集获取的截图和注释。通过GPT-4o模型对原始注释进行了增强,添加了外观、空间关系和预期功能等多种属性。数据集包含训练集,共有7496个样本,总大小为16591347652.088字节。
创建时间:
2024-11-27
原始信息汇总

ShowUI-desktop-8K 数据集概述

数据集信息

特征

  • image_url: 字符串类型
  • image: 图像类型
  • instruction: 字符串类型
  • bbox: 浮点数序列类型
  • point: 浮点数序列类型
  • type: 字符串类型

分割

  • train: 包含7496个样本,数据大小为16591347652.088字节

数据大小

  • 下载大小: 327573839字节
  • 数据集大小: 16591347652.088字节

配置

  • default: 数据文件路径为data/train-*

数据集来源

  • 基于PC的UI定位数据集,截图和注释最初来源于OmniAct
  • 使用GPT-4o增强原始注释,丰富了外观、空间关系和预期功能等多样属性。

引用

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-desktop-8K数据集的构建基于PC端的界面截图及其标注,原始数据来源于OmniAct数据集。为了增强数据的多样性和丰富性,研究团队利用GPT-4o对原始标注进行了扩展,增加了诸如外观、空间关系和功能意图等多维度的属性信息。这一过程不仅提升了数据的质量,还为后续的视觉-语言-动作模型训练提供了更为全面的基础。
特点
ShowUI-desktop-8K数据集包含了7496个训练样本,每个样本均包含图像URL、图像数据、指令文本、边界框坐标、关键点坐标以及类型信息。这些特征使得该数据集在PC端界面理解任务中具有显著优势,能够支持复杂的视觉-语言交互任务。数据集的高质量标注和多样性使其成为训练和评估GUI视觉代理模型的理想选择。
使用方法
使用ShowUI-desktop-8K数据集时,用户可以通过Hugging Face平台直接下载数据文件,并利用提供的训练样本进行模型训练。数据集的结构清晰,支持多种任务,如界面元素识别、指令理解和空间关系推理。用户还可以参考GitHub和arXiv上的相关资源,快速上手并应用于实际项目中。通过引用相关论文,用户能够进一步了解数据集的技术细节和应用场景。
背景与挑战
背景概述
ShowUI-desktop-8K数据集由ShowLab团队于2024年发布,专注于PC端用户界面(UI)的视觉定位任务。该数据集基于OmniAct数据集,通过GPT-4o技术对原始标注进行了增强,涵盖了外观、空间关系和功能意图等多维度属性。其核心研究问题在于如何通过视觉语言模型实现对图形用户界面的精准理解与交互。该数据集的发布为GUI视觉代理领域提供了重要的基准资源,推动了视觉语言模型在UI自动化任务中的应用。
当前挑战
ShowUI-desktop-8K数据集在解决UI视觉定位问题时面临多重挑战。首先,UI元素的多样性和复杂性要求模型具备高精度的视觉识别能力,以区分不同控件及其功能。其次,空间关系的标注需要精确捕捉元素之间的相对位置,这对数据标注的准确性和一致性提出了较高要求。在构建过程中,团队需克服数据来源的局限性,并通过GPT-4o技术对标注进行扩展,以确保数据的丰富性和多样性。此外,如何将视觉信息与语言指令有效结合,以实现对UI的智能化操作,也是该数据集面临的核心挑战之一。
常用场景
经典使用场景
ShowUI-desktop-8K数据集在计算机视觉与自然语言处理交叉领域的研究中,被广泛应用于图形用户界面(GUI)的视觉代理任务。该数据集通过提供丰富的PC屏幕截图及其对应的标注信息,支持模型在理解用户界面元素及其功能的基础上进行交互。研究者可以利用该数据集训练和评估视觉语言模型,使其能够准确识别界面元素并执行相应的操作。
衍生相关工作
ShowUI-desktop-8K数据集的发布催生了一系列相关研究,特别是在视觉语言模型和GUI交互领域。基于该数据集,研究者提出了多种新颖的模型架构和训练方法,如多模态融合网络和基于强化学习的界面操作策略。这些工作不仅提升了模型在GUI任务中的表现,还为其他多模态任务提供了借鉴。此外,该数据集还被用于评估现有模型的泛化能力,推动了视觉语言模型的进一步发展。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理交叉领域,ShowUI-desktop-8K数据集为PC端用户界面(UI)的视觉理解与交互任务提供了重要支持。该数据集通过结合GPT-4o的强大生成能力,对原始标注进行了多维度扩展,涵盖了外观、空间关系及功能意图等丰富属性。这一创新不仅提升了数据集的质量,还为UI视觉代理的研究开辟了新的方向。当前,研究者们正致力于利用该数据集开发更高效的视觉-语言-动作模型,以实现在复杂桌面环境中的自动化任务执行。这一研究方向与智能助手、自动化办公等热点应用紧密相关,具有广泛的实际应用前景。通过推动UI视觉代理技术的发展,ShowUI-desktop-8K有望在提升人机交互效率、降低操作复杂度等方面产生深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作