five

ShowUI-desktop-8K|UI定位数据集|数据增强数据集

收藏
huggingface2024-11-27 更新2024-12-12 收录
UI定位
数据增强
下载链接:
https://huggingface.co/datasets/showlab/ShowUI-desktop-8K
下载链接
链接失效反馈
资源简介:
ShowUI-desktop-8K是一个专注于PC端UI定位的数据集,包含从OmniAct数据集获取的截图和注释。通过GPT-4o模型对原始注释进行了增强,添加了外观、空间关系和预期功能等多种属性。数据集包含训练集,共有7496个样本,总大小为16591347652.088字节。
创建时间:
2024-11-27
原始信息汇总

ShowUI-desktop-8K 数据集概述

数据集信息

特征

  • image_url: 字符串类型
  • image: 图像类型
  • instruction: 字符串类型
  • bbox: 浮点数序列类型
  • point: 浮点数序列类型
  • type: 字符串类型

分割

  • train: 包含7496个样本,数据大小为16591347652.088字节

数据大小

  • 下载大小: 327573839字节
  • 数据集大小: 16591347652.088字节

配置

  • default: 数据文件路径为data/train-*

数据集来源

  • 基于PC的UI定位数据集,截图和注释最初来源于OmniAct
  • 使用GPT-4o增强原始注释,丰富了外观、空间关系和预期功能等多样属性。

引用

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-desktop-8K数据集的构建基于PC端的界面截图及其标注,原始数据来源于OmniAct数据集。为了增强数据的多样性和丰富性,研究团队利用GPT-4o对原始标注进行了扩展,增加了诸如外观、空间关系和功能意图等多维度的属性信息。这一过程不仅提升了数据的质量,还为后续的视觉-语言-动作模型训练提供了更为全面的基础。
特点
ShowUI-desktop-8K数据集包含了7496个训练样本,每个样本均包含图像URL、图像数据、指令文本、边界框坐标、关键点坐标以及类型信息。这些特征使得该数据集在PC端界面理解任务中具有显著优势,能够支持复杂的视觉-语言交互任务。数据集的高质量标注和多样性使其成为训练和评估GUI视觉代理模型的理想选择。
使用方法
使用ShowUI-desktop-8K数据集时,用户可以通过Hugging Face平台直接下载数据文件,并利用提供的训练样本进行模型训练。数据集的结构清晰,支持多种任务,如界面元素识别、指令理解和空间关系推理。用户还可以参考GitHub和arXiv上的相关资源,快速上手并应用于实际项目中。通过引用相关论文,用户能够进一步了解数据集的技术细节和应用场景。
背景与挑战
背景概述
ShowUI-desktop-8K数据集由ShowLab团队于2024年发布,专注于PC端用户界面(UI)的视觉定位任务。该数据集基于OmniAct数据集,通过GPT-4o技术对原始标注进行了增强,涵盖了外观、空间关系和功能意图等多维度属性。其核心研究问题在于如何通过视觉语言模型实现对图形用户界面的精准理解与交互。该数据集的发布为GUI视觉代理领域提供了重要的基准资源,推动了视觉语言模型在UI自动化任务中的应用。
当前挑战
ShowUI-desktop-8K数据集在解决UI视觉定位问题时面临多重挑战。首先,UI元素的多样性和复杂性要求模型具备高精度的视觉识别能力,以区分不同控件及其功能。其次,空间关系的标注需要精确捕捉元素之间的相对位置,这对数据标注的准确性和一致性提出了较高要求。在构建过程中,团队需克服数据来源的局限性,并通过GPT-4o技术对标注进行扩展,以确保数据的丰富性和多样性。此外,如何将视觉信息与语言指令有效结合,以实现对UI的智能化操作,也是该数据集面临的核心挑战之一。
常用场景
经典使用场景
ShowUI-desktop-8K数据集在计算机视觉与自然语言处理交叉领域的研究中,被广泛应用于图形用户界面(GUI)的视觉代理任务。该数据集通过提供丰富的PC屏幕截图及其对应的标注信息,支持模型在理解用户界面元素及其功能的基础上进行交互。研究者可以利用该数据集训练和评估视觉语言模型,使其能够准确识别界面元素并执行相应的操作。
衍生相关工作
ShowUI-desktop-8K数据集的发布催生了一系列相关研究,特别是在视觉语言模型和GUI交互领域。基于该数据集,研究者提出了多种新颖的模型架构和训练方法,如多模态融合网络和基于强化学习的界面操作策略。这些工作不仅提升了模型在GUI任务中的表现,还为其他多模态任务提供了借鉴。此外,该数据集还被用于评估现有模型的泛化能力,推动了视觉语言模型的进一步发展。
数据集最近研究
最新研究方向
在计算机视觉与自然语言处理交叉领域,ShowUI-desktop-8K数据集为PC端用户界面(UI)的视觉理解与交互任务提供了重要支持。该数据集通过结合GPT-4o的强大生成能力,对原始标注进行了多维度扩展,涵盖了外观、空间关系及功能意图等丰富属性。这一创新不仅提升了数据集的质量,还为UI视觉代理的研究开辟了新的方向。当前,研究者们正致力于利用该数据集开发更高效的视觉-语言-动作模型,以实现在复杂桌面环境中的自动化任务执行。这一研究方向与智能助手、自动化办公等热点应用紧密相关,具有广泛的实际应用前景。通过推动UI视觉代理技术的发展,ShowUI-desktop-8K有望在提升人机交互效率、降低操作复杂度等方面产生深远影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度,中国近海台风路径数据集,包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。 数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据,经过处理整合后形成文件,如使用csv文件需使用文本编辑器打开浏览,否则会出现乱码,如要使用excel查看数据,请使用xlsx的格式。

国家海洋科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录