five

ShowUI-desktop-8K|GUI视觉代理数据集|UI定位数据集

收藏
github2024-11-27 更新2024-11-28 收录
GUI视觉代理
UI定位
下载链接:
https://github.com/showlab/ShowUI
下载链接
链接失效反馈
资源简介:
ShowUI-desktop-8K 是一个用于GUI视觉代理的UI定位数据集,包含8K个桌面界面截图和相应的定位信息。
创建时间:
2024-10-31
原始信息汇总

ShowUI 数据集概述

数据集简介

ShowUI 是一个轻量级的视觉-语言-动作模型,专门用于 GUI 代理。

数据集发布信息

  • 发布日期: 2024.11.27
  • 数据集名称: ShowUI-desktop-8K
  • 数据集链接: ShowUI-desktop-8K

数据集内容

  • UI Grounding 数据: 包含用于 UI 元素定位的数据。
  • UI Navigation 数据: 包含用于 UI 导航的数据。

数据集使用示例

UI Grounding

python img_url = examples/web_dbd7514b-9ca3-40cd-b09a-990f7b955da1.png query = "Nahant"

_SYSTEM = "Based on the screenshot of the page, I give a text description and you give its corresponding location. The coordinate represents a clickable location [x, y] for an element, which is a relative coordinate on the screenshot, scaled from 0 to 1." messages = [ { "role": "user", "content": [ {"type": "text", "text": _SYSTEM}, {"type": "image", "image": img_url, "min_pixels": min_pixels, "max_pixels": max_pixels}, {"type": "text", "text": query} ], } ]

text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) image_inputs, video_inputs = process_vision_info(messages) inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt", ) inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128) generated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False )[0]

click_xy = ast.literal_eval(output_text)

[0.73, 0.21]

draw_point(img_url, click_xy, 10)

UI Navigation

python img_url = examples/chrome.png split=web system_prompt = _NAV_SYSTEM.format(_APP=split, _ACTION_SPACE=action_map[split]) query = "Search the weather for the New York city."

messages = [ { "role": "user", "content": [ {"type": "text", "text": system_prompt}, {"type": "image", "image": img_url, "min_pixels": min_pixels, "max_pixels": max_pixels}, {"type": "text", "text": query} ], } ]

text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) image_inputs, video_inputs = process_vision_info(messages) inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt", ) inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128) generated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False )[0]

print(output_text)

{action: CLICK, value: None, position: [0.49, 0.42]},

{action: INPUT, value: weather for New York city, position: [0.49, 0.42]},

{action: ENTER, value: None, position: None}

引用信息

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-desktop-8K数据集的构建基于视觉语言动作模型,旨在为GUI代理提供轻量级的视觉语言交互能力。该数据集通过收集和标注大量桌面应用界面的截图,结合文本描述和点击位置的相对坐标,构建了一个包含8000个样本的UI接地数据集。每个样本包括一个截图、一个文本查询以及对应的点击位置坐标,这些数据通过自动化工具和人工校验相结合的方式进行标注,确保了数据的高质量和一致性。
特点
ShowUI-desktop-8K数据集的主要特点在于其高度结构化的数据格式和丰富的视觉语言交互信息。每个样本不仅包含图像和文本,还精确标注了用户交互的点击位置,这使得数据集非常适合用于训练和评估视觉语言模型在实际应用中的表现。此外,数据集的多样性和广泛覆盖的桌面应用场景,使其在跨应用和跨任务的泛化能力测试中具有显著优势。
使用方法
使用ShowUI-desktop-8K数据集时,用户首先需要安装必要的依赖库,并通过克隆GitHub仓库获取数据集文件。随后,用户可以通过加载预训练的视觉语言模型,如ShowUI-2B,并使用提供的处理器和生成器脚本,对数据集中的图像和文本进行处理和推理。具体操作包括加载模型、处理输入数据、生成点击位置坐标,并通过可视化工具展示结果。数据集的详细使用方法和示例代码均在GitHub页面中提供,方便用户快速上手和应用。
背景与挑战
背景概述
ShowUI-desktop-8K数据集由Showlab于2024年11月发布,旨在支持轻量级视觉-语言-动作模型(Vision-Language-Action Model)在GUI代理中的应用。该数据集的核心研究问题是如何有效地结合视觉、语言和动作信息,以实现更智能的图形用户界面(GUI)交互。主要研究人员包括Kevin Qinghong Lin、Linjie Li等,他们的研究成果已发表在arXiv上,并被广泛应用于GUI智能代理的开发中,对提升用户体验和界面操作效率具有重要影响。
当前挑战
ShowUI-desktop-8K数据集在构建过程中面临多项挑战。首先,如何准确地从复杂的GUI界面中提取视觉和语言信息,并将其与动作指令有效结合,是一个技术难题。其次,数据集的规模和多样性要求高,以确保模型在不同应用场景下的泛化能力。此外,数据集的实时更新和维护也是一个持续的挑战,以适应不断变化的GUI设计和用户需求。这些挑战不仅涉及数据处理和模型训练,还包括对用户体验和操作效率的持续优化。
常用场景
经典使用场景
ShowUI-desktop-8K数据集在视觉语言动作模型(VLA)领域中,主要用于训练和评估GUI代理的视觉定位和导航能力。通过该数据集,研究者可以训练模型识别和操作桌面应用程序中的各种UI元素,如按钮、输入框和菜单等。这种能力使得模型能够在复杂的用户界面中进行精确的交互操作,从而实现自动化任务执行和用户界面测试。
实际应用
在实际应用中,ShowUI-desktop-8K数据集被广泛用于开发自动化测试工具和用户界面自动化代理。例如,软件开发公司可以利用该数据集训练模型,自动执行复杂的用户界面测试任务,从而提高测试效率和覆盖率。此外,该数据集还可用于开发智能助手,帮助用户在复杂的桌面应用程序中进行导航和操作,提升用户体验和工作效率。
衍生相关工作
基于ShowUI-desktop-8K数据集,研究者们开发了多种视觉语言动作模型,这些模型在用户界面自动化和智能助手领域取得了显著成果。例如,一些研究团队利用该数据集训练的模型,成功实现了跨平台的用户界面自动化测试,显著提高了测试的准确性和效率。此外,还有研究者将该数据集应用于开发智能办公助手,帮助用户在复杂的办公软件中进行高效操作,提升了办公自动化水平。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作