five

ShowUI-desktop-8K|GUI视觉代理数据集|UI定位数据集

收藏
github2024-11-27 更新2024-11-28 收录
GUI视觉代理
UI定位
下载链接:
https://github.com/showlab/ShowUI
下载链接
链接失效反馈
资源简介:
ShowUI-desktop-8K 是一个用于GUI视觉代理的UI定位数据集,包含8K个桌面界面截图和相应的定位信息。
创建时间:
2024-10-31
原始信息汇总

ShowUI 数据集概述

数据集简介

ShowUI 是一个轻量级的视觉-语言-动作模型,专门用于 GUI 代理。

数据集发布信息

  • 发布日期: 2024.11.27
  • 数据集名称: ShowUI-desktop-8K
  • 数据集链接: ShowUI-desktop-8K

数据集内容

  • UI Grounding 数据: 包含用于 UI 元素定位的数据。
  • UI Navigation 数据: 包含用于 UI 导航的数据。

数据集使用示例

UI Grounding

python img_url = examples/web_dbd7514b-9ca3-40cd-b09a-990f7b955da1.png query = "Nahant"

_SYSTEM = "Based on the screenshot of the page, I give a text description and you give its corresponding location. The coordinate represents a clickable location [x, y] for an element, which is a relative coordinate on the screenshot, scaled from 0 to 1." messages = [ { "role": "user", "content": [ {"type": "text", "text": _SYSTEM}, {"type": "image", "image": img_url, "min_pixels": min_pixels, "max_pixels": max_pixels}, {"type": "text", "text": query} ], } ]

text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) image_inputs, video_inputs = process_vision_info(messages) inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt", ) inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128) generated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False )[0]

click_xy = ast.literal_eval(output_text)

[0.73, 0.21]

draw_point(img_url, click_xy, 10)

UI Navigation

python img_url = examples/chrome.png split=web system_prompt = _NAV_SYSTEM.format(_APP=split, _ACTION_SPACE=action_map[split]) query = "Search the weather for the New York city."

messages = [ { "role": "user", "content": [ {"type": "text", "text": system_prompt}, {"type": "image", "image": img_url, "min_pixels": min_pixels, "max_pixels": max_pixels}, {"type": "text", "text": query} ], } ]

text = processor.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) image_inputs, video_inputs = process_vision_info(messages) inputs = processor( text=[text], images=image_inputs, videos=video_inputs, padding=True, return_tensors="pt", ) inputs = inputs.to("cuda")

generated_ids = model.generate(**inputs, max_new_tokens=128) generated_ids_trimmed = [ out_ids[len(in_ids) :] for in_ids, out_ids in zip(inputs.input_ids, generated_ids) ] output_text = processor.batch_decode( generated_ids_trimmed, skip_special_tokens=True, clean_up_tokenization_spaces=False )[0]

print(output_text)

{action: CLICK, value: None, position: [0.49, 0.42]},

{action: INPUT, value: weather for New York city, position: [0.49, 0.42]},

{action: ENTER, value: None, position: None}

引用信息

@misc{lin2024showui, title={ShowUI: One Vision-Language-Action Model for GUI Visual Agent}, author={Kevin Qinghong Lin and Linjie Li and Difei Gao and Zhengyuan Yang and Shiwei Wu and Zechen Bai and Weixian Lei and Lijuan Wang and Mike Zheng Shou}, year={2024}, eprint={2411.17465}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2411.17465}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
ShowUI-desktop-8K数据集的构建基于视觉语言动作模型,旨在为GUI代理提供轻量级的视觉语言交互能力。该数据集通过收集和标注大量桌面应用界面的截图,结合文本描述和点击位置的相对坐标,构建了一个包含8000个样本的UI接地数据集。每个样本包括一个截图、一个文本查询以及对应的点击位置坐标,这些数据通过自动化工具和人工校验相结合的方式进行标注,确保了数据的高质量和一致性。
特点
ShowUI-desktop-8K数据集的主要特点在于其高度结构化的数据格式和丰富的视觉语言交互信息。每个样本不仅包含图像和文本,还精确标注了用户交互的点击位置,这使得数据集非常适合用于训练和评估视觉语言模型在实际应用中的表现。此外,数据集的多样性和广泛覆盖的桌面应用场景,使其在跨应用和跨任务的泛化能力测试中具有显著优势。
使用方法
使用ShowUI-desktop-8K数据集时,用户首先需要安装必要的依赖库,并通过克隆GitHub仓库获取数据集文件。随后,用户可以通过加载预训练的视觉语言模型,如ShowUI-2B,并使用提供的处理器和生成器脚本,对数据集中的图像和文本进行处理和推理。具体操作包括加载模型、处理输入数据、生成点击位置坐标,并通过可视化工具展示结果。数据集的详细使用方法和示例代码均在GitHub页面中提供,方便用户快速上手和应用。
背景与挑战
背景概述
ShowUI-desktop-8K数据集由Showlab于2024年11月发布,旨在支持轻量级视觉-语言-动作模型(Vision-Language-Action Model)在GUI代理中的应用。该数据集的核心研究问题是如何有效地结合视觉、语言和动作信息,以实现更智能的图形用户界面(GUI)交互。主要研究人员包括Kevin Qinghong Lin、Linjie Li等,他们的研究成果已发表在arXiv上,并被广泛应用于GUI智能代理的开发中,对提升用户体验和界面操作效率具有重要影响。
当前挑战
ShowUI-desktop-8K数据集在构建过程中面临多项挑战。首先,如何准确地从复杂的GUI界面中提取视觉和语言信息,并将其与动作指令有效结合,是一个技术难题。其次,数据集的规模和多样性要求高,以确保模型在不同应用场景下的泛化能力。此外,数据集的实时更新和维护也是一个持续的挑战,以适应不断变化的GUI设计和用户需求。这些挑战不仅涉及数据处理和模型训练,还包括对用户体验和操作效率的持续优化。
常用场景
经典使用场景
ShowUI-desktop-8K数据集在视觉语言动作模型(VLA)领域中,主要用于训练和评估GUI代理的视觉定位和导航能力。通过该数据集,研究者可以训练模型识别和操作桌面应用程序中的各种UI元素,如按钮、输入框和菜单等。这种能力使得模型能够在复杂的用户界面中进行精确的交互操作,从而实现自动化任务执行和用户界面测试。
实际应用
在实际应用中,ShowUI-desktop-8K数据集被广泛用于开发自动化测试工具和用户界面自动化代理。例如,软件开发公司可以利用该数据集训练模型,自动执行复杂的用户界面测试任务,从而提高测试效率和覆盖率。此外,该数据集还可用于开发智能助手,帮助用户在复杂的桌面应用程序中进行导航和操作,提升用户体验和工作效率。
衍生相关工作
基于ShowUI-desktop-8K数据集,研究者们开发了多种视觉语言动作模型,这些模型在用户界面自动化和智能助手领域取得了显著成果。例如,一些研究团队利用该数据集训练的模型,成功实现了跨平台的用户界面自动化测试,显著提高了测试的准确性和效率。此外,还有研究者将该数据集应用于开发智能办公助手,帮助用户在复杂的办公软件中进行高效操作,提升了办公自动化水平。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

MedDialog

MedDialog数据集(中文)包含了医生和患者之间的对话(中文)。它有110万个对话和400万个话语。数据还在不断增长,会有更多的对话加入。原始对话来自好大夫网。

github 收录

CliMedBench

CliMedBench是一个大规模的中文医疗大语言模型评估基准,由华东师范大学等机构创建。该数据集包含33,735个问题,涵盖14个核心临床场景,主要来源于顶级三级医院的真实电子健康记录和考试练习。数据集的创建过程包括专家指导的数据选择和多轮质量控制,确保数据的真实性和可靠性。CliMedBench旨在评估和提升医疗大语言模型在临床决策支持、诊断和治疗建议等方面的能力,解决医疗领域中模型性能评估的不足问题。

arXiv 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录