GUI-World|多模态语言模型数据集|图形用户界面数据集

huggingface2024-06-23 更新2024-12-12 收录

多模态语言模型

图形用户界面

下载链接：

https://huggingface.co/datasets/shuaishuaicdp/GUI-World

下载链接

链接失效反馈

资源简介：

GUI-World是一个专为评估多模态大型语言模型在动态和复杂图形用户界面环境中的表现而设计的全面基准。该数据集包含六个GUI场景和八种GUI导向的问答类型，旨在评估和提升模型处理动态和多步骤任务的能力，为未来研究提供基础，以增强模型对动态GUI内容的理解和交互能力。

创建时间：

2024-06-13

原始信息汇总

GUI-World 数据集概述

基本信息

任务类别: 问答、文本生成
语言: 英语
数据集大小: 10K<n<100K
数据集名称: GUI-World

概述

GUI-World 引入了一个全面的基准，用于评估多模态大型语言模型（MLLMs）在动态和复杂图形用户界面（GUI）环境中的表现。该数据集包含六个 GUI 场景和八种类型的 GUI 导向问题，提供了广泛的注释。它评估了最先进的图像大型语言模型（ImageLLMs）和视频大型语言模型（VideoLLMs），并强调了它们在处理动态和多步骤任务方面的局限性。GUI-World 旨在推动开发能够感知和与静态及动态 GUI 元素交互的强大 GUI 代理。

使用方法

有关详细信息，请参阅 Github。基于 GUI-World，我们训练了第一个具有强大 GUI 理解能力的视频大型语言模型 GUI-Vid。

许可证

该工作根据 Creative Commons Attribution 4.0 International License 进行许可。

引用

@article{chen2024gui, title={GUI-WORLD: A Dataset for GUI-Orientated Multimodal Large Language Models}, author={GUI-World Team}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

GUI-World数据集的构建旨在为多模态大语言模型（MLLMs）在动态和复杂图形用户界面（GUI）环境中的评估提供一个全面的基准。该数据集通过涵盖六种GUI场景和八种GUI导向问题的广泛注释，系统地评估了当前最先进的图像和视频大语言模型在处理动态和多步骤任务时的局限性。数据集的构建过程包括对GUI元素的静态和动态特性进行详细标注，以确保其能够全面反映真实世界中的GUI交互场景。

特点

GUI-World数据集的特点在于其丰富的多模态内容和多样化的任务设置。它不仅包含了大量的GUI场景和问题类型，还特别关注了动态GUI元素的处理能力。数据集中的每个样本都经过精心设计，以确保其能够有效评估模型在复杂GUI环境中的理解和交互能力。此外，数据集还提供了详细的注释和评估指标，帮助研究者深入分析模型的表现，并为未来的研究提供了坚实的基础。

使用方法

使用GUI-World数据集时，研究者可以通过访问其GitHub页面获取详细的使用指南和代码示例。数据集支持多种任务类型，包括问答和文本生成，适用于训练和评估多模态大语言模型。基于该数据集，研究者可以训练具有强大GUI理解能力的视频大语言模型，如GUI-Vid。通过结合数据集的丰富注释和评估指标，研究者能够深入分析模型在动态GUI环境中的表现，并推动相关领域的研究进展。

背景与挑战

背景概述

GUI-World数据集由GUI-World团队于2024年推出，旨在为多模态大语言模型（MLLMs）在动态和复杂的图形用户界面（GUI）环境中的评估提供基准。该数据集涵盖了六种GUI场景和八种与GUI相关的问题类型，旨在评估当前最先进的图像和视频大语言模型在处理动态和多步骤任务时的局限性。通过提供丰富的注释和多样化的任务，GUI-World为未来研究提供了重要的基础，推动了能够感知和交互静态与动态GUI元素的强大GUI代理的发展。该数据集的发布标志着GUI领域与多模态大语言模型结合的重要进展，为相关领域的研究者提供了新的研究方向。

当前挑战

GUI-World数据集在构建和应用过程中面临多重挑战。首先，动态GUI环境的复杂性要求模型能够处理多步骤任务和实时变化，这对现有的图像和视频大语言模型提出了极高的要求。其次，数据集的构建需要精确的标注和多样化的场景设计，以确保其能够全面反映真实世界的GUI交互需求。此外，如何有效评估模型在动态环境中的表现，以及如何提升模型对GUI元素的理解和交互能力，也是该数据集面临的核心挑战。这些挑战不仅推动了数据集的优化，也为未来研究提供了重要的参考方向。

常用场景

经典使用场景

GUI-World数据集在评估多模态大语言模型（MLLMs）在动态和复杂图形用户界面（GUI）环境中的表现方面具有重要应用。该数据集通过涵盖六种GUI场景和八种GUI导向问题的广泛注释，为研究者提供了一个全面的基准测试平台。经典使用场景包括对现有ImageLLMs和VideoLLMs的评估，揭示其在处理动态和多步骤任务时的局限性，从而推动模型在GUI内容理解和交互能力上的提升。

实际应用

在实际应用中，GUI-World数据集可用于开发智能助手和自动化工具，帮助用户更高效地与图形用户界面进行交互。例如，该数据集可以用于训练能够理解复杂GUI操作的智能代理，从而在软件测试、用户行为分析和自动化任务执行等领域发挥重要作用。通过提升模型对GUI的理解能力，该数据集为实际应用场景中的智能化交互提供了技术支持。

衍生相关工作

基于GUI-World数据集，研究者开发了首个具有强大GUI理解能力的VideoLLM模型——GUI-Vid。该模型在动态GUI任务处理中表现出色，为后续研究提供了重要参考。此外，GUI-World数据集还激发了更多关于多模态大语言模型在GUI环境中应用的研究，推动了该领域的进一步发展。相关研究不仅在学术界引起了广泛关注，也为工业界的实际应用提供了新的思路。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接： MP 2018.6.1（69,239 个材料） MP 2019.4.1（133,420 个材料）

OpenDataLab 收录

Plant-Diseases

Dataset for Plant Diseases containg variours Plant Disease

kaggle 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录

ChineseSafe

ChineseSafe是由南方科技大学统计与数据科学系创建的一个中文安全评估基准数据集，旨在评估大型语言模型在识别中文不安全内容方面的能力。该数据集包含205,034个样本，涵盖4个类别和10个子类别的安全问题，特别关注政治敏感性、色情内容和变体/同音词等新型安全问题。数据集通过从开源数据集和互联网资源中收集数据，经过数据清洗和去重处理，确保了数据集的高质量和多样性。ChineseSafe的应用领域主要集中在大型语言模型的安全评估，旨在帮助开发者和研究者提升模型在实际应用中的安全性。

arXiv 收录