five

Aria-UI_Data|图形用户界面数据集|指令理解数据集

收藏
huggingface2024-12-25 更新2024-12-26 收录
图形用户界面
指令理解
下载链接:
https://huggingface.co/datasets/Aria-UI/Aria-UI_Data
下载链接
链接失效反馈
资源简介:
Aria-UI是一个专注于图形用户界面(GUI)指令视觉基础的数据集。它具有多功能的基础指令理解能力,能够处理各种格式的指令,并在动态场景或与不同规划代理配对时表现出强大的适应性。Aria-UI还具备上下文感知的基础能力,能够有效利用历史输入(无论是纯文本还是文本-图像交错格式)来提高基础准确性。该数据集采用轻量级和快速处理的混合专家模型,每个令牌激活3.9B参数,并支持超分辨率编码。Aria-UI在多个基准测试中取得了优异的成绩,包括在AndroidWorld上以44.8%的任务成功率获得第一名,在OSWorld上以15.2%的任务成功率获得第三名(截至2024年12月)。
创建时间:
2024-12-18
原始信息汇总

Aria-UI 数据集概述

数据集标签

  • GUI
  • GUI Grounding
  • GUI Agent
  • Computer_Use

关键特性

  • 多样化的指令理解能力:Aria-UI 能够处理多种形式的指令,适应动态场景或与不同规划代理配合使用。
  • 上下文感知的定位能力:Aria-UI 能够有效利用历史输入(纯文本或文本-图像交替格式)来提高定位准确性。
  • 轻量且快速:Aria-UI 是一个专家混合模型,每个令牌激活的参数为 3.9B,能够高效编码不同大小和宽高比的 GUI 输入,并支持超分辨率。
  • 卓越的性能:Aria-UI 在离线和在线代理基准测试中取得了新的最先进成果。在 AndroidWorld 上以 44.8% 的任务成功率获得第一名,在 OSWorld 上以 15.2% 的任务成功率获得第三名(2024 年 12 月)。

引用

如果您觉得我们的工作有帮助,请考虑引用以下文献: bibtex @article{ariaui, title={Aria-UI: Visual Grounding for GUI Instructions}, author={Yuhao Yang and Yue Wang and Dongxu Li and Ziyang Luo and Bei Chen and Chao Huang and Junnan Li}, year={2024}, journal={arXiv preprint arXiv:2412.16256}, }

AI搜集汇总
数据集介绍
main_image_url
构建方式
Aria-UI数据集专注于图形用户界面(GUI)的视觉定位任务,其构建过程结合了多模态数据的处理技术。数据集通过收集和标注多样化的GUI指令,涵盖了文本、图像以及文本-图像交织的多种格式。这些数据经过精细的预处理和标注,确保了模型能够有效理解和执行复杂的GUI操作指令。此外,数据集的构建还考虑了历史输入的上下文信息,以提升模型在实际应用中的适应性和准确性。
使用方法
Aria-UI数据集的使用方法主要围绕其多模态数据处理能力展开。用户可以通过加载预训练的模型检查点,直接应用于GUI指令的视觉定位任务。数据集支持文本、图像以及文本-图像交织的输入格式,用户可以根据具体需求选择合适的输入方式。此外,Aria-UI提供了高效的编码机制,能够处理不同尺寸和比例的GUI元素,确保在各种应用场景中的灵活性和高效性。用户还可以通过微调模型,进一步提升其在特定任务中的表现。
背景与挑战
背景概述
Aria-UI数据集由Yuhao Yang等研究人员于2024年提出,旨在解决图形用户界面(GUI)指令的视觉定位问题。该数据集的核心研究问题是通过多模态输入(如文本和图像)实现对GUI指令的精准理解和执行。Aria-UI不仅在离线基准测试中表现优异,还在AndroidWorld和OSWorld等在线代理基准测试中取得了显著成绩,分别以44.8%和15.2%的任务成功率位居前列。这一成果为GUI代理和自动化工具的发展提供了重要支持,推动了人机交互领域的进步。
当前挑战
Aria-UI数据集在解决GUI指令视觉定位问题时面临多重挑战。首先,GUI指令的多样性和动态性要求模型具备强大的适应能力,能够处理不同格式和复杂场景下的指令。其次,上下文感知的精准度提升依赖于历史输入的充分利用,这对模型的多模态融合能力提出了更高要求。此外,尽管Aria-UI采用了轻量化的混合专家模型设计,但在处理超分辨率输入和可变尺寸的GUI元素时,仍需优化计算效率和资源消耗。这些挑战不仅影响了模型的性能上限,也为未来研究提供了重要的改进方向。
常用场景
经典使用场景
Aria-UI数据集在图形用户界面(GUI)领域的研究中,主要用于理解和执行基于GUI的指令。该数据集通过其强大的多模态理解能力,能够处理文本与图像交织的复杂指令,广泛应用于自动化测试、智能助手和用户行为分析等场景。其高效的模型架构和超分辨率支持,使其在处理高分辨率GUI界面时表现出色,为GUI智能代理的开发提供了坚实的基础。
解决学术问题
Aria-UI数据集解决了GUI指令理解中的多个关键学术问题,特别是在多模态指令解析和上下文感知方面。通过其上下文感知能力,该数据集能够有效利用历史输入信息,显著提高了指令解析的准确性。此外,其轻量级和快速响应的特性,使得在动态场景下的GUI指令理解更加高效,为GUI智能代理的研究提供了新的技术路径。
实际应用
在实际应用中,Aria-UI数据集被广泛用于开发智能GUI代理,这些代理能够自动执行复杂的用户界面操作,如自动化测试、用户行为模拟和智能助手功能。其高效的指令理解能力和超分辨率支持,使得在真实世界的高分辨率GUI界面中,智能代理能够准确执行任务,极大地提高了工作效率和用户体验。
数据集最近研究
最新研究方向
在图形用户界面(GUI)领域,Aria-UI数据集的研究正聚焦于提升视觉基础任务的理解与执行能力。该数据集通过其多样化的基础指令理解和上下文感知能力,显著提高了GUI代理在动态场景中的适应性。特别是在与不同规划代理结合时,Aria-UI展现了卓越的鲁棒性和准确性。此外,其轻量级和快速响应的特性,使得处理各种尺寸和比例的GUI输入成为可能,同时支持超高分辨率。在最新的研究中,Aria-UI已在AndroidWorld和OSWorld等基准测试中取得了领先的成绩,这不仅验证了其在GUI基础任务中的高效性,也为未来的GUI代理技术发展提供了新的方向。这些进展对于推动人机交互技术的创新和实际应用具有重要意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

DroneVehicle 大规模无人机航拍车辆检测数据集

这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。

超神经 收录

望诊影像数据集及诊断文本数据集

中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。

国家人口健康科学数据中心 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

China Air Quality Historical Data

该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。

www.cnemc.cn 收录