Aria-UI_Data|图形用户界面数据集|指令理解数据集
收藏Aria-UI 数据集概述
数据集标签
- GUI
- GUI Grounding
- GUI Agent
- Computer_Use
关键特性
- 多样化的指令理解能力:Aria-UI 能够处理多种形式的指令,适应动态场景或与不同规划代理配合使用。
- 上下文感知的定位能力:Aria-UI 能够有效利用历史输入(纯文本或文本-图像交替格式)来提高定位准确性。
- 轻量且快速:Aria-UI 是一个专家混合模型,每个令牌激活的参数为 3.9B,能够高效编码不同大小和宽高比的 GUI 输入,并支持超分辨率。
- 卓越的性能:Aria-UI 在离线和在线代理基准测试中取得了新的最先进成果。在 AndroidWorld 上以 44.8% 的任务成功率获得第一名,在 OSWorld 上以 15.2% 的任务成功率获得第三名(2024 年 12 月)。
引用
如果您觉得我们的工作有帮助,请考虑引用以下文献: bibtex @article{ariaui, title={Aria-UI: Visual Grounding for GUI Instructions}, author={Yuhao Yang and Yue Wang and Dongxu Li and Ziyang Luo and Bei Chen and Chao Huang and Junnan Li}, year={2024}, journal={arXiv preprint arXiv:2412.16256}, }

CatMeows
该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。
huggingface 收录
DroneVehicle 大规模无人机航拍车辆检测数据集
这个数据集是天津大学的研究团队在进行无人机航拍图像的车辆检测和计数研究过程中收集和标注的。研究团队于 2020 年发布,相关论文成果为「Drone-based RGB-Infrared Cross-Modality Vehicle Detection via Uncertainty-Aware Learning」。
超神经 收录
望诊影像数据集及诊断文本数据集
中医望诊数据集包含舌诊图片3000张、面诊图片2000张、目诊图片3000张,舌诊图片的内容部分为舌头(属口颌系统),面诊图片的内容部分包括了面和唇(属其他系统)、眼睛部分做了脱敏处理,目诊图片的内容部分为眼睛(属感觉系统)。该数据集提供舌诊图像的齿痕、裂纹、点刺、苔色、胖瘦的标注信息;以及面诊图像的唇色、唇形、面神的标注信息;目诊图像的特征属性包括颜色名称、颜色HSL值、大小、特征出处。
国家人口健康科学数据中心 收录
FAOSTAT Agricultural Data
FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。
www.fao.org 收录
China Air Quality Historical Data
该数据集包含了中国多个城市的空气质量历史数据,涵盖了PM2.5、PM10、SO2、NO2、CO、O3等污染物浓度以及空气质量指数(AQI)等信息。数据按小时记录,提供了详细的空气质量监测数据。
www.cnemc.cn 收录