five

Yuxiang007/AMEX

收藏
Hugging Face2024-06-22 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/Yuxiang007/AMEX
下载链接
链接失效反馈
官方服务:
资源简介:
AMEX数据集包含三个主要部分:1) `instruction_anno`文件夹,其中包含带有GUI操作链的指令,存储为`json`文件;2) `element_anno`文件夹,包含元素注释(如边界框、功能、截图描述等),也存储为`json`文件;3) `screenshot`文件夹,包含AMEX的截图。当前仓库仅包含数据集的一个样本,完整数据集将在未来发布。

The AMEX dataset consists of three main parts: 1) the `instruction_anno` folder, which contains instructions with GUI-action chains stored in `json` files; 2) the `element_anno` folder, containing element annotations (such as bounding boxes, functionalities, screenshot descriptions, etc.) stored in `json` files; and 3) the `screenshot` folder, which contains screenshots from AMEX. The current repository includes only a sample of the dataset, with the full dataset to be released in the future.
提供机构:
Yuxiang007
原始信息汇总

AMEX 数据集

概述

  • 数据集包含AMEX的部分数据样本,完整数据集即将发布。

文件结构

  • instruction_anno 文件夹:
    • 包含带有GUI动作链的指令,存储在json文件中。
  • element_anno 文件夹:
    • 包含元素注释(边界框、功能、截图描述等),存储在json文件中。
  • screenshot 文件夹:
    • 包含AMEX的截图。

许可证

  • CC BY 4.0
搜集汇总
数据集介绍
main_image_url
构建方式
在移动图形用户界面智能体研究领域,AMEX数据集通过系统化方法构建而成。该数据集采集了丰富的Android应用界面截图,并在此基础上进行了多层次标注。构建过程涉及对界面元素的精细标注,包括边界框定位、功能分类以及屏幕描述,同时整合了指令与GUI操作链的对应关系。数据以结构化JSON格式存储,确保了标注的一致性与可扩展性,为后续研究提供了坚实的数据基础。
特点
AMEX数据集展现出多维度标注的鲜明特色,其核心在于融合了指令注解、元素注解及屏幕截图三大模块。数据集不仅涵盖界面元素的几何与功能信息,还提供了详尽的屏幕描述与操作链关联,支持从视觉感知到行为决策的完整研究链路。此外,数据集经过精心设计,适用于多种评测基准,如ScreenSpot与AndroidControl,体现了其在移动GUI智能体领域的广泛适用性与前沿性。
使用方法
研究者可通过HuggingFace平台获取AMEX数据集的样本或完整版本,其中完整数据集因规模较大而采用分卷压缩格式。使用前需下载所有压缩文件并通过命令行工具进行合并与解压。数据集可直接用于训练与评估移动界面智能体模型,特别是在元素定位、指令跟随及交互任务等场景中。用户可依据标注的JSON文件解析界面结构与操作逻辑,结合截图实现端到端的实验设计与性能验证。
背景与挑战
背景概述
在移动计算与人工智能交叉领域,图形用户界面(GUI)的智能理解与交互是推动自动化代理发展的核心。AMEX数据集由Yuxiang Chai等研究人员于2024年创建,旨在为Android移动GUI代理提供多维度标注资源。该数据集聚焦于解决移动界面元素的细粒度识别、功能解析以及基于指令的动作链生成等关键问题,其丰富的标注层次(如L1、L2、L3)为界面理解、任务自动化及智能助手等研究方向奠定了数据基础,显著提升了移动GUI智能体的泛化与执行能力。
当前挑战
AMEX数据集致力于应对移动GUI智能体领域的两大核心挑战:一是如何实现跨应用、跨界面的通用元素定位与功能理解,这要求模型在多样化的屏幕布局与交互模式中保持鲁棒性;二是在数据构建过程中,面临大规模GUI截图的高质量多维度标注难题,包括边界框的精确标注、元素功能的语义归纳以及动作链的逻辑连贯性保证,这些都需要耗费大量人力进行精细处理与校验。
常用场景
经典使用场景
在移动图形用户界面(GUI)智能体研究领域,AMEX数据集以其多模态标注特性,为模型训练与评估提供了标准化基准。该数据集整合了屏幕截图、元素边界框、功能描述及操作指令链,典型应用场景集中于端到端GUI理解与交互任务的监督学习。研究者可基于其结构化标注,训练模型执行如元素定位、意图解析及动作序列生成等核心任务,从而推动移动界面自动化代理的算法发展。
实际应用
在实际应用层面,AMEX数据集为开发智能移动辅助工具与自动化测试系统提供了关键数据支撑。基于其丰富的界面标注,可训练模型实现无障碍交互支持,例如为视障用户提供屏幕内容描述与导航;同时,在软件工程领域,该数据集能助力自动化GUI测试框架的构建,通过模拟用户操作序列,高效完成应用界面的功能验证与兼容性检测,从而提升移动应用的开发效率与质量保障。
衍生相关工作
围绕AMEX数据集,已衍生出多项具有影响力的研究工作。例如,其在ScreenSpot基准的移动子集上被用于纯视觉元素定位任务的评估,显著提升了模型在跨应用界面中的元素检索精度。同时,该数据集亦被整合至AndroidControl等交互基准中,通过增强训练数据多样性,大幅强化了模型在复杂操作序列规划与控制任务上的性能,为后续移动GUI智能体的多任务学习与迁移研究奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作