five

OS-Atlas-data

收藏
Hugging Face2024-11-18 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/OS-Copilot/OS-Atlas-data
下载链接
链接失效反馈
官方服务:
资源简介:
GUI Grounding Pre-training Data for OS-ATLAS 是一个用于训练通用GUI代理的基础动作模型的预训练数据集。该数据集分为移动、桌面和网页三个领域,每个领域包含特定的子数据集,并以JSON格式存储标注数据。移动领域包括AMEX、UIBert、Widget Captioning、RICOSCA和Android_world_data等数据集。桌面领域涵盖Windows、Linux和MacOS环境的数据。网页领域包括Seeclick网页数据和Fineweb_crawled_data。数据集中的每个样本包含界面截图文件、人类指令或参考表达、目标元素的边界框(bbox)等信息。此外,README文件还提供了处理大文件的指导,这些文件被分割成多个部分,需要合并后使用。最后,README列出了作为数据源的开源数据集,并鼓励用户适当引用这些资源。
创建时间:
2024-11-11
原始信息汇总

GUI Grounding Pre-training Data for OS-ATLAS

数据集概述

  • 数据集名称: GUI Grounding Pre-training Data for OS-ATLAS
  • 数据集用途: 用于OS-ATLAS模型的预训练,该模型是一个通用GUI代理的基础动作模型。
  • 数据集内容: 包含移动、桌面和网页三个领域的元素定位信息。
  • 数据格式: JSON
  • 许可证: Apache 2.0

数据结构

每个样本包含以下字段:

  • img_filename: 界面截图文件名
  • instruction: 人类指令或从树或HTML中提取的引用表达式
  • bbox: 目标元素的边界框,表示为[left, top, right, bottom],值为[0, 1]的小数,表示相对于图像宽高的比例。
  • data_type: 记录元素类型的结构化信息(可选)

数据域

移动数据

  • 存储路径: mobile_domain
  • 数据来源:
    • AMEX: Android Multi-annotation EXpo
    • UIBert: 从Rico数据集扩展
    • Widget Captioning 和 RICOSCA
    • Android_world_data
  • 数据文件:
    • amex_raw.json, amex_images_part_*.zip
    • uibert_raw.json, UIBert.zip
    • widget_captioning.json, ricosca.json, rico_imgs.zip
    • aw_mobile.json, mobile_images.zip

桌面数据

  • 存储路径: desktop_domain
  • 数据来源: 从真实个人电脑环境中收集,包括Windows、Linux和MacOS。
  • 数据文件:
    • windows_image_part_*.zip, windows_annotations.json
    • linux_images.zip, linux_annotations.json
    • macos_images.zip, macos_annotations.json

网页数据

  • 存储路径: web_domain
  • 数据来源:
    • SeeClick: 从Common Crawl爬取的网页截图
    • Fineweb_crawled_data: 从FineWeb数据集中爬取的网页
  • 数据文件:
    • seeclick_web.json, seeclick_web_image_part_*.zip
    • fineweb_3m.json, fineweb_3m_s*.zip

最佳实践

  • 模型训练: 在训练OS-Atlas-7B时,随机采样预定义的提示来包装定位数据,并将元素的相对坐标乘以1000后输入模型。
  • 提示文件: prompts.json

参考文献

  • [1] AMEX: Android Multi-annotation Expo Dataset for Mobile GUI Agents
  • [2] UIBert: Learning Generic Multimodal Representations for UI Understanding
  • [3] Rico: A mobile app dataset for building data-driven design applications
  • [4] Widget Captioning: Generating Natural Language Description for Mobile User Interface Elements
  • [5] Mapping Natural Language Instructions to Mobile UI Action Sequences
  • [6] ANDROIDWORLD: A Dynamic Benchmarking Environment for Autonomous Agents
  • [7] SeeClick: Harnessing GUI Grounding for Advanced Visual GUI Agents
  • [8] The fineweb datasets: Decanting the web for the finest text data at scale
搜集汇总
数据集介绍
main_image_url
构建方式
OS-Atlas-data数据集的构建过程主要依赖于多个开源数据集和真实环境数据的整合。数据集涵盖了移动端、桌面端和网页端三个主要领域,每个领域的数据均通过特定的方法进行收集和标注。移动端数据包括AMEX、UIBert、Widget Captioning和RICOSCA等子集,桌面端数据则从Windows、Linux和MacOS操作系统中采集,网页端数据则来源于Seeclick和Fineweb等大规模网页截图和元素标注。所有数据均以JSON格式存储,包含界面截图文件、人类指令或引用表达式以及目标元素的边界框信息。
特点
OS-Atlas-data数据集的特点在于其广泛覆盖了多个操作系统和平台,提供了丰富的GUI元素标注信息。数据集中的每个样本均包含界面截图、指令描述和目标元素的边界框坐标,边界框坐标以[0, 1]范围内的比例值表示,便于模型处理。此外,部分数据还包含元素的结构化信息类型,进一步增强了数据的多样性和实用性。数据集的分域存储方式使得用户能够根据具体需求灵活选择和使用不同领域的数据。
使用方法
使用OS-Atlas-data数据集时,用户需首先将分块存储的图像文件合并并解压缩,随后根据JSON文件中的标注信息进行模型训练。在训练过程中,建议使用预定义的提示词对数据进行包装,并将边界框的相对坐标值缩放至[0, 1000]范围内,以便模型更好地处理。数据集提供了详细的示例和提示词文件,用户可参考这些示例进行数据预处理和模型输入设计。此外,数据集的开放性和多源数据整合特性使得用户能够根据具体任务需求灵活调整和扩展数据使用方式。
背景与挑战
背景概述
OS-Atlas-data数据集由OS-Copilot团队于2023年发布,旨在为通用图形用户界面(GUI)代理提供预训练数据。该数据集的核心研究问题在于如何通过大规模、多样化的GUI元素标注数据,提升模型在跨平台环境中的交互能力。数据集涵盖了移动端、桌面端和网页端三大领域,整合了多个开源数据集,如AMEX、UIBert、Widget Captioning等,为GUI代理的开发和评估提供了丰富的资源。OS-Atlas-data的发布推动了GUI代理领域的研究进展,特别是在跨平台任务执行和自然语言指令理解方面展现了显著的影响力。
当前挑战
OS-Atlas-data数据集在构建和应用过程中面临多重挑战。首先,GUI元素的多样性和复杂性使得数据标注的准确性和一致性难以保证,尤其是在跨平台场景下,不同操作系统的界面差异进一步增加了标注难度。其次,数据集的规模庞大,存储和传输成为技术瓶颈,需通过分块压缩和合并操作来管理数据。此外,模型训练过程中,如何有效利用标注数据生成高质量的预训练模型,仍需解决数据分布不均衡和标注噪声等问题。这些挑战不仅影响了数据集的构建效率,也对模型的泛化能力提出了更高的要求。
常用场景
经典使用场景
OS-Atlas-data数据集在GUI(图形用户界面)智能代理的预训练中扮演了关键角色。该数据集通过提供移动、桌面和网页三大领域的界面截图及元素标注信息,为模型训练提供了丰富的视觉和文本数据。特别是在构建通用型GUI智能代理时,OS-Atlas-data能够帮助模型理解并定位界面中的目标元素,从而提升其在复杂任务中的表现。
实际应用
在实际应用中,OS-Atlas-data为开发智能助手、自动化测试工具以及跨平台应用优化提供了重要支持。例如,基于该数据集训练的模型可以用于自动化测试中,快速定位并操作界面元素,从而提高测试效率。此外,智能助手可以通过学习数据集中的指令与元素映射关系,更好地理解用户需求并执行复杂任务。
衍生相关工作
OS-Atlas-data的发布催生了一系列相关研究工作。例如,基于该数据集的AMEX和UIBert项目进一步扩展了移动GUI智能代理的研究范围。此外,SeeClick项目利用OS-Atlas-data中的网页数据,开发了先进的视觉GUI代理,能够高效处理网页元素定位任务。这些工作不仅推动了GUI智能代理领域的发展,也为跨平台应用优化提供了新的思路。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作