OmniACT

Name: OmniACT
Creator: 卡内基梅隆大学
Published: 2024-02-29 01:27:39
License: 暂无描述

arXiv2024-02-29 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2402.17553v2

下载链接

链接失效反馈

官方服务：

资源简介：

OmniACT是一个由卡内基梅隆大学创建的数据集，包含9802对图像和指令，旨在评估自主代理在桌面和网页应用中的多模态通用能力。该数据集涵盖多种操作系统，包括MacOS、Linux和Windows，以及网页应用，通过PyAutoGUI库实现自动化操作。OmniACT数据集的应用领域广泛，旨在解决自动化计算机任务的问题，如日历管理、复杂旅行预订等，减少人工干预，提高效率。

OmniACT is a dataset developed by Carnegie Mellon University, containing 9802 pairs of images and instructions. It is designed to evaluate the multimodal general capabilities of autonomous agents in desktop and web applications. This dataset covers multiple operating systems including macOS, Linux, and Windows, as well as web applications, with automated operations implemented via the PyAutoGUI library. OmniACT has wide-ranging application domains, aiming to address computer task automation scenarios such as calendar management and complex travel bookings, so as to reduce manual intervention and enhance efficiency.

提供机构：

卡内基梅隆大学

创建时间：

2024-02-27

搜集汇总

数据集介绍

构建方式

在构建OmniACT数据集的过程中，研究团队采用了一套严谨且多阶段的流程。首先，从超过60个桌面与网页应用中筛选出多样化的交互界面，涵盖购物、娱乐、旅行等六大领域，以确保任务场景的广泛性。随后，通过人工标注的方式对屏幕图像中的关键UI元素进行边界框划分与功能标签标注，为后续任务生成提供结构化基础。在此基础上，招募具备基础编程能力的标注者，依据标注信息为每个屏幕设计可执行的自然语言任务，并编写对应的PyAutoGUI自动化脚本。最后，通过坐标反向映射与语法校验机制对脚本进行过滤与人工复核，最终形成了包含9802个高质量样本的数据集，并按照7:1:2的比例划分为训练、验证与测试集。

特点

OmniACT数据集展现出多方面的显著特征。其核心在于首次将评估范围从传统的网页自动化扩展至跨平台的桌面应用，涵盖了macOS、Windows、Linux及网页环境，从而对智能体的多模态泛化能力提出了更高要求。数据集中任务设计强调视觉基础，要求模型依据屏幕截图与自然语言指令生成可执行的鼠标键盘操作序列，这模拟了真实人机交互的复杂性。此外，数据集提供了丰富的动作类型，包括点击、拖拽、滚动、键入等，并引入了针对坐标预测准确性的细粒度评估指标，能够更精准地衡量模型在空间理解与动作规划方面的性能。

使用方法

OmniACT数据集主要用于训练与评估能够理解屏幕视觉信息并执行复杂计算机任务的多模态通用智能体。典型的使用方法是将屏幕截图与对应的自然语言任务描述作为模型输入，期望模型输出能够完整执行该任务的PyAutoGUI自动化脚本。研究社区可基于该数据集对各类大语言模型或多模态模型进行基准测试，分析其在视觉基础、动作序列规划及跨应用泛化等方面的能力。数据集提供的标准化评估流程，包括序列得分与动作得分等定制化指标，为客观比较不同模型的性能提供了可靠平台。此外，其包含的丰富元数据（如UI元素边界框）也为开发更先进的屏幕理解模块提供了支持。

背景与挑战

背景概述

在人工智能与人类计算机交互的交叉领域，实现基于自然语言指令的自动化任务执行是长期追求的目标。卡内基梅隆大学的研究团队于2024年推出了OmniACT数据集，旨在评估和推动通用型自主代理在多模态环境下的能力。该数据集聚焦于解决桌面与网页应用中的复杂交互问题，通过结合屏幕截图与自然语言指令，要求模型生成可执行的PyAutoGUI脚本以完成指定任务。其核心研究在于弥合大型语言模型的规划能力与用户界面的视觉理解之间的鸿沟，从而为构建能够跨平台、跨应用执行长程任务的智能代理奠定基础。OmniACT的发布标志着该领域从纯文本或单一环境向多模态、跨平台综合交互的重要演进，为后续研究提供了关键的基准与方向。

当前挑战

OmniACT所应对的核心领域挑战在于实现跨桌面与网页环境的通用型多模态自主代理。这要求模型不仅需精准理解自然语言指令的语义，还必须具备对复杂用户界面视觉元素的深度解析能力，以生成空间坐标精确、动作序列正确的可执行代码。构建过程中的挑战尤为显著：首先，数据采集需覆盖多样化的操作系统与应用程序，确保任务意图与交互逻辑的广泛代表性；其次，标注流程涉及对屏幕元素的功能性标记与坐标映射，要求极高的精确度与一致性；再者，为生成可执行脚本，需将文本描述反向映射至动态屏幕坐标，并验证其语法与功能正确性，这一过程复杂且易出错。这些挑战共同塑造了数据集的高质量与高难度，为模型评估设立了严峻标准。

常用场景

经典使用场景

在桌面与网页自动化代理的研究领域，OmniACT数据集为评估多模态通用代理的核心能力提供了基准平台。该数据集通过将屏幕截图与自然语言任务描述配对，要求模型生成可执行的PyAutoGUI脚本，从而模拟人类在操作系统层面的交互行为。其经典使用场景集中于训练和评估代理在跨平台环境（包括macOS、Windows、Linux及网页）中执行长视野任务的能力，例如从股票图表中提取数据、在租房网站进行筛选，或完成跨应用的邮件发送流程。这种设置使得研究者能够系统性衡量代理在理解视觉界面、解析语言指令并规划精确动作序列方面的综合性能。

衍生相关工作

OmniACT的发布催生并衔接了多个相关研究方向与经典工作。在数据集层面，它与专注于网页导航的WebArena、Mind2Web，以及专注于移动环境的Android in the Wild等基准形成了互补与拓展。在方法学上，其提出的DetACT模块为从屏幕图像中提取文本、图标与颜色等多模态信号提供了新思路，影响了后续界面理解工具的开发。该数据集亦激励了如GPT-4V等大型多模态模型在视觉基础代码生成任务上的性能评估与研究。更广泛地，它推动了旨在融合视觉理解与语言规划的多模态代理架构的探索，为构建真正通用的桌面助手智能体奠定了基础。

数据集最近研究