OSWorld

arXiv2024-04-12 更新2024-07-31 收录

下载链接：

https://os-world.github.io

下载链接

链接失效反馈

官方服务：

资源简介：

OSWorld是一个为多模态代理设计的可扩展的真实计算机环境，支持任务设置、基于执行的评估和跨各种操作系统（如Ubuntu、Windows和macOS）的交互式学习。它可以作为一个统一的集成计算机环境，用于评估涉及任意应用程序的开放式计算机任务。

OSWorld is a scalable real-world computer environment designed for multimodal AI agents. It supports task configuration, execution-based evaluation, and interactive learning across various operating systems such as Ubuntu, Windows, and macOS. It serves as a unified integrated computer environment for evaluating open-ended computer tasks involving arbitrary applications.

创建时间：

2024-04-12

搜集汇总

数据集介绍

构建方式

在构建OSWorld数据集时，研究团队采用了一种创新的混合配置方法，以模拟真实计算机环境中的复杂任务场景。该数据集基于虚拟化技术，在Ubuntu、Windows和macOS等主流操作系统上创建了可执行的交互环境。通过精心设计的配置文件，实现了任务初始状态的自动化设置，包括文件下载、软件启动和界面布局调整等步骤。每个任务都配备了详细的初始状态配置和基于执行的评估脚本，确保了评估的可靠性和可重复性。数据收集过程历时三个月，由九名计算机科学背景的研究人员共同完成，涵盖了从官方文档、在线教程到用户论坛等多种真实世界用例，最终构建了包含369个任务的基准测试集。

特点

OSWorld数据集的核心特点在于其前所未有的真实性和开放性。作为首个支持跨操作系统、跨应用程序的多模态智能体评估环境，它突破了以往基准测试在任务范围和可扩展性上的限制。该数据集涵盖了从网页浏览、文件管理到多媒体处理等广泛的计算任务，特别强调了多应用程序工作流程的复杂性。其评估体系采用了134种独特的执行评估函数，远超现有基准测试的评估粒度，能够精确衡量智能体在开放环境中的任务完成能力。此外，数据集还包含了30个不可行任务，用于测试智能体对任务可行性的判断能力，进一步增强了评估的全面性和挑战性。

使用方法

使用OSWorld数据集进行智能体评估时，研究人员首先需要通过配置文件初始化特定的任务环境，该环境运行在隔离的虚拟机中以确保安全性。智能体通过接收屏幕截图、可访问性树等观察信息，并生成鼠标键盘动作代码来与环境交互。评估过程采用基于执行的奖励函数，通过自定义的评估脚本对任务完成情况进行精确验证。数据集支持多种输入模式，包括纯视觉输入、结构化文本输入以及混合模态输入，允许研究人员从不同角度测试智能体的感知和决策能力。同时，环境支持并行运行多个虚拟机实例，便于大规模的训练和评估实验，为开发通用的计算机助手智能体提供了强大的实验平台。

背景与挑战

背景概述

OSWorld数据集由香港大学、卡内基梅隆大学、Salesforce Research及滑铁卢大学等机构的研究团队于2024年联合推出，旨在为多模态智能体在真实计算机环境中的开放式任务提供首个可扩展的基准测试平台。该数据集构建于一个支持Ubuntu、Windows和macOS等多种操作系统的真实交互式计算机环境之上，核心研究聚焦于评估智能体在涉及任意应用程序的复杂计算机任务中的自主执行能力。通过模拟真实用户的使用场景，OSWorld涵盖了网络浏览、文件管理、多媒体处理及跨应用工作流等369项任务，并配备了详尽的初始状态配置与基于执行的评估脚本，显著推动了通用计算机智能体的研发进程，为多模态智能体在真实人机交互场景中的能力评估设立了新的标准。

当前挑战

OSWorld数据集致力于解决通用计算机智能体在开放式真实环境任务执行中的核心挑战，其首要难点在于智能体需在多样化的图形用户界面与命令行界面中实现精准的视觉定位与操作知识迁移，例如在复杂GUI元素中准确预测鼠标点击坐标。构建过程中的挑战则体现在多维度：一是环境仿真的复杂性，需在虚拟机中精确模拟包括中间状态在内的真实计算机使用场景；二是任务评估的可靠性，需为每项任务设计定制化的执行验证脚本以应对开放域任务的多样性；三是数据标注的高成本，涉及大量人工对初始状态配置、跨应用工作流及评估逻辑的精细标注，以确保基准的严谨性与可复现性。

常用场景

经典使用场景

在自主智能体研究领域，OSWorld数据集作为首个可扩展的真实计算机环境基准，其经典使用场景集中于评估多模态智能体在开放式计算机任务中的综合能力。该环境支持跨操作系统（如Ubuntu、Windows、macOS）的任务初始化、基于执行的评估与交互式学习，为研究者提供了一个统一的实验平台，以测试智能体在涉及任意应用程序的复杂任务中的表现。通过模拟真实用户操作场景，如网页浏览、文件管理、多媒体处理等多应用工作流，OSWorld能够全面衡量智能体在图形用户界面和命令行界面中的交互效率与任务完成度。

衍生相关工作

OSWorld数据集的推出催生了一系列围绕多模态智能体与计算机环境交互的经典研究工作。基于该环境，研究者们深入探索了智能体在GUI基础、坐标预测、操作知识等方面的局限性，并提出了多种改进方法，例如结合辅助功能树（a11y tree）与标记集（Set-of-Mark）技术以增强空间定位能力。这些衍生工作不仅扩展了视觉语言模型在计算机交互任务中的应用边界，还促进了智能体架构的优化，包括长上下文处理、历史轨迹编码以及抗干扰能力提升等方面。同时，OSWorld为后续研究提供了可扩展的基准框架，激励了更多关于跨操作系统、跨应用智能体通用性及安全性的创新探索。

数据集最近研究