windows_osworld

Hugging Face2024-09-22 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/xlangai/windows_osworld

下载链接

链接失效反馈

官方服务：

资源简介：

OSWorld Benchmark数据集用于多模态代理在真实计算机环境中进行开放式任务的基准测试。数据集包含任务示例、检索文档和虚拟机快照，支持x86和arm64架构。

创建时间：

2024-09-21

原始信息汇总

OSWorld Benchmark 数据集

基本信息

许可证: Apache 2.0
标签:
- code
- vlm
- llm
- agent
语言:
- 英语
数据规模:
- n<1K

数据集描述

名称: OSWorld Benchmark
内容: 包含任务示例、检索文档（位于 evaluation_examples.zip 压缩包中）以及用于基准测试的虚拟机快照（支持 VMware 和 VirtualBox，根据机器架构 x86 或 arm64 加载）。

相关资源

论文: OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments
- Arxiv 链接: https://arxiv.org/abs/2404.07972
项目网站: https://os-world.github.io/
项目 Github: https://github.com/xlang-ai/OSWorld

搜集汇总

数据集介绍

构建方式

OSWorld数据集的构建基于真实计算机环境中的开放式任务，旨在评估多模态代理的性能。数据集包含任务示例、检索文档以及虚拟机快照，这些快照可通过VMware或VirtualBox加载，具体取决于机器的架构（x86或arm64）。通过这种方式，数据集能够模拟真实的操作系统环境，为研究者提供了一个高度仿真的测试平台。

特点

OSWorld数据集的特点在于其多模态性质，涵盖了代码、视觉语言模型（VLM）和大型语言模型（LLM）等多个领域。数据集规模虽小（少于1000个样本），但其任务设计具有高度的开放性和复杂性，能够有效评估代理在真实计算机环境中的综合能力。此外，数据集还提供了详细的文档和虚拟机快照，便于用户进行复现和扩展研究。

使用方法

使用OSWorld数据集时，用户首先需要下载并解压包含任务示例和检索文档的压缩包。随后，根据机器架构选择合适的虚拟机软件（VMware或VirtualBox）加载虚拟机快照。通过这些快照，用户可以在仿真环境中执行任务，评估代理的性能。数据集的使用方法详细记录在项目网站和GitHub仓库中，用户可参考相关文档进行配置和实验。

背景与挑战

背景概述

OSWorld数据集由xlang-ai团队于2024年创建，旨在为多模态代理在真实计算机环境中的开放式任务提供基准测试。该数据集通过虚拟机器快照和任务示例，支持在x86和arm64架构上进行评估，涵盖了代码执行、视觉语言模型（VLM）和大语言模型（LLM）的研究需求。其核心研究问题聚焦于如何通过多模态代理在复杂操作系统环境中完成开放任务，推动了智能代理在真实计算环境中的应用研究。该数据集的研究成果已在arXiv上发布，并提供了详细的项目网站和GitHub资源，为相关领域的研究者提供了重要的实验平台。

当前挑战

OSWorld数据集在解决多模态代理在开放式任务中的表现评估问题时，面临的主要挑战包括：1）如何在多样化的操作系统环境中设计具有代表性的任务，以确保评估的全面性和公平性；2）如何高效地构建和管理虚拟机器快照，以支持不同硬件架构的测试需求。在数据集构建过程中，研究人员还需克服数据采集的复杂性，特别是在模拟真实计算环境时，确保任务示例的多样性和虚拟机器快照的兼容性。这些挑战不仅影响了数据集的构建效率，也对后续研究的可重复性和扩展性提出了更高的要求。

常用场景

经典使用场景

OSWorld数据集主要用于评估和开发多模态代理在真实计算机环境中的开放式任务执行能力。通过提供虚拟机器快照和任务示例，该数据集为研究人员提供了一个模拟真实操作系统环境的平台，用于测试代理在复杂任务中的表现。

衍生相关工作

基于OSWorld数据集，研究人员已经开发了多种多模态代理模型和算法，这些工作进一步推动了智能代理在开放式任务中的应用。例如，一些研究利用该数据集优化了代理的任务理解和执行能力，使其在复杂的计算机环境中表现更加出色。

数据集最近研究