ubuntu_osworld_verified_trajs

Hugging Face2025-08-05 更新2025-08-06 收录

下载链接：

https://huggingface.co/datasets/xlangai/ubuntu_osworld_verified_trajs

下载链接

链接失效反馈

官方服务：

资源简介：

OSWorld-验证模型轨迹数据集包含多种AI模型在OSWorld基准上的评估轨迹和结果，用于在真实计算机环境中对多模态智能体进行综合评估。数据集包括屏幕截图、动作序列、模型推理轨迹、任务完成结果和性能指标等完整评估轨迹。支持模型性能分析、轨迹可视化与调试、计算机使用智能体的训练（不推荐）、基准比较研究和多模态智能体行为研究。

创建时间：

2025-08-04

原始信息汇总

OSWorld-Verified Model Trajectories 数据集概述

基本信息

许可证: MIT
标签: code
显示名称: OSWorld-Verified Trajectories
数据规模: 100K<n<1M

数据集内容

包含在OSWorld基准测试中评估的各种AI模型的轨迹结果
涵盖多个最先进模型在OSWorld任务上的评估轨迹和结果

文件结构

每个zip文件包含完整的评估轨迹，包括：
- 屏幕截图和动作序列
- 模型推理轨迹
- 任务完成结果
- 性能指标

评估设置

步数限制:
- 15步 - 快速评估
- 50步 - 标准评估
- 100步 - 扩展评估
包含多次运行结果

任务领域

办公应用: LibreOffice Calc/Writer/Impress
日常应用: Chrome, VLC, Thunderbird
专业工具: GIMP, VS Code
多应用工作流
操作系统任务

使用用途

模型性能分析
轨迹可视化和调试
计算机使用代理的训练数据（不推荐）
基准比较研究
多模态代理行为研究

维护信息

数据集正在积极维护并将持续更新

引用信息

bibtex @article{osworld_verified, title = {Introducing OSWorld-Verified}, author = {Tianbao Xie and Mengqi Yuan and Danyang Zhang and Xinzhuang Xiong and Zhennan Shen and Zilong Zhou and Xinyuan Wang and Yanxu Chen and Jiaqi Deng and Junda Chen and Bowen Wang and Haoyuan Wu and Jixuan Chen and Junli Wang and Dunjie Lu and Hao Hu and Tao Yu}, journal = {xlang.ai}, year = {2025}, month = {July}, url = "https://xlang.ai/blog/osworld-verified" }

其他信息

最后更新: 2025年8月
模型总数: 15+种变体
总轨迹数: 1000+评估片段

搜集汇总

数据集介绍

构建方式

在计算机科学领域，多模态智能体的评估需要严谨的基准测试环境。OSWorld-Verified轨迹数据集通过系统化的实验设计构建而成，研究人员在真实计算机环境中部署了15种以上的AI模型变体，针对办公软件、专业工具等多类应用程序执行标准化测试。数据集采集过程严格遵循三种不同的步长限制（15/50/100步）进行多轮评估，完整记录了屏幕截图、动作序列、模型推理轨迹等关键数据，形成1000余个评估片段。

特点

该数据集以其多维度的评估指标和丰富的任务场景著称。覆盖LibreOffice、Chrome等日常应用与VS Code等专业工具的交互轨迹，特别包含跨应用程序的工作流数据。每个轨迹文件不仅包含视觉截图和操作序列，还整合了模型推理过程的可解释性数据，为研究多模态智能体的决策机制提供了独特视角。数据集采用模块化存储结构，支持性能指标提取与轨迹可视化等多样化分析需求。

使用方法

作为计算机交互行为研究的基准数据集，其主要价值体现在模型性能的横向对比分析。研究人员可通过解析压缩包内的结构化数据，重现不同步长限制下的任务完成情况。数据集特别适用于多模态代理行为的可视化调试，但需注意其设计初衷为评估而非训练用途。引用时应遵循学术规范，使用官方提供的BibTeX条目，并通过GitHub渠道提交使用过程中发现的问题或改进建议。

背景与挑战

背景概述

OSWorld-Verified Trajectories数据集由xlang.ai团队于2025年发布，旨在为多模态智能体在真实计算机环境中的行为评估提供标准化基准。该数据集收录了15种以上先进模型在OSWorld测试环境中的完整交互轨迹，涵盖办公软件、专业工具及跨应用工作流等多种任务场景。作为计算机交互行为研究领域的重要资源，其通过详尽的屏幕截图、动作序列和推理轨迹，为分析智能体的决策过程与任务完成能力提供了实证基础。数据集的设计体现了对复杂人机交互行为进行系统性评估的前沿需求，对推动多模态智能体的开发与优化具有显著意义。

当前挑战

该数据集面临的挑战主要体现在两个维度：在领域问题层面，如何准确评估多模态智能体在开放环境中的泛化能力仍存在挑战，特别是处理非结构化界面元素与动态任务流时的鲁棒性；在构建过程中，需要克服大规模轨迹数据的采集标准化难题，包括跨平台操作的同步记录、隐私敏感信息的过滤，以及不同模型输出结果的可比性校准。此外，保持数据集与快速迭代的软件生态同步更新，也对维护工作提出了持续性要求。

常用场景

经典使用场景

在人工智能与计算机交互领域，OSWorld-Verified Trajectories数据集为研究者提供了丰富的多模态代理行为轨迹。这些轨迹记录了不同AI模型在真实计算机环境中执行任务的完整过程，包括屏幕截图、动作序列和推理痕迹。研究者可通过分析这些轨迹，深入理解模型在办公软件、专业工具及多应用工作流等复杂场景中的决策机制，为开发更智能的计算机使用代理奠定基础。

解决学术问题

该数据集有效解决了多模态代理在真实计算机环境中行为评估的难题。通过提供标准化的任务完成结果和性能指标，研究者能够系统比较不同模型在相同条件下的表现。这不仅填补了计算机交互领域缺乏基准测试数据的空白，还为模型优化提供了明确方向，推动了人机交互智能体的可信度与可靠性研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集