xlangai/ubuntu_osworld_verified_trajs
收藏Hugging Face2026-05-04 更新2025-08-09 收录
下载链接:
https://hf-mirror.com/datasets/xlangai/ubuntu_osworld_verified_trajs
下载链接
链接失效反馈官方服务:
资源简介:
OSWorld-验证模型轨迹数据集包含了在OSWorld基准测试上评估的各种AI模型的轨迹结果。这些轨迹结果包括了在办公应用、日常应用、专业工具、多应用工作流程和操作系统任务中的多种状态-of-the-art模型的评估轨迹和结果。
This dataset contains trajectory results from various AI models evaluated on the OSWorld benchmark, including evaluation trajectories and results from multiple state-of-the-art models in office applications, daily applications, professional tools, multi-app workflows, and operating system tasks.
提供机构:
xlangai
搜集汇总
数据集介绍

构建方式
在现实计算机环境的全面评估框架OSWorld基准之上,本数据集汇聚了多种先进人工智能模型的轨迹评估结果。每个评估过程均被完整记录为轨迹文件,涵盖模型推理链条、屏幕截图、操作序列及任务完成状态等关键信息。这些轨迹依据不同的步骤限制设定,包括15步快速评估、50步标准评估与100步扩展评估,并包含多次运行记录,以确保数据的多样性和统计稳健性。
特点
该数据集囊括了超过15种模型变体与1000余次评估片段,覆盖了办公套件(如LibreOffice)、日常应用(如Chrome、VLC)、专业工具(如GIMP、VS Code)、跨应用工作流以及操作系统级任务。其丰富性和多样性不仅揭示了模型在复杂实际任务中的能力边界,还为多模态代理行为的深度解析提供了宝贵素材。
使用方法
研究者可利用这些轨迹进行模型性能分析、行为可视化与调试,或开展基准对比研究,探索多模态代理的决策机制。尽管数据集主要服务于评估目的,但亦可作为训练数据的潜在来源(虽不推荐)。此外,该数据集将持续维护更新,用户可通过公开渠道提交问题或贡献,以确保资源的长期可用性和时效性。
背景与挑战
背景概述
随着多模态智能体在真实计算机环境中的能力提升,OSWorld基准测试应运而生,成为评估这些系统在复杂、动态桌面任务中表现的重要平台。该数据集由Tianbao Xie、Mengqi Yuan等研究者在xlang.ai团队主导下于2025年创建,聚焦于验证多种前沿AI模型在OSWorld任务上的轨迹表现。核心研究问题在于衡量多模态智能体在办公套件、日常应用、专业工具及跨应用工作流等多样化场景中的任务完成能力,为研究者提供标准化的评测与分析工具。该数据集通过提供超过1000条评估轨迹,覆盖15种以上的模型变体,显著推动了对AI代理行为可解释性、鲁棒性及泛化性的理解,对多模态智能体领域的基准化研究产生了深远影响。
当前挑战
该数据集所解决的领域问题核心在于多模态智能体在真实计算机环境中的任务执行挑战,包括如何在不同步骤限制下(15至100步)高效完成从简单操作到复杂多应用工作流的连贯任务,这对模型的推理能力、时序规划和环境适应力提出了极高要求。在构建过程中,挑战则体现在确保轨迹数据的完整性与一致性,需记录包括屏幕截图、动作序列、模型推理痕迹及任务完成状态在内的多维信息,同时面临评估标准的标准化难题,如定义任务成功与否的客观指标、权衡快速评估与深度探索之间的步骤约束,以及维护跨多种运行为不同模型变体间可比较的演化数据集。此外,持续更新与维护这一日益壮大的基准库,也需应对数据版本控制与计算资源管理的挑战。
常用场景
经典使用场景
在人工智能与计算机视觉的交叉领域中,ubuntu_osworld_verified_trajs数据集为多模态智能体在真实计算机环境中的行为研究提供了宝贵的资源。其最经典的运用场景当属对多模态大模型在复杂桌面任务上的评估与比较。通过记录模型在15、50及100步限制下的完整操作轨迹,研究人员能够系统性地量化模型处理办公套件(如LibreOffice)、日常应用(如Chrome、VLC)及专业工具(如GIMP、VS Code)时的表现。该数据集不仅捕捉了模型的推理痕迹与动作序列,还包含了丰富的屏幕截图,从而支持对智能体决策过程进行深度剖析与可视化分析。
实际应用
在实际应用层面,该数据集的轨迹数据对于开发能够自动化日常计算机操作的智能助手具有直接的指导意义。例如,通过分析模型在LibreOffice Calc中处理电子表格或通过VLC播放任务的轨迹,开发者可以识别出常见的失败模式,从而设计出更精准的指令解析与动作生成算法。此外,这些轨迹可用于训练辅助用户完成复杂多步操作(如跨应用数据迁移)的代理系统,或用于构建自动化测试框架,以验证软件界面在真实操作下的鲁棒性。这些应用场景均指向提升人机交互效率与自动化水平的最终目标。
衍生相关工作
基于该数据集,学术界已涌现出一系列衍生研究与经典工作。其中,对多智能体协作框架的探索是重要方向之一,研究者利用轨迹数据训练模型在多步任务中进行自我纠错与规划重排。同时,该数据集激励了关于任务难度量化与数据集蒸馏方法的研究,旨在从现有轨迹中筛选出最具信息量的样本以加速模型训练。此外,这些详尽的轨迹记录还催生了针对智能体行为可解释性的分析工作,通过还原模型的每一步推理与操作,深入探讨其在真实环境中的故障机理与学习瓶颈,从而为下一代更安全的自主智能体设计提供了理论依据。
以上内容由遇见数据集搜集并总结生成



