OSWorld-Human

github2025-07-07 更新2025-07-09 收录

下载链接：

https://github.com/WukLab/osworld-human

下载链接

链接失效反馈

官方服务：

资源简介：

OSWorld-Human是OSWorld的一个手动注释版本，包含人类参考轨迹，用于评估计算机使用代理的效率。

OSWorld-Human is a manually annotated variant of OSWorld that includes human reference trajectories, designed to evaluate the efficiency of computer-use agents.

创建时间：

2025-06-30

原始信息汇总

OSWorld-Human 数据集概述

数据集简介

OSWorld-Human 是一个手动标注版本的 OSWorld 数据集，包含人类参考轨迹，用于测量计算机使用代理（CUAs）的效率。
研究发现，当前计算机使用代理的端到端延迟极高，完成人类仅需几分钟的任务需要数十分钟。

关键发现

大型模型调用（用于规划和反思）主导了延迟，后期步骤耗时可达早期步骤的 3 倍。
评估的 16 个代理中，即使表现最佳者也需要比必要步骤多 1.4–2.7 倍。

排行榜（更新于 6 月 30 日）

代理（最大步骤）	原始 OSWorld (%)	单动作 WES+ (%)	分组动作 WES+ (%)	WES-
UI-TARS-1.5 (100)	42.5	23.7	14.3	-0.22
Agent S2 w/ Gemini 2.5 (50)	41.4	28.2	17.4	-0.26
InfantAgent (50)	35.3	13.3	8.2	-0.22
Agent S2 w/ Claude 3.7 (50)	34.5	20.0	11.4	-0.42
UI-TARS-1.5 7B (100)	26.9	12.4	7.9	-0.33
UI-TARS-72B-DPO (50)	24.6	15.6	10.6	-0.16

使用方法

计算代理在 OSWorld-Human 上的分数： bash python score.py --result-path /path/to/results/ --max-steps-scoring 50

如需评分 UI-TARS 轨迹，添加 --uitars 标志。

引用

@misc{abhyankar2025osworldhumanbenchmarkingefficiencycomputeruse, title={OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents}, author={Reyna Abhyankar and Qi Qi and Yiying Zhang}, year={2025}, eprint={2506.16042}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.16042}, }

搜集汇总

数据集介绍

构建方式

在计算机使用代理（CUAs）领域，效率评估一直是研究的难点。OSWorld-Human数据集通过人工标注的方式，对OSWorld平台上的任务执行轨迹进行了精细化标注。研究团队采用严格的人工标注流程，确保每个参考轨迹都能准确反映人类完成特定任务的最优路径，为代理效率评估提供了可靠的基准。

特点

作为首个专注于计算机使用代理效率评估的标注数据集，OSWorld-Human包含了丰富的人类参考轨迹数据。其独特之处在于能够精确量化代理执行效率，通过对比代理与人类执行步骤的差异，揭示当前代理系统存在的冗余操作问题。数据集还提供了多维度评估指标，包括原始得分、单动作加权效率得分等，支持全面的性能分析。

使用方法

研究人员可通过简单的命令行操作对代理性能进行评估。使用score.py脚本并指定结果目录路径和最大步数参数，即可自动计算代理在OSWorld-Human上的各项得分。数据集特别设计了兼容性接口，支持对UI-TARS等特定代理轨迹的专项评估，为不同研究需求提供了灵活的分析方案。

背景与挑战

背景概述

OSWorld-Human数据集由Reyna Abhyankar、Qi Qi和Yiying Zhang等研究人员于2025年提出，旨在解决计算机使用代理（CUAs）在操作系统环境中的效率评估问题。该数据集基于OSWorld平台构建，通过人工标注的方式提供了人类参考轨迹，为衡量代理在复杂任务中的执行效率提供了基准。作为首个针对计算机使用代理时间性能的系统性研究工具，OSWorld-Human通过量化分析不同代理的步骤冗余度（1.4-2.7倍），揭示了现有方法在规划与反思环节的延迟问题，对提升人机交互效率研究具有重要价值。

当前挑战

OSWorld-Human数据集面临的核心挑战体现在两个方面：在领域问题层面，如何准确评估计算机使用代理与人类操作效率的差距仍然存在困难，特别是当代理需要处理多步骤复杂任务时，其后期步骤耗时可达前期的3倍；在构建技术层面，创建具有代表性的人类参考轨迹需要克服标注一致性、任务复杂度平衡以及跨平台操作行为标准化等难题。此外，设计能够全面反映代理效率的评估指标（如WES+和WES-）也需要解决步骤计数与任务完成度之间的权衡问题。

常用场景

经典使用场景

在计算机使用代理（CUAs）的研究领域，OSWorld-Human数据集通过提供人工标注的参考轨迹，为评估代理效率设立了新标准。该数据集广泛应用于对比人类与代理在操作系统任务中的表现差异，尤其在分析代理执行步骤冗余性和时间延迟方面具有独特价值。研究者利用其精细标注的轨迹数据，能够深入探究代理规划与反思过程中的效率瓶颈。

解决学术问题

OSWorld-Human有效解决了计算机使用代理研究中缺乏可靠效率基准的难题。通过量化代理与人类执行相同任务时的步骤差异（1.4-2.7倍），该数据集为优化代理的决策逻辑提供了实证基础。其时间性能分析揭示了大型模型调用导致的延迟累积现象，为改进代理架构指明了方向，推动了人机交互效率研究的范式转变。

衍生相关工作

围绕OSWorld-Human已产生多项重要研究，包括UI-TARS系列代理的优化工作，以及基于Gemini和Claude模型的效率改进方案。数据集催生的WES+评估指标已成为领域新标准，相关成果发表在ICML等顶级会议。其构建方法更启发了后续多模态人机交互数据集的创建范式。

以上内容由遇见数据集搜集并总结生成