five

OSWorld-Human

收藏
github2025-07-07 更新2025-07-09 收录
下载链接:
https://github.com/WukLab/osworld-human
下载链接
链接失效反馈
官方服务:
资源简介:
OSWorld-Human是OSWorld的一个手动注释版本,包含人类参考轨迹,用于评估计算机使用代理的效率。

OSWorld-Human is a manually annotated variant of OSWorld that includes human reference trajectories, designed to evaluate the efficiency of computer-use agents.
创建时间:
2025-06-30
原始信息汇总

OSWorld-Human 数据集概述

数据集简介

  • OSWorld-Human 是一个手动标注版本的 OSWorld 数据集,包含人类参考轨迹,用于测量计算机使用代理(CUAs)的效率。
  • 研究发现,当前计算机使用代理的端到端延迟极高,完成人类仅需几分钟的任务需要数十分钟。

关键发现

  • 大型模型调用(用于规划和反思)主导了延迟,后期步骤耗时可达早期步骤的 3 倍。
  • 评估的 16 个代理中,即使表现最佳者也需要比必要步骤多 1.4–2.7 倍。

最新动态

  • 2025 年 7 月 7 日:OSWorld-Human 博客文章发布。
  • 2025 年 6 月 19 日:OSWorld-Human 研究论文发布于 arXiv。
  • 2025 年 6 月 9 日:论文被 ICML 2025 的“计算机使用代理研讨会”接受。

排行榜(更新于 6 月 30 日)

代理(最大步骤) 原始 OSWorld (%) 单动作 WES+ (%) 分组动作 WES+ (%) WES-
UI-TARS-1.5 (100) 42.5 23.7 14.3 -0.22
Agent S2 w/ Gemini 2.5 (50) 41.4 28.2 17.4 -0.26
InfantAgent (50) 35.3 13.3 8.2 -0.22
Agent S2 w/ Claude 3.7 (50) 34.5 20.0 11.4 -0.42
UI-TARS-1.5 7B (100) 26.9 12.4 7.9 -0.33
UI-TARS-72B-DPO (50) 24.6 15.6 10.6 -0.16

使用方法

计算代理在 OSWorld-Human 上的分数: bash python score.py --result-path /path/to/results/ --max-steps-scoring 50

如需评分 UI-TARS 轨迹,添加 --uitars 标志。

引用

@misc{abhyankar2025osworldhumanbenchmarkingefficiencycomputeruse, title={OSWorld-Human: Benchmarking the Efficiency of Computer-Use Agents}, author={Reyna Abhyankar and Qi Qi and Yiying Zhang}, year={2025}, eprint={2506.16042}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2506.16042}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机使用代理(CUAs)领域,效率评估一直是研究的难点。OSWorld-Human数据集通过人工标注的方式,对OSWorld平台上的任务执行轨迹进行了精细化标注。研究团队采用严格的人工标注流程,确保每个参考轨迹都能准确反映人类完成特定任务的最优路径,为代理效率评估提供了可靠的基准。
特点
作为首个专注于计算机使用代理效率评估的标注数据集,OSWorld-Human包含了丰富的人类参考轨迹数据。其独特之处在于能够精确量化代理执行效率,通过对比代理与人类执行步骤的差异,揭示当前代理系统存在的冗余操作问题。数据集还提供了多维度评估指标,包括原始得分、单动作加权效率得分等,支持全面的性能分析。
使用方法
研究人员可通过简单的命令行操作对代理性能进行评估。使用score.py脚本并指定结果目录路径和最大步数参数,即可自动计算代理在OSWorld-Human上的各项得分。数据集特别设计了兼容性接口,支持对UI-TARS等特定代理轨迹的专项评估,为不同研究需求提供了灵活的分析方案。
背景与挑战
背景概述
OSWorld-Human数据集由Reyna Abhyankar、Qi Qi和Yiying Zhang等研究人员于2025年提出,旨在解决计算机使用代理(CUAs)在操作系统环境中的效率评估问题。该数据集基于OSWorld平台构建,通过人工标注的方式提供了人类参考轨迹,为衡量代理在复杂任务中的执行效率提供了基准。作为首个针对计算机使用代理时间性能的系统性研究工具,OSWorld-Human通过量化分析不同代理的步骤冗余度(1.4-2.7倍),揭示了现有方法在规划与反思环节的延迟问题,对提升人机交互效率研究具有重要价值。
当前挑战
OSWorld-Human数据集面临的核心挑战体现在两个方面:在领域问题层面,如何准确评估计算机使用代理与人类操作效率的差距仍然存在困难,特别是当代理需要处理多步骤复杂任务时,其后期步骤耗时可达前期的3倍;在构建技术层面,创建具有代表性的人类参考轨迹需要克服标注一致性、任务复杂度平衡以及跨平台操作行为标准化等难题。此外,设计能够全面反映代理效率的评估指标(如WES+和WES-)也需要解决步骤计数与任务完成度之间的权衡问题。
常用场景
经典使用场景
在计算机使用代理(CUAs)的研究领域,OSWorld-Human数据集通过提供人工标注的参考轨迹,为评估代理效率设立了新标准。该数据集广泛应用于对比人类与代理在操作系统任务中的表现差异,尤其在分析代理执行步骤冗余性和时间延迟方面具有独特价值。研究者利用其精细标注的轨迹数据,能够深入探究代理规划与反思过程中的效率瓶颈。
解决学术问题
OSWorld-Human有效解决了计算机使用代理研究中缺乏可靠效率基准的难题。通过量化代理与人类执行相同任务时的步骤差异(1.4-2.7倍),该数据集为优化代理的决策逻辑提供了实证基础。其时间性能分析揭示了大型模型调用导致的延迟累积现象,为改进代理架构指明了方向,推动了人机交互效率研究的范式转变。
衍生相关工作
围绕OSWorld-Human已产生多项重要研究,包括UI-TARS系列代理的优化工作,以及基于Gemini和Claude模型的效率改进方案。数据集催生的WES+评估指标已成为领域新标准,相关成果发表在ICML等顶级会议。其构建方法更启发了后续多模态人机交互数据集的创建范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作