OSUniverse
收藏arXiv2025-05-06 更新2025-05-08 收录
下载链接:
https://github.com/agentsea/osuniverse
下载链接
链接失效反馈官方服务:
资源简介:
OSUniverse是一个为高级GUI导航AI代理设计的基准测试,专注于易用性、可扩展性、测试用例的全面覆盖和自动验证。它将任务分为不同复杂程度的级别,从基本的精确点击到需要敏捷性、精确性和清晰思维的多步多应用测试。数据集的创建机构是Kentauros AI Inc.,旨在通过自动化验证机制,以低于2%的平均错误率来评估GUI导航AI代理的进展、能力和有效性。
OSUniverse is a benchmark tailored for advanced GUI-navigating AI Agents, with a focus on usability, scalability, comprehensive coverage of test cases, and automated verification. It categorizes tasks into tiers of varying complexity, ranging from basic precise clicks to multi-step, cross-application testing that requires agility, precision, and clear reasoning. Developed by Kentauros AI Inc., OSUniverse aims to evaluate the progress, capabilities, and effectiveness of GUI-navigating AI Agents through automated verification mechanisms, with an average error rate of less than 2%.
提供机构:
Kentauros AI Inc.
创建时间:
2025-05-06
原始信息汇总
OSUniverse数据集概述
数据集简介
- 名称:OSUniverse
- 类型:面向任务的基于操作系统的基准测试
- 用途:评估基于视觉的桌面GUI导航代理
关键特性
- 测试类别:
desktop,browser,gym,terminal,libreoffice_calc,libreoffice_writer,multiapp - 难度等级:
paper,wood,bronze,silver,gold - 最大步骤设置:默认值为5,25,50,100,200
推荐模型
- Computer Use Preview模型:
computer-use-preview-2025-03-11 - Claude 3.5 Sonnet模型:
claude-3-5-sonnet-20241022 - Qwen 2.5 VL模型:
qwen2.5-vl-72b-instruct,qwen2.5-vl-7b-instruct - 通用VLM模型:
gpt-4o-2024-11-20,gemini/gemini-1.5-pro-002
使用方式
- 克隆仓库:
git clone https://github.com/agentsea/osuniverse.git - 安装依赖:
poetry install - 运行基准测试:
python benchmark.py - 查看结果:
streamlit run viewer.py
兼容性
- Surfkit版本:
0.1.396 - Taskara版本:
0.1.228 - AgentDesk版本:
0.2.120
扩展性
- 支持添加新测试用例
- 支持编写自定义代理
- 支持编写自定义运行器
相关资源
- 论文:https://arxiv.org/abs/2505.03570
- 网站:https://agentsea.github.io/osuniverse/
搜集汇总
数据集介绍

构建方式
OSUniverse数据集通过精心设计的YAML文件定义测试单元,每个测试单元包含环境容器配置、任务描述及验证条件。测试案例分为五个复杂度等级(Paper至Gold),覆盖浏览器、桌面应用、终端等多类别操作。验证机制采用Gemini模型进行自动化检查,支持四种校验方式(结果比对、截图比对、命令输出比对及流程比对),确保评估的全面性与准确性。数据集运行于Docker容器化的AgentDesk虚拟桌面环境,支持并行测试执行,资源消耗可控。
特点
该数据集以真实办公场景为蓝本,突出多应用协同、跨界面信息整合等高阶人机交互任务。其核心特点包括:1) 非确定性任务设计,避免传统基准对确定性验证的依赖;2) 加权评分体系,根据任务复杂度(最高Gold级需实时GUI交互)动态调整权重;3) 自动化验证误差率低于2%,结合Streamlit人工复核界面实现双重保障;4) 兼容多种代理架构(如ReACT)及主流商业模型(Claude/Gemini等),提供参考代理实现。
使用方法
使用者需配置Docker环境并下载预置镜像,通过YAML文件定义或扩展测试案例。运行阶段可选择预置代理(需相应API密钥)或自定义代理(需实现Runner接口)。基准测试模块自动执行任务并生成轨迹日志,通过Gemini模型进行验证评分。研究人员可通过Streamlit可视化界面分析代理行为轨迹,支持人工评分覆盖自动验证的争议案例。开源代码库提供完整文档及案例模板,便于社区贡献新测试场景。
背景与挑战
背景概述
OSUniverse是由Kentauros AI Inc.的研究团队于2025年提出的多模态GUI导航AI智能体基准测试平台,旨在解决桌面环境下的复杂任务执行评估问题。该数据集通过分级任务设计(从基础点击到多应用跨流程操作)系统性地衡量智能体的视觉感知、精确操作和逻辑推理能力。其创新性体现在自动化验证机制(误差率<2%)和模块化架构设计,填补了现有基准(如OSWorld)在真实办公场景覆盖度和易用性方面的空白,为GUI导航领域的研究提供了标准化评估框架。
当前挑战
该数据集面临双重挑战:在领域问题层面,需解决Moravec悖论下机器视觉-动作协同的精确性问题,特别是跨应用信息整合、实时交互等人类轻松完成但AI失败率超50%的高阶任务;在构建层面,需平衡非确定性任务验证的准确性(依赖Gemini模型的1.64%分歧率)与计算成本,同时克服多动作空间适配(如ReACT架构限制)和资源密集型环境(Docker容器化桌面)带来的工程复杂性。
常用场景
经典使用场景
OSUniverse数据集作为多模态GUI导航AI代理的基准测试工具,其经典使用场景主要集中在评估代理在复杂桌面环境中的任务执行能力。从基础的精准点击到跨应用程序的多步骤操作,该数据集通过分层任务设计(如Paper至Gold五个难度等级)全面检验代理的视觉感知、逻辑推理和动作执行能力。研究者可利用其自动化验证机制(误差率<2%)高效对比不同代理在真实办公场景下的性能差异,例如处理电子表格编辑、邮件发送或跨软件数据整合等任务。
衍生相关工作
该数据集已催生多项GUI导航领域的创新研究,包括OpenAI的Computer Use Agent架构优化(在跨应用任务中表现提升34%)和QWEN 2.5 VL 72B开源模型的微调实践。其模块化设计启发了SurfKit工具包的开发,支持研究者快速构建定制化代理。相关工作还探索了强化学习(如DAPO算法)在非确定性任务中的表现提升,验证了数据集中Gold级任务对新型训练方法的压力测试价值。这些衍生研究共同推动了多模态代理从单纯浏览器操作向全栈桌面自动化的范式转变。
数据集最近研究
最新研究方向
随着多模态人工智能技术的迅猛发展,GUI导航智能体正成为人机交互领域的前沿研究方向。OSUniverse基准测试的推出,为评估这类智能体的综合能力提供了全新范式。该数据集通过分层任务设计,从基础点击操作到跨应用程序的复杂工作流,系统性地考察了智能体在视觉感知、动作执行和逻辑推理等方面的表现。当前研究热点集中在如何提升智能体在非确定性环境下的泛化能力,以及通过强化学习等先进方法优化决策过程。值得注意的是,该基准测试揭示出现有最先进模型在黄金级任务上的表现仍不足10%,与人类办公人员近乎完美的准确率形成鲜明对比,这一差距凸显了GUI导航领域仍存在巨大的技术挑战。OSUniverse的自动化验证机制(误差率<2%)为快速迭代模型提供了可靠保障,其开源特性也促进了学术界的广泛参与。该数据集的出现,不仅为衡量AI代理的短期进步提供了客观标准,更为构建真正实用化的数字工作助手指明了发展方向。
相关研究论文
- 1OSUniverse: Benchmark for Multimodal GUI-navigation AI AgentsKentauros AI Inc. · 2025年
以上内容由遇见数据集搜集并总结生成



