WindowsWorld
收藏github2026-04-24 更新2026-05-01 收录
下载链接:
https://github.com/HITsz-TMG/WindowsWorld
下载链接
链接失效反馈官方服务:
资源简介:
WindowsWorld是一个跨应用程序工作流的计算机使用基准测试,旨在系统评估GUI代理在复杂多步任务上的性能,这些任务反映了现实世界中的专业活动。它包括181个任务,覆盖17个桌面应用程序,分为4个难度级别,77.9%的任务涉及多个应用程序,反映了真实的跨应用程序工作流。数据集还包含16个专业角色和多样化的现实办公场景。
WindowsWorld is a computer usage benchmark for cross-application workflows, designed to systematically evaluate the performance of GUI agents on complex multi-step tasks that reflect real-world professional activities. It comprises 181 tasks spanning 17 desktop applications, categorized into four difficulty levels, with 77.9% of the tasks involving multiple applications, thus reflecting real-world cross-application workflows. The dataset also includes 16 professional roles and diverse realistic office scenarios.
创建时间:
2026-04-14
原始信息汇总
WindowsWorld 数据集概述
基本信息
- 数据集名称: WindowsWorld
- 论文状态: ACL 2026 Findings
- 许可证: Apache 2.0
- 支持环境: Windows 10/11, Windows Server 2022/2025
- 所需Python版本: 3.11+
数据集核心特点
任务规模
- 总任务数: 181个任务
- 覆盖应用: 17个桌面应用程序
- 难度等级: 4个等级(L1–L4),分布比例为 21.5% / 44.2% / 27.6% / 6.6%
跨应用特性
- 多应用任务占比: 77.9%
- 任务涉及应用数量分布: 1个应用(22.1%)、2个应用(23.8%)、3个应用(47.5%)、4个应用(5.5%)、5个应用(1.1%)
评估机制
- 平均中间检查点: 每个任务4.97个中间检查点,支持过程感知评估
- 任务设计基础: 基于16个专业角色和多样化的真实办公场景
实验结果
评估设置
- 动作空间: 大模型使用统一的PyAutoGUI动作空间,UiPath使用OSWorld的Computer_13动作空间
- 输入类型: 纯模型评估支持Screenshot、Screenshot + Accessibility Tree、Set-of-Mark三种输入;Agent系统(S3和UiPath)使用Screenshot输入
- 最大步数预算: L1(15步)、L2(25步)、L3(40步)、L4(20步)
- 评估指标: $S_{mathrm{int}}$(L1–L3中间检查点平均分)、$S_{mathrm{final}}$(L1–L4最终任务完成平均分)
安装与使用
安装步骤
- 设置VMWare Workstation Pro: 支持免费注册Broadcom账户下载
- 配置环境: 使用conda创建Python 3.11环境,安装依赖包
- 配置API密钥: 支持GPT、Gemini、Claude、Qwen四种模型类型
- 导入虚拟机镜像: 按照安装指南导入虚拟机
运行基准测试
- 支持多种动作空间(PyAutoGUI、computer_13)和观察类型(screenshot、a11y、screenshot_a11y、som)
- 可通过命令行参数指定并行数、模型名称等
致谢与引用
- 基于工作: OSWorld基准测试
- 引用格式: 论文《WindowsWorld: A Process-Centric Benchmark of Autonomous GUI Agents in Professional Cross-Application Environments》,发表于ACL 2026 Findings
搜集汇总
数据集介绍

构建方式
WindowsWorld数据集由哈尔滨工业大学深圳TMG实验室构建,旨在系统评估图形用户界面(GUI)智能体在跨应用工作流中的表现。该数据集基于虚拟化环境,通过VMware虚拟机部署完整的Windows操作系统,并在其中预装17种桌面级办公应用。数据集的构建过程严格遵循真实职业场景,设计了涵盖16种专业角色画像的181项任务,任务难度划分为四个等级(L1至L4),其中77.9%的任务涉及至少两个应用程序。为了支持过程感知的评估范式,每个任务平均设置了4.97个中间状态检查点,从而实现对智能体执行路径的细粒度追踪与评估。
特点
WindowsWorld数据集的核心特色在于其过程导向与跨应用复杂性的深度融合。与传统仅关注最终结果的基准不同,该数据集引入了中间检查点机制,使得评估能够捕捉智能体在完成任务过程中的局部进展与潜在错误。数据集覆盖的任务类型从单一应用到最多五个应用的协作流,全面反映了专业办公环境中的真实跨应用需求。此外,任务难度的阶梯式分布(L1至L4)确保了从简单操作到高度复杂编排的全面覆盖,而专业角色画像的纳入则进一步提升了任务的现实相关性,为衡量GUI智能体的实用性与鲁棒性提供了坚实的测试基础。
使用方法
使用WindowsWorld数据集需首先配置VMware Workstation Pro环境,并导入提供的虚拟机镜像文件。数据集依赖Python 3.11及以上版本,用户需通过pip安装所需依赖库,并配置相应大语言模型的API密钥(如OpenAI、Gemini、Claude等)。执行评估时,运行`hf_run.py`脚本,指定基准文件、虚拟机路径、模型名称、动作空间(如PyAutoGUI或Computer_13)及观测类型(如截图、无障碍树、标记图像等)。用户可根据硬件资源设置并行计算数量以加速评估。任务执行完毕后,通过`show_result.py`脚本汇总并分析结果,从而获得智能体在过程级与最终级的两类性能指标。
背景与挑战
背景概述
随着图形用户界面(GUI)智能体在自动化办公、软件测试等领域展现出巨大潜力,构建能够模拟人类专业工作者在复杂跨应用工作流中行为的基准测试变得至关重要。WindowsWorld数据集由哈尔滨工业大学(深圳)TMG实验室的李金超、李云欣等研究人员于2026年提出,并被ACL 2026 Findings收录。该基准聚焦于真实世界专业场景下的跨应用协作任务,涵盖17款桌面应用、181项任务,其中77.9%的任务涉及多个应用程序协同,难度从L1至L4逐级递增。与仅评估最终状态的基准不同,WindowsWorld引入了平均每项任务4.97个中间状态检查点,实现了对GUI智能体执行过程的全方位、细粒度评估,填补了专业级多应用流程理解与自动化领域的评测空白。
当前挑战
WindowsWorld所应对的核心挑战在于:首先,现有GUI基准多局限于单应用环境或简单网页操作,难以反映专业人士在日常工作中频繁遭遇的多应用切换、数据迁移与协同编辑等复杂场景,亟需建立能够模拟真实办公流水线的评测体系。其次,构建过程面临多重技术难点,包括如何系统性地定义涵盖16种职业角色的多样化任务脚本,确保任务间难度递进合理且不依赖特定软件版本;如何在虚拟机环境中高效部署并维持应用间依赖与状态的一致性;以及如何设计并自动验证中间检查点,在不干扰智能体执行的前提下捕捉其决策路径的正确性。这些挑战共同决定了WindowsWorld在推动GUI智能体迈向高级自动化进程中的关键支撑作用。
常用场景
经典使用场景
WindowsWorld作为面向过程(Process-Centric)的图形用户界面(GUI)智能体基准测试平台,其经典使用场景聚焦于自动化评估智能体在跨应用程序专业工作流中的执行能力。该基准精心编排了181个任务,覆盖17款桌面应用程序,任务难度从L1至L4逐级递增,其中高达77.9%的任务涉及多应用协同操作。研究者借助平均每个任务约4.97个过程检查点(Intermediate Checkpoints),实现对智能体中间状态与最终完成的细粒度评估,系统度量模型在复杂办公场景下的规划、导航与操作能力。
解决学术问题
该数据集精准解决了当前GUI智能体研究中缺乏跨应用流程式评估基准的痛点。以往基准多聚焦于单一应用或最终结果评测,难以反映真实办公环境的复杂协同需求。WindowsWorld通过引入16种专业角色模拟和多样化办公场景,提供了过程感知(Process-Aware)的评估范式,使得研究者能够从中间状态逐步解析智能体的决策链条,而非仅关注任务终点。这一创新显著推动了对智能体多步规划、错误恢复与任务拆解能力的学术探索,为构建更智能、更鲁棒的桌面自动化代理奠定了坚实的实验基础。
衍生相关工作
WindowsWorld的出现衍生了一系列有价值的后续工作。首先,它基于并扩展了OSWorld基准,构建了更侧重过程评估与多应用交互的测试框架,启发了其他研究者开发类似的过程感知型评估基准。其次,实验中对比的S3和UiPath等智能体系统,在WindowsWorld上的表现差异直接催生了关于输入模态融合(如截图与无障碍树结合)以及动作空间优化(如PyAutoGUI与Computer_13)的深入研究。此外,该基准发布的数据集和分析结果,也为GUI智能体的领域泛化研究和预训练策略的改进提供了宝贵资源,推动了智能体基础模型在桌面交互能力上的持续进化。
以上内容由遇见数据集搜集并总结生成



