Windows Agent Arena
收藏arXiv2025-09-30 收录
下载链接:
https://microsoft.github.io/WindowsAgentArena
下载链接
链接失效反馈官方服务:
资源简介:
该数据集专为Windows操作系统打造,提供了一个可复现的通用环境,其中包含150多个多样化的任务,这些任务要求代理具备规划、屏幕理解和工具使用等多方面的能力。该基准测试具有可扩展性,并且可以在Azure上进行并行处理,以便快速进行评估。其规模达到150多个不同的任务,主要任务是评估在Windows操作系统环境中的多模态代理。
This dataset is tailored for the Windows operating system, providing a reproducible general-purpose environment that contains over 150 diverse tasks. These tasks require agents to possess multiple capabilities including planning, screen understanding, and tool utilization. This benchmark is scalable and supports parallel processing on Azure to enable rapid evaluation. With over 150 distinct tasks, it primarily focuses on evaluating multimodal agents operating in the Windows environment.
提供机构:
Microsoft
搜集汇总
背景与挑战
背景概述
该数据集是专为Windows操作系统设计的基准测试环境,包含150多个多样化任务,要求代理具备规划、屏幕理解和工具使用等多方面能力,以评估多模态代理的性能。它具有可扩展性,并支持在Azure上进行并行处理,以实现快速评估。
以上内容由遇见数据集搜集并总结生成



