MCPWorld
收藏arXiv2025-06-09 更新2025-06-11 收录
下载链接:
https://github.com/SAAgent/MCPWorld
下载链接
链接失效反馈官方服务:
资源简介:
MCPWorld是一个针对API、GUI和混合桌面计算机使用代理(CUA)的统一基准测试平台。它使用“白盒应用”,即那些具有源代码可用性并且可以根据需要修改/重新编译的应用程序,例如添加MCP支持。这种设计选择不仅极大地扩展了CUA的设计空间,例如应用程序功能如何作为CUA可调用的API暴露/提取,而且还允许MCPWorld通过直接监控应用程序行为的技术(如动态代码检测)来编程方式验证任务完成情况,提供与特定代理实现或UI状态无关的鲁棒、准确的CUA评估。目前,MCPWorld包括201个精心策划和注释的用户任务,涵盖了多样化的用例和难度级别。MCPWorld也完全容器化,支持GPU加速,以适应不同的操作系统/硬件环境。我们的初步实验,使用一个代表性的LLM-powered CUA框架,实现了75.12%的任务完成准确性,同时提供了利用MCP进行代理自动化的实际有效性的初步证据。总的来说,我们预计MCPWorld将促进和标准化下一代计算机使用代理的基准测试,这些代理可以利用丰富的外部工具。
MCPWorld is a unified benchmarking platform for API-, GUI-, and hybrid desktop computer usage agents (CUA). It adopts "white-box applications", which refer to applications with available source code that can be modified or recompiled on demand—for example, to add MCP support. This design choice not only greatly expands the design space of CUAs, such as how application functions are exposed or extracted as callable APIs for CUAs, but also enables MCPWorld to programmatically verify task completion via techniques that directly monitor application behavior (e.g., dynamic code detection), delivering robust and accurate CUA evaluation that is independent of specific agent implementations or UI states. Currently, MCPWorld includes 201 carefully curated and annotated user tasks covering diverse use cases and difficulty levels. MCPWorld is also fully containerized and supports GPU acceleration to accommodate diverse operating system and hardware environments. Our preliminary experiments, conducted using a representative LLM-powered CUA framework, achieved a task completion accuracy of 75.12%, while providing preliminary evidence of the practical effectiveness of leveraging MCP for agent automation. Overall, we anticipate that MCPWorld will facilitate and standardize benchmarking for next-generation computer usage agents that can leverage a rich set of external tools.
提供机构:
北京邮电大学,鹏城实验室
创建时间:
2025-06-09
原始信息汇总
MCPWorld 数据集概述
数据集简介
MCPWorld是一个开源的基准测试框架,专为评估计算机使用代理(CUAs)而设计。支持通过GUI、API(模型上下文协议-MCP)或混合方法与软件应用程序交互的代理。
关键特性
- 全面的任务套件
- 包含约170个任务,覆盖10多个开源应用程序(如VSCode、OBS、Zotero等)。
- GUI、API和混合交互
- 集成的MCP支持强大的混合模式控制,允许代理在API不可用时回退到GUI。
- 白盒评估
- 内置评估器检查内部应用程序信号或输出,确保任务验证的精确性和可重复性。
- 跨平台支持
- 通过Docker容器化环境,确保在Linux、macOS和Windows上的一致设置。
- 可扩展框架
- 通过清晰的文件夹结构和接口,轻松添加新任务、应用程序或自定义代理。
安装与设置
先决条件
- Docker
- (可选)VS Code + DevContainers扩展
快速安装
bash git clone https://github.com/SAAgent/MCPWorld.git cd MCPWorld git submodule update --init PC-Canary
快速开始
交互式代理演示与评估
-
安装依赖 bash pip install -r computer-use-demo/computer_use_demo/requirements.txt
-
启动服务
- VNC服务器
- noVNC代理
- 主页面HTTP服务器
- 代理演示与评估UI(Streamlit应用)
-
访问演示
- 统一接口:
http://localhost:8081 - VNC桌面(直接访问):
http://localhost:6080 - 代理与评估UI(直接访问):
http://localhost:8501
- 统一接口:
无头代理与评估执行(仅CLI)
bash python computer-use-demo/run_pure_computer_use_with_eval.py --api_key <YOUR_ANTHROPIC_API_KEY> --model claude-3-7-sonnet-20250219 --task_id telegram/task01_search --log_dir logs_computer_use_eval --exec_mode mixed
文档
- 任务:查看
PC-Canary/tests/tasks/中的JSON/JS/Python配置。 - 代理:参考
computer-use-demo/中的实现。 - 扩展:添加新应用程序/任务/代理(文档更新中)。
- 评估:白盒评估器确保客观指标。
许可证
MIT许可证。
搜集汇总
数据集介绍

构建方式
MCPWorld数据集构建采用了一种创新的“白盒应用”原则,即选择源代码可获取并可修改的开源应用程序作为测试环境。研究团队通过动态代码插桩技术,在应用内部植入监控钩子,实现了对API、GUI及混合模式计算机使用代理(CUA)的精准评估。数据集包含201个经过精细标注的用户任务,覆盖10类常用桌面软件(如VS Code、OBS Studio等),每个任务均通过源代码分析构建了定制化的验证逻辑,包括动态二进制插桩、目标代码注入和API驱动状态查询三种验证方法。所有测试环境均采用Docker容器化部署,支持GPU加速,确保跨操作系统和硬件平台的可复现性。
特点
MCPWorld的核心特征在于其评估范式与应用程序内部状态的深度耦合。通过直接监控应用内部信号(如函数调用、事件触发或状态转换),该数据集实现了与具体代理实现或UI状态无关的鲁棒性评估。数据集任务设计呈现多维度复杂性:按GUI操作步骤划分为简单(1-5步)、中等(5-10步)和困难(10+步)三个等级;覆盖配置修改、内容创建、跨应用工作流等真实场景;每个任务配备自然语言指令和细粒度进度标记。特别值得注意的是其混合交互空间设计,允许代理自由组合GUI操作与MCP协议暴露的API功能,为研究多模态代理协同提供了独特实验平台。
使用方法
使用MCPWorld需遵循标准化容器部署流程:首先加载包含任务描述和验证逻辑的配置文件,通过Docker启动预配置的桌面环境(支持XFCE轻量版或KDE GPU加速版)。代理通过统一工具空间与环境交互,可选择的输入模式包括GUI-only(像素级截图+键鼠模拟)、MCP-only(直接API调用)或Hybrid(混合模式)。评估系统会实时捕获应用内部触发的验证信号,基于预定义的处理器判断任务完成度。研究人员可通过扩展MCP服务器集成新工具,或利用现有任务模板快速构建新测试用例。初步实验表明,基于Claude 3.7 Sonnet的混合代理在数据集上达到75.12%的任务完成准确率,为后续研究提供了性能基准。
背景与挑战
背景概述
MCPWorld是由北京邮电大学和鹏城实验室的研究团队于2025年提出的首个面向API、GUI及混合模式计算机使用代理(CUA)的统一基准测试平台。该数据集旨在解决现有CUA基准测试主要针对GUI代理的局限性,通过引入'白盒应用'概念,即允许修改和重新编译源代码的应用,极大地扩展了CUA的设计空间。MCPWorld包含201个精心设计的用户任务,覆盖了10种常用桌面应用,任务难度从简单配置到复杂多步骤工作流不等。该数据集的创新性在于其程序化验证任务完成情况的能力,通过动态代码插桩等技术直接监控应用内部行为,从而实现了与特定代理实现或UI状态无关的鲁棒评估。
当前挑战
MCPWorld面临的挑战主要体现在两个方面:领域问题挑战和构建过程挑战。在领域问题方面,如何准确评估混合模式代理的性能是一个关键挑战,特别是当代理同时使用GUI和API交互时,评估方法需要兼顾两种模式的特性。此外,设计能够全面测试代理能力的多样化任务也是一个挑战,需要平衡任务的复杂性和现实性。在构建过程方面,主要挑战包括:1) 如何为不同应用设计统一的任务验证逻辑,特别是需要深入理解应用源代码;2) 如何确保容器化环境的稳定性和一致性,特别是在支持GPU加速的情况下;3) 如何设计既具有挑战性又能反映真实用户场景的任务,同时确保这些任务可以通过程序化方式验证。
常用场景
经典使用场景
在人工智能与计算机交互领域,MCPWorld数据集作为首个支持API、GUI及混合模式的自动化代理测试平台,为研究者提供了标准化的评估环境。其核心价值在于通过“白盒应用”设计,允许直接监控应用程序内部行为,从而实现对任务完成情况的精准验证。该数据集包含201个涵盖10类常见桌面应用的多样化任务,从简单的配置操作到复杂的多步骤工作流,为评估代理在不同交互模态下的性能提供了全面基准。
实际应用
在实际应用层面,MCPWorld为开发智能办公助手、自动化测试工具等场景提供了验证平台。企业可利用其评估代理在真实软件环境中的文档处理、系统配置等任务完成度。教育领域可基于该基准测试编程教学代理的调试能力,而开源社区则能通过标准化的MCP协议扩展应用支持。其容器化设计更支持跨操作系统部署,显著提升了工业界落地应用的验证效率。
衍生相关工作
该数据集已衍生出多项重要研究工作。在GUI自动化领域,LlamaTouch等系统借鉴了其容器化环境设计;API代理框架如ToolLLM采用类似的MCP协议扩展工具调用能力。OSWorld等后续基准测试继承了对跨应用工作流的评估思路,而VisualAgentBench则发展了其多模态观察空间的构建方法。这些工作共同推动了下一代人机交互代理的技术演进。
以上内容由遇见数据集搜集并总结生成



