Blocksworld Benchmark with MCP

Name: Blocksworld Benchmark with MCP
Creator: 德国汉堡联邦国防军大学自动化技术研究所
Published: 2025-12-04 00:49:14
License: 暂无描述

arXiv2025-12-04 更新2025-12-05 收录

下载链接：

https://github.com/hsu-aut/blocksworld_simulation

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由德国汉堡联邦国防军大学团队开发，是一个基于经典Blocksworld问题的可执行仿真基准测试，包含50个分属5种复杂度类别的预定义场景。数据集通过集成模型上下文协议（MCP）实现了标准化工具接口，支持动态交互与执行验证，涵盖空间限制、不完全信息等工业自动化典型挑战。其核心应用于评估大语言模型（LLM）代理的规划与执行能力，为自适应控制策略研究提供量化比较基础。

This dataset was developed by the research team from Universität der Bundeswehr Hamburg, Germany. It is an executable simulation benchmark based on the classic Blocksworld problem, containing 50 predefined scenarios categorized into 5 complexity classes. The dataset implements a standardized tool interface via the Integrated Model Context Protocol (MCP), supporting dynamic interaction and execution validation, and covers typical industrial automation challenges such as spatial constraints and incomplete information. Its core application is to evaluate the planning and execution capabilities of Large Language Model (LLM) agents, providing a quantitative comparison basis for adaptive control strategy research.

提供机构：

德国汉堡联邦国防军大学自动化技术研究所

创建时间：

2025-12-04

原始信息汇总

Blocksworld Simulation 数据集概述

数据集基本信息

名称：Blocksworld Simulation
类型：经典的积木世界AI规划问题的视觉模拟环境
核心功能：模拟一个可以跨多个堆栈操纵彩色积木的机器人手臂，支持通过交互式GUI和REST API进行程序化访问。

主要特性

交互式GUI：基于Pygame的视觉模拟，支持实时积木操纵。
REST API：基于Flask的完整API，用于程序化控制和自动化。
LLM集成：通过MCP服务器与AI助手兼容。
预定义场景：包含20多个具有不同难度级别的内置挑战。
计划执行与验证：在执行前测试AI生成的计划。
约束集：支持多种规则集，包括标准积木世界和汉诺塔规则。
最优解：为所有场景提供参考解决方案。
键盘控制：支持快速手动测试和实验。

控制方法

键盘控制

拾取/拆堆：按要拾取的积木对应的字母键。
放下：按SPACE键将手持积木放置在地面。
堆叠：手持积木时，按目标积木的字母键将其堆叠在目标积木上。
开始随机模拟：按SPACE键（当没有模拟运行时）。

REST API控制

API提供13个端点，用于完整的程序化控制：

模拟控制：POST /start_simulation、POST /stop_simulation、POST /quit
积木动作：POST /pick_up、POST /put_down、POST /stack、POST /unstack
计划执行：POST /execute_plan、POST /verify_plan
信息获取：GET /get_status、GET /get_rules、GET /scenarios、GET /scenarios/<name_or_id>

约束集

模拟支持不同的规则集：

base（默认）：标准积木世界规则，地面位置有限。
hanoi_towers：汉诺塔规则（积木必须按大小顺序放置）。

文档与相关资源

REST API文档：https://github.com/hsu-aut/blocksworld_simulation/blob/main/docs/rest-api.md
MCP服务器仓库：https://github.com/hsu-aut/llmstudy_mcp-server
场景定义路径：src/blocksworld_simulation/scenarios/definitions/
相关项目：Blocksworld MCP Server（https://github.com/hsu-aut/llmstudy_mcp-server）

搜集汇总

数据集介绍

构建方式

在工业自动化领域对灵活控制策略日益增长的需求背景下，该数据集通过构建一个可执行的积木世界模拟环境来建立。其核心架构采用模块化设计，以经典积木世界问题为基础，通过Python实现并集成了pygame进行二维可视化。数据集提供了包含五个复杂度类别的50个预定义场景，每个场景以JSON文件形式存储初始状态、目标配置、约束集及元数据。模拟环境通过Flask REST API暴露所有功能，并创新性地采用模型上下文协议作为标准化工具接口，将API端点封装为信息、验证和执行三类工具，从而支持不同智能体架构的无缝接入与评估。

特点

该数据集的特点体现在其系统化的复杂度维度和标准化的交互接口上。它通过四个独立维度——积木数量与非构造性动作比例、领域约束以及不完全信息——来精细调控任务难度，并据此划分为基础、含非构造性动作、无解、附加约束和部分可观测性五个类别。其最显著的特征在于深度集成模型上下文协议，这为大型语言模型智能体提供了动态工具发现与调用的统一接口，使得评估框架不再局限于静态规划，而是扩展到包含实时执行与重规划能力的综合测试。这种设计确保了不同智能体在一致条件下进行公平比较，同时保持了模拟环境在符号推理层面的可分析性与可解释性。

使用方法

使用该数据集时，研究人员可通过其标准化的模型上下文协议接口连接自定义的大型语言模型智能体架构。智能体通过MCP客户端访问服务器暴露的工具集，首先利用信息工具获取环境规则与当前状态，随后生成规划方案并通过验证工具进行可行性检验。验证通过后，智能体调用执行工具序列化地操作积木，模拟环境会实时验证动作并更新状态。数据集支持对规划与执行全流程的量化评估，包括成功率、执行时间、规划尝试次数和令牌消耗等核心指标。此外，其REST API也允许传统符号规划方法接入，实现了与基于学习的方法在同等条件下的直接性能对比。

背景与挑战

背景概述

随着工业自动化系统日益复杂化，动态环境对自适应控制策略提出了更高要求。基于大语言模型的智能体展现出在规划与执行方面的潜力，但缺乏标准化评估体系。2025年，德国联邦武装力量大学自动化技术研究所与西门子公司联合推出了集成模型上下文协议的积木世界基准测试。该基准以经典积木世界问题为基础，构建了包含五类复杂度场景的可执行仿真环境，旨在为不同架构的LLM智能体提供统一评估框架，推动工业自动化领域自适应规划技术的发展。

当前挑战

该数据集致力于解决智能体在符号推理与动态执行协同优化方面的核心挑战。传统符号规划方法依赖精确建模且缺乏灵活性，而现有LLM智能体评估多集中于静态文本任务，难以反映真实工业场景中部分可观测、动态约束等复杂条件。构建过程中面临多重挑战：需设计既能保持符号推理可解释性，又能支持实时交互的仿真架构；需通过模型上下文协议实现工具调用的标准化，确保不同智能体架构的无缝对接；需构建涵盖非构造性动作、块尺寸约束、部分可观测性等多维复杂度的场景体系，以全面评估智能体的规划鲁棒性与执行适应性。

常用场景

经典使用场景

在自动化与人工智能规划领域，Blocksworld Benchmark with MCP 最经典的使用场景是作为评估大型语言模型（LLM）智能体规划与执行能力的标准化测试平台。该数据集通过模拟经典的积木世界问题，构建了一个可执行的仿真环境，并集成了模型上下文协议作为标准化工具接口。研究者能够将不同的LLM智能体架构连接到该基准测试中，无需针对特定实现进行修改，即可在统一的条件下系统评估智能体在符号推理、多步规划、动态执行与错误恢复等方面的综合性能。

实际应用

该数据集的实际应用场景紧密贴合现代工业自动化对柔性控制策略的需求。在制造、物流或多机器人系统等动态复杂环境中，任务、系统配置和资源时常变化，需要能够根据松散指定的目标或运行时部分已知的环境进行自适应规划与执行的智能体。通过MCP接口，智能体可以像操作真实工业设备一样，发现并调用仿真环境中的工具，执行拾取、堆放等动作，并在执行失败时进行重新规划。这为验证LLM智能体在接近真实的、受约束的工业场景中的部署潜力提供了关键实验场。

衍生相关工作

该数据集建立在经典的Blocksworld规划领域之上，并衍生和衔接了多项相关经典工作。它直接与PlanBench、Sys2Bench等专注于静态规划能力评估的基准形成对比与补充。同时，通过集成MCP，它与MCP-RADAR、MCP-Universe、MCP-Bench等关注工具使用与跨领域工作流编排的评估框架产生了技术关联。此外，其设计思想也回应了AgentBench等多环境评估框架的挑战，旨在提供一个符号逻辑清晰、可系统分析推理过程的受控环境，从而推动结合LLM推理与形式化规划方法的混合架构等后续研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集