PillagerBench

Name: PillagerBench
Creator: 埃因霍温科技大学数学与计算机科学系,伦敦国王学院信息系,利物浦大学计算机科学系
Published: 2025-09-08 06:51:12
License: 暂无描述

arXiv2025-09-08 更新2025-09-10 收录

下载链接：

https://github.com/aialt/PillagerBench

下载链接

链接失效反馈

官方服务：

资源简介：

PillagerBench是一个为评估基于大型语言模型（LLM）的智能体在Minecraft中实时竞争团队对抗场景中的性能而设计的框架。该框架提供了可扩展的API、多轮测试和基于规则的内置对手，以实现公平和可重复的比较。PillagerBench包含两个竞争性游戏场景：蘑菇战争和Dash&Dine，每个场景评估LLMs的不同能力。蘑菇战争要求智能体在时间限制下有效地分配任务和执行行动；Dash&Dine挑战智能体在动态环境中计划、适应对手策略和管理复杂的因果关系。PillagerBench旨在促进多智能体AI在竞争环境中的发展，通过开源框架，推动多智能体系统在竞争性团队对抗环境中的研究。

提供机构：

埃因霍温科技大学数学与计算机科学系,伦敦国王学院信息系,利物浦大学计算机科学系

创建时间：

2025-09-08

原始信息汇总

PillagerBench 数据集概述

数据集简介

PillagerBench 是一个用于在竞争性 Minecraft 团队环境中评估基于大型语言模型（LLM）智能体的基准测试套件。该数据集旨在研究多智能体系统在 Minecraft 环境中的竞争性团队对战场景，并探索增强大型语言模型战术玩法的有效强化学习技术。

核心特点

专注于竞争性团队对战场景
提供复杂且动态的状态空间
包含可扩展的 PillagerAgent API，支持自定义场景和新的多智能体系统

安装要求

必需条件

API 密钥（需从以下服务获取）：
- OpenAI（用于访问 GPT-4o 等模型）
- DeepSeek（用于访问 DeepSeek 模型）
- OpenRouter（用于访问多种模型）
可选：Ollama（支持本地运行的模型）

本地安装方式

安装依赖：Python 3.10、Node.js 20（带 NPM）、Java 17
克隆代码库
设置 API 密钥文件
安装 NPM 包：./js_setup.sh
创建虚拟环境
安装依赖：pip install -r requirements.txt
运行基准测试

快速开始

在 configs 文件夹中设置 Hydra 测试配置
运行测试配置：python main.py -cn config_name
通过加入内部 Minecraft 服务器（需要 Minecraft 1.19.4）观察测试
使用 collate_results.py 可视化结果
可通过在 scenarios 文件夹中添加继承自 Scenario 基类的类来添加测试场景
可通过在 agents 文件夹中添加继承自 Agent 基类的类来添加多智能体系统

许可证

MIT License

搜集汇总

数据集介绍

构建方式

PillagerBench采用模块化架构设计，通过Docker容器技术确保环境一致性，利用YAML配置文件实现实验参数的可复现性。该数据集通过Mineflayer接口连接Minecraft服务器，为每个智能体创建独立进程以支持实时多智能体交互。其核心构建包含两个竞争性场景：Mushroom War侧重时间约束下的任务分配效率，Dash & Dine则强调复杂因果依赖与战略规划，每个场景均配置规则化内置对手团队以提供标准化评估基准。

特点

该数据集首创性地将团队协作与竞争对抗融合于开放世界环境，具备高度动态的资源约束特性。其核心特征体现在多维度评估体系：通过积分差异、破坏效率与胜率等量化指标综合衡量智能体性能；内置对手策略涵盖从被动防御到主动破坏的连续光谱，支持自适应学习验证；场景设计蕴含丰富的空间时序约束，如作物生长周期与制作流程的因果链，为研究多智能体战略推理提供了复杂且真实的测试环境。

使用方法

研究者可通过实现统一API接口接入多智能体系统，在预定义场景中与内置对手进行多轮对抗。使用流程包含三个阶段：赛前获取场景元数据与初始状态，赛中通过Mineflayer实例执行高层级动作并接收观察反馈，赛后进行性能指标聚合。系统支持跨回合持续学习，允许智能体通过历史数据更新因果模型与对手策略推断。评估时需运行连续5回合对抗并重复3次实验，以确保结果统计显著性。

背景与挑战

背景概述

PillagerBench由埃因霍温理工大学、伦敦国王学院和利物浦大学的研究团队于2025年提出，旨在填补竞争性多智能体环境评估的空白。该数据集基于《我的世界》游戏构建，聚焦团队对抗场景下的智能体协作与竞争能力评估。其核心研究问题在于探索大语言模型智能体在动态资源约束环境中的战略推理与适应性行为，为多智能体系统研究提供了首个支持实时对抗测试的标准化平台，推动了具身智能与战略决策领域的交叉发展。

当前挑战

该数据集主要解决竞争性多智能体协作的评估挑战，包括智能体在资源受限环境下任务分配优化、对手策略适应性以及因果依赖关系建模等复杂问题。构建过程中面临多重技术难点：需设计高保真游戏场景的实时交互接口，确保多智能体动作同步与状态一致性；需开发规则化内置对手以实现公平评估，同时避免策略泄漏；还需处理《我的世界》开放环境中动作空间庞大、观测信息部分可观测等特性带来的环境复杂性。

常用场景

经典使用场景

在竞争性多智能体系统研究中，PillagerBench作为首个基于Minecraft团队对抗环境的基准测试框架，其经典应用场景聚焦于评估大语言模型智能体在动态资源约束下的协同作战与战略对抗能力。该数据集通过蘑菇战争和急速餐饮两大核心场景，模拟了实时任务分配、因果推理及对手策略适应等复杂情境，为智能体在非平稳环境中的决策泛化性提供了标准化验证平台。

解决学术问题

PillagerBench有效解决了多智能体系统在竞争性环境中适应性评估的空白，尤其针对传统基准中缺失的开放世界动态交互问题。它通过引入团队零和博弈框架和因果图模型，为研究智能体的战略推理、协作效率及对抗性学习提供了量化基础，显著推进了多智能体强化学习与语言模型融合领域的理论发展。

衍生相关工作

PillagerBench催生了TactiCrafter等经典衍生系统，其战术生成模块与因果推理机制为后续研究提供了范式参考。相关工作进一步扩展至动态策略适应、多模态环境感知等领域，例如基于自我对弈的策略进化框架和跨场景泛化研究，持续推动竞争性多智能体系统向更高阶的自主决策能力发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集