TowerMind

Name: TowerMind
Creator: 纽卡斯尔大学; 奥克兰大学
Published: 2026-01-10 00:18:08
License: 暂无描述

arXiv2026-01-10 更新2026-01-13 收录

下载链接：

https://github.com/tb6147877/TowerMind

下载链接

链接失效反馈

官方服务：

资源简介：

TowerMind是由纽卡斯尔大学和奥克兰大学联合开发的塔防游戏数据集，旨在为LLM提供轻量级、多模态的测试环境。该数据集包含5个精心设计的基准测试级别，支持像素、文本和结构化游戏状态三种观察模式，数据量约0.15GB，可在CPU上高效运行。通过Unity游戏引擎构建，数据集特别注重对模型幻觉行为的评估，并提供了高度可定制性。主要应用于人工智能代理领域，用于评估LLMs在复杂任务中的长期规划、决策制定及多模态理解能力，同时也可作为强化学习算法的测试平台。

TowerMind is a tower defense game dataset co-developed by Newcastle University and The University of Auckland, aiming to provide a lightweight, multimodal test environment for Large Language Models (LLMs). This dataset includes 5 meticulously designed benchmark levels, supporting three observation modes: pixel-based, text-based, and structured game state. The total data volume is approximately 0.15 GB, and it can run efficiently on CPUs. Built with the Unity game engine, this dataset places special emphasis on evaluating model hallucination behaviors and offers high customizability. It is primarily applied in the field of AI Agents, used to assess the long-term planning, decision-making, and multimodal understanding capabilities of LLMs in complex tasks, and can also serve as a test platform for reinforcement learning algorithms.

提供机构：

纽卡斯尔大学; 奥克兰大学

创建时间：

2026-01-10

原始信息汇总

TowerMind数据集概述

数据集基本信息

数据集名称：TowerMind
关联研究：TowerMind: A Tower Defence Game Learning Environment and Benchmark for LLM as Agents (AAAI 2026 Oral)
当前状态：代码正在整理中，即将发布

数据集内容与用途

核心内容：一个塔防游戏学习环境与基准测试平台
主要用途：用于评估大型语言模型（LLM）作为智能体的能力

备注

数据集代码尚未正式发布，具体细节待公布。

搜集汇总

数据集介绍

构建方式

在实时策略游戏研究领域，现有环境往往面临计算资源需求高昂或缺乏文本观察支持的双重挑战。为填补这一空白，TowerMind数据集应运而生，其构建基于Unity游戏引擎，并利用Unity ML-Agents工具包扩展为人工智能环境。该数据集以塔防这一实时策略子类游戏为核心，设计了包含道路、防御塔点、敌人波次及资源系统的复杂游戏场景。数据采集通过程序化生成与人工设计相结合的方式完成，确保了关卡在几何结构、敌人配置与资源分布上的多样性。环境严格遵循OpenAI Gym接口标准，便于与现有机器学习框架无缝集成，同时通过固定随机种子确保了实验的可重复性。

使用方法

TowerMind数据集主要服务于对大语言模型长程规划与决策能力的系统性评估。研究者可通过零样本提示策略，将包含游戏目标、规则、动作空间及历史交互的提示文本输入模型，模型则需基于当前的多模态观察（如游戏截图或JSON格式的游戏状态）生成包含空间坐标与动作类型的决策。评估过程涵盖五个难度递增的基准关卡，核心指标包括反映防御效能的游戏得分，以及衡量输出可靠性的有效动作率。数据集同样适用于强化学习算法的基准测试，支持对Ape-X DQN、PPO等经典算法在离散化动作空间下的性能评估。通过其提供的标准化接口与可复现的实验设置，TowerMind为智能体研究的公平比较与深入分析奠定了坚实基础。

背景与挑战

背景概述

TowerMind是由英国纽卡斯尔大学与新西兰奥克兰大学的研究团队于2026年提出的一个轻量级塔防游戏环境与基准测试平台，旨在评估大型语言模型作为智能体在长期规划与决策制定方面的能力。该数据集基于实时策略游戏的塔防子类型构建，通过提供像素、文本和结构化游戏状态三种观测模态，支持对多模态大语言模型的系统性评估。其核心研究问题聚焦于如何在大语言模型日益成为通用智能体范式的背景下，高效且低成本地测试其在复杂动态环境中的宏观战略规划与微观战术执行能力。TowerMind的推出弥补了现有基于实时策略游戏的基准测试在计算资源需求过高或缺乏文本观测支持方面的不足，为人工智能智能体研究领域引入了新的轻量化、可定制化评估工具，促进了相关算法在快速迭代与大规模并行训练场景中的应用。

当前挑战

TowerMind所针对的领域挑战在于如何准确评估大语言模型在需要同时进行长期规划与实时决策的复杂任务中的性能，例如在塔防游戏中动态部署防御塔、控制单位以抵御多波敌人进攻。构建该数据集面临多重技术挑战：首先，需在保留实时策略游戏核心评估优势的同时，显著降低计算需求，使其能在普通CPU上高效运行，而非依赖高性能GPU；其次，必须设计支持多模态观测的空间，特别是文本观测接口，以兼容大语言模型的输入特性；此外，还需集成对模型幻觉的评估机制，通过有效动作率指标量化模型输出与游戏规则及状态的一致性；最后，实现高度可定制化，包括提供图形化关卡编辑器与可调游戏参数，以支持多样化的研究需求并避免数据污染。

常用场景

经典使用场景

在人工智能代理研究领域，TowerMind作为一款轻量级塔防游戏环境，其经典使用场景聚焦于评估大型语言模型在复杂决策任务中的长期规划与实时决策能力。该环境通过模拟塔防游戏的核心机制，要求模型在动态战场中部署防御塔、控制单位并管理资源，以抵御连续敌波进攻。这种设置不仅保留了即时战略游戏对宏观战略与微观战术的双重要求，还通过文本、像素和结构化游戏状态的多模态观察空间，为模型提供了丰富的环境信息输入。研究者可借助TowerMind的五个基准关卡，系统测试模型在不同难度下的表现，从而深入分析其在多步骤任务分解、资源分配和实时适应等方面的能力。

解决学术问题

TowerMind主要解决了人工智能研究中两个关键问题：一是缺乏轻量级且支持文本观察的即时战略游戏环境，以往基于《星际争霸II》的基准平台虽能有效评估模型能力，但计算资源需求较高，限制了大规模实验的可行性；二是现有环境在评估模型幻觉方面存在不足，无法量化模型生成无效或不符合游戏规则的行为。TowerMind通过低计算开销的设计和内置的幻觉评估指标，填补了这一空白，使研究者能够在资源受限条件下，系统考察模型在动态环境中的规划有效性、决策合理性和行动可执行性。其意义在于推动了高效、可复现的智能体评估方法的发展，并为理解模型在复杂交互任务中的局限性提供了实证基础。

实际应用

在实际应用层面，TowerMind为快速研究迭代和大规模并行训练提供了便利平台。其轻量级特性使得在普通计算设备上运行成为可能，适用于学术机构和企业研发团队进行原型验证与算法对比。例如，在强化学习研究中，该环境可作为挑战性基准，用于测试算法在部分可观测、多模态输入下的泛化性能；在大型语言模型领域，则能辅助模型微调与提示工程优化，帮助开发者识别模型在长序列决策中的薄弱环节。此外，TowerMind的高度可定制性允许研究者根据特定需求设计关卡或调整游戏参数，从而拓展其在教育模拟、自动化测试和智能决策系统开发等场景中的应用潜力。

数据集最近研究