MazeEval
收藏arXiv2025-07-28 更新2025-08-13 收录
下载链接:
https://github.com/Haffi112/maze-eval-paper
下载链接
链接失效反馈官方服务:
资源简介:
MazeEval是一个用于评估语言模型的空间推理能力的基准数据集,通过坐标导航任务测试模型的空间推理能力。数据集包含从5x5到15x15不同复杂度的迷宫,模型只能使用坐标反馈和距离墙的信息进行导航,排除了视觉输入。数据集还包括在英语和冰岛语两种语言下的评估,以检验空间推理能力的跨语言迁移。
MazeEval is a benchmark dataset for evaluating the spatial reasoning capabilities of language models, which assesses their spatial reasoning abilities via coordinate-based navigation tasks. The dataset comprises mazes with varying complexities ranging from 5x5 to 15x15. Models are only permitted to use coordinate feedback and distance information relative to walls for navigation, with visual inputs completely excluded. Additionally, the dataset features evaluations in both English and Icelandic to examine cross-lingual transfer of spatial reasoning abilities.
提供机构:
冰岛大学
创建时间:
2025-07-28
搜集汇总
数据集介绍

构建方式
MazeEval数据集的构建采用了深度优先搜索(DFS)算法生成具有唯一解路径的迷宫,迷宫规模从5×5到15×15网格不等,每个尺寸生成5个独特迷宫以确保评估的全面性。研究团队设计了基于坐标反馈的交互接口,模型仅能获取当前位置坐标、四面墙距信息及目标位置坐标,完全排除了视觉输入的干扰。这种设计巧妙地模拟了传感器信息受限环境下的纯空间推理场景,为评估语言模型的基础空间认知能力提供了理想框架。
特点
该数据集的核心特点在于其纯粹的空间推理评估范式,通过完全剥离视觉线索,专注于测试语言模型基于坐标信息的序列决策能力。迷宫结构经过精心设计,包含多个决策点和死胡同,能有效区分不同模型的路径规划效率。独特的多语言评估维度(英语和冰岛语)揭示了空间能力与语言资源的相关性,而严格的历史访问记录限制则暴露出模型在空间记忆维护方面的共性缺陷。数据集提供的距离反馈机制处于完整地图与二元墙检测之间,创造了恰到好处的认知挑战难度。
使用方法
使用该数据集时,研究者需通过函数调用接口与模型交互,模型需根据当前位置坐标、四面可移动距离及完整访问历史生成移动决策。评估采用双约束条件:单单元格访问不超过10次,总步数限制为3n²(n为迷宫边长)。主要性能指标包括迷宫破解成功率、步数效率比(实际步数/最优路径长度)以及无效移动尝试次数。多语言评估要求保持完全一致的迷宫配置,仅改变任务描述的语种,以此检验空间推理能力的语言迁移性。数据集配套的在线模拟器为方法验证提供了便捷的测试环境。
背景与挑战
背景概述
MazeEval是由冰岛大学的Hafsteinn Einarsson于2025年提出的一个创新性基准测试,旨在评估大型语言模型(LLMs)在纯空间推理任务中的表现。该数据集通过基于坐标的迷宫导航任务,隔离并测试LLMs在没有视觉线索情况下的空间认知能力,填补了当前研究中对于LLMs在有限感官信息下空间推理能力评估的空白。MazeEval的核心研究问题是探究LLMs在仅依赖坐标反馈和距离信息时,如何进行序列决策和空间导航,以及这种能力是否能够跨语言迁移。该数据集的影响力在于为LLMs在机器人学和具身AI中的可靠部署提供了关键评估工具,揭示了当前模型在空间推理方面的局限性。
当前挑战
MazeEval所解决的核心领域问题是评估LLMs在纯空间推理任务中的表现,特别是在没有视觉输入的情况下进行序列决策的能力。构建过程中面临的挑战包括:1)设计一个公平且未被污染的评估框架,确保模型无法通过记忆类似数据来解决问题;2)开发一个能够精确测量模型空间推理能力的坐标反馈系统;3)实现跨语言评估,以测试空间推理能力是否与语言无关。此外,数据集的构建还需要克服如何量化模型导航效率、如何定义和检测失败模式(如过度循环行为)等技术难题,以及如何确保评估结果对于不同大小和复杂度的迷宫具有可比性。
常用场景
经典使用场景
MazeEval数据集被广泛应用于评估大型语言模型(LLMs)在纯空间推理任务中的表现,特别是在缺乏视觉线索的情况下。其经典使用场景包括测试模型在二维迷宫导航任务中的表现,通过仅提供坐标反馈和距离墙壁的信息,模拟真实世界中传感器信息有限的环境。这种设置能够有效隔离空间推理能力,避免视觉输入的干扰,从而专注于评估模型的基本空间认知能力。
实际应用
在实际应用中,MazeEval数据集为机器人和嵌入式AI系统的开发提供了关键评估工具。通过测试LLMs在有限感官信息下的导航能力,该数据集帮助开发者识别模型在真实环境中的潜在局限性,尤其是在全球多语言部署场景下。其研究结果强调了在自动驾驶、服务机器人等领域中,确保模型空间推理能力跨语言一致性的重要性。
衍生相关工作
MazeEval数据集衍生了一系列关于LLMs空间推理能力的研究工作。例如,基于其发现的语言依赖性现象,后续研究探索了如何在低资源语言中提升模型的空间推理表现。此外,该数据集还启发了对生物启发式空间记忆模块的探索,旨在模拟人类海马体的功能,以解决模型中普遍存在的循环导航问题。这些工作进一步推动了LLMs在空间智能领域的发展。
以上内容由遇见数据集搜集并总结生成



