five

MazeBench

收藏
github2026-04-09 更新2026-04-10 收录
下载链接:
https://github.com/alrod97/LLMs_mazes
下载链接
链接失效反馈
官方服务:
资源简介:
MazeBench是一个用于多模态模型视觉迷宫推理的基准和数据集。每个模型仅接收一个迷宫图像和一个固定提示,然后必须判断宝藏是否可达,并在可达时返回一个有效的最短路径的JSON。

MazeBench is a benchmark and dataset dedicated to visual maze reasoning for multimodal models. Each model only receives a single maze image and a fixed prompt, and is required to determine whether the treasure is reachable. If reachable, it shall return a valid JSON-formatted shortest path.
创建时间:
2026-03-17
原始信息汇总

MazeBench 数据集概述

数据集基本信息

  • 数据集名称:MazeBench
  • 核心用途:用于评估多模态大语言模型(MLLMs)的视觉迷宫推理能力。
  • 任务描述:模型接收一个迷宫图像和一个固定提示词,必须判断宝藏是否可达。如果可达,则需以JSON格式返回一条有效的最短路径。
  • 论文标题:From Pixels to BFS: High Maze Accuracy Does Not Imply Visual Planning
  • 论文链接:https://arxiv.org/abs/2603.26839
  • 博客文章:https://albertoagentic.com/maze-benchmark.html
  • 数据集托管地址:https://huggingface.co/datasets/albertoRodriguez97/MazeBench

数据集内容与结构

  • 评估集规模:包含110个迷宫。
  • 迷宫特征:涵盖8种结构家族,网格尺寸从5x5到20x20。
  • 数据文件
    • 110个迷宫PNG图像文件(gen_maze_001.png ... gen_maze_110.png)。
    • 一个包含地面真值标注的JSON文件(maze_annotations.json)。
  • 标注信息:包含可达性、最短路径长度以及被接受的最短路径。

基准测试设计

  • 输入:直接从文件夹加载迷宫图像,并向每个模型发送相同的固定提示词。
  • API限制:在API调用中禁用工具使用,并避免API强制的结构化输出。
  • 评估流程:在本地解析和验证JSON,根据手动转录的最短路径标注对预测进行评分。
  • 核心指标solved(解决率)。模型必须正确识别可达性,并且在可达的迷宫中返回一条长度正确的被接受的最短路径。

项目仓库结构

主要目录与文件如下:

  • benchmark/:包含基准测试运行器、提示词、模型适配器、解析器、验证和评分代码。
  • scripts/maze_generator/:包含程序化迷宫生成器,支持精灵渲染和标注。
  • paper/:包含arXiv论文的LaTeX源文件和图表。
  • mazes_imgs/:包含博客文章中使用的10个手动整理的迷宫图像。
  • acl-style-files/:包含ACL LaTeX格式模板。

使用与获取

  • 环境要求:Python 3.10+。运行实际模型时需要相应的API密钥(通过环境变量设置)。

  • 快速测试:可使用命令 python3 -m benchmark.main --model mock:baseline 在不调用外部API的情况下进行冒烟测试。

  • 数据集下载: bash pip install huggingface_hub huggingface-cli download albertoRodriguez97/MazeBench --repo-type dataset --local-dir generated_mazes/

  • 迷宫生成:可通过 python3 -m scripts.maze_generator 生成示例迷宫,输出至 generated_mazes/ 目录。

输出与评分

  • 输出目录:每次基准测试运行会在 benchmark/outputs/ 下生成一个带时间戳的目录,包含原始文本、请求/响应快照、解析后的JSON、汇总CSV/JSONL文件以及运行报告。
  • 评分逻辑:位于 benchmark/utils/evaluation.py。一个迷宫被视为“已解决”需同时满足:可达性判断正确、最短路径长度正确、返回的路径与标注中一条被接受的最短路径匹配。

引用

如需引用,请使用提供的BibTeX条目。

搜集汇总
数据集介绍
main_image_url
构建方式
在视觉推理研究领域,MazeBench数据集的构建采用了程序化生成与人工标注相结合的方法。该数据集通过专门的脚本工具,系统性地生成了涵盖8种不同结构家族、网格尺寸从5x5到20x20的110个迷宫图像。每个迷宫均以PNG格式保存,并辅以详细的JSON格式标注文件,其中精确记录了迷宫中宝藏的可达性、最短路径长度以及所有可接受的最短路径序列,确保了数据在几何结构与逻辑关系上的双重准确性。
特点
MazeBench数据集的核心特点在于其专注于评估多模态大语言模型在视觉迷宫推理任务上的综合能力。数据集不仅提供了从简单到复杂的多尺度迷宫图像,还设计了统一的固定提示词与严格的JSON输出规范,要求模型仅依据视觉输入判断可达性并返回有效最短路径。这种设计能够有效分离模型的视觉感知与符号推理能力,为衡量模型在跨模态规划任务上的真实性能提供了标准化、可复现的基准环境。
使用方法
使用MazeBench数据集进行模型评估时,研究者可通过其提供的基准测试框架便捷地加载迷宫图像与标注。框架支持与主流多模态API(如OpenAI、Anthropic、Google等)对接,在禁用工具调用与结构化输出强制的设定下,将固定提示词与图像输入模型,随后本地解析并验证模型返回的JSON路径。评估过程依据标注中的可达性判断与路径匹配度进行自动化评分,最终生成包含解决率与令牌消耗的详细性能报告,便于跨模型比较与分析。
背景与挑战
背景概述
在人工智能领域,视觉推理与多模态大语言模型的融合已成为前沿研究方向。MazeBench数据集于2026年由Alberto Rodriguez Salgado等人创建,旨在评估多模态模型在视觉迷宫推理任务上的性能。该数据集的核心研究问题聚焦于模型如何从像素图像中提取结构化信息,并进行基于广度优先搜索的最短路径规划,从而检验模型是否真正具备视觉规划能力。其影响力在于为多模态推理提供了细粒度的评估基准,推动了模型在视觉与语言结合任务上的深入研究。
当前挑战
MazeBench数据集所解决的领域问题是视觉迷宫推理,其挑战在于模型需同时处理图像理解、空间关系解析和序列决策生成,而现有模型往往在图像到文本的网格提取步骤中出现失误,导致整体性能下降。在构建过程中,挑战体现在如何设计涵盖不同难度与结构家族的迷宫集合,确保标注的最短路径既准确又具代表性,同时保持评估流程的简洁性与可复现性,避免外部工具或结构化输出的干扰。
常用场景
经典使用场景
在视觉推理与多模态大模型评估领域,MazeBench数据集被广泛用于测试模型在视觉迷宫任务中的综合表现。其经典使用场景涉及向模型呈现一系列从简单到复杂的迷宫图像,要求模型仅基于视觉输入判断宝藏是否可达,并在可达时输出一条最短路径的JSON格式答案。这一过程严格模拟了真实世界中的视觉空间推理挑战,为研究者提供了标准化的评估框架,用以衡量模型在整合视觉信息与逻辑规划方面的能力。
实际应用
该数据集的实际应用场景延伸至需要高级视觉推理能力的多个领域。例如,在自主机器人导航中,系统需从环境图像中识别可行路径并规划最优路线;在教育技术领域,可开发基于视觉谜题的逻辑思维训练工具;在游戏人工智能中,用于测试智能体在复杂视觉环境中的决策与规划能力。MazeBench提供的标准化任务框架,为这些应用场景中模型的性能评估与比较提供了可靠基准,助力于开发更鲁棒、更高效的视觉推理系统。
衍生相关工作
围绕MazeBench数据集,已衍生出一系列关注多模态模型视觉规划能力的经典研究工作。这些工作不仅复现和扩展了原始基准,还深入分析了模型失败案例,探究其是源于视觉感知不足、空间表征缺陷还是序列规划能力有限。部分研究尝试引入思维链提示、模块化架构或外部符号推理器来提升模型在此类任务上的表现。这些衍生工作共同深化了学界对多模态模型内部推理机制的理解,并推动了视觉语言模型在需要复杂空间与逻辑推理任务上的进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作