VR-Bench

github2025-12-03 更新2025-12-04 收录

下载链接：

https://github.com/FoundationAgents/VR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VR-Bench是一个全面的基准，用于通过多种益智游戏评估视觉语言模型在空间推理和规划任务上的性能。它提供了数据集生成、评估和分析的统一框架，涵盖五种迷宫类型（常规迷宫、不规则迷宫、3D迷宫、陷阱场和推箱子），支持二维和三维设置以及多样化的任务结构，以覆盖广泛的空间推理场景。

VR-Bench is a comprehensive benchmark designed to evaluate the performance of vision-language models on spatial reasoning and planning tasks using a variety of puzzle games. It provides a unified framework for dataset generation, evaluation and analysis, covering five maze types (regular mazes, irregular mazes, 3D mazes, trap fields, and Sokoban), supporting both 2D and 3D settings as well as diverse task structures to cover a wide range of spatial reasoning scenarios.

创建时间：

2025-11-12

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VR-Bench数据集通过程序化生成技术构建而成，涵盖了迷宫、推箱子、三维迷宫、路径查找与陷阱场地五种谜题游戏。该数据集采用可配置的难度参数，自动生成多样化的关卡布局，并支持通过纹理皮肤进行视觉主题定制。生成过程中，系统会渲染高帧率的解决方案视频，并利用去重机制自动检测与移除重复关卡，确保了数据集的多样性与质量。

特点

VR-Bench数据集的核心特点在于其全面的评估框架与丰富的任务维度。数据集不仅覆盖了二维与三维空间中的多种推理场景，还引入了难度等级与迷宫纹理两个关键维度的变体，以检验模型的泛化能力。其内置的评估系统支持对各类视觉语言模型进行测试，并提供成功率、路径精度、移动比率等多维度量化指标。此外，数据集支持并行处理与自定义纹理，为视觉推理研究提供了高度灵活且标准化的基准环境。

使用方法

使用VR-Bench数据集时，研究人员可通过克隆代码库并安装依赖快速搭建环境。数据集支持从Hugging Face下载预生成数据，也允许用户通过配置文件自定义生成关卡与视频。评估环节分为视频模型轨迹推理与视觉语言模型规划推理两部分：前者可通过脚本调用多种跟踪算法提取轨迹并与真实路径比对；后者需配置API密钥或启动本地模型服务，运行评估脚本以获取模型在各项任务上的性能指标。整个过程兼顾效率与可复现性，为视觉推理能力的系统评测提供了完整工具链。

背景与挑战

背景概述

视觉语言模型在空间推理与规划任务上的评估长期缺乏统一且系统的基准。VR-Bench应运而生，由研究团队于2025年提出，旨在通过多样化的谜题游戏构建一个全面的评估框架。该数据集聚焦于视觉语言模型在序列化视觉推理中的核心能力，特别是对空间关系的理解与多步规划的执行。其通过程序化生成机制，覆盖了常规迷宫、不规则迷宫、三维迷宫、陷阱场及推箱子五种游戏类型，并引入难度分级与纹理变异，从而在可控环境中系统检验模型的泛化性与鲁棒性。VR-Bench的建立为视觉推理研究提供了标准化评估工具，推动了该领域从静态图像理解向动态序列决策的范式演进。

当前挑战

VR-Bench致力于解决视觉语言模型在复杂空间推理任务中评估标准缺失的挑战。其核心在于如何设计既能反映真实世界空间认知复杂度，又具备可扩展性与可重复性的评估任务。构建过程中的主要挑战体现在多维度的生成与控制上：一是需在程序化生成中平衡迷宫结构的多样性与逻辑合理性，避免产生无解或琐碎关卡；二是需设计有效的纹理变异机制，以考察模型对视觉外观变化的鲁棒性，同时防止过拟合于合成环境；三是需实现高精度的轨迹提取与评估指标，以量化模型在视频序列中的推理精度与路径规划效率，这对跟踪算法的选择与适配提出了较高要求。

常用场景

经典使用场景

在视觉语言模型评估领域，VR-Bench作为一项综合性基准测试，其经典使用场景聚焦于评估模型在空间推理与规划任务中的表现。该数据集通过迷宫、推箱子、三维迷宫等多种益智游戏构建了丰富的视觉推理环境，要求模型依据视频帧序列进行逐步推理，从而模拟人类在复杂空间环境中的决策过程。这一范式不仅检验了模型对视觉信息的理解能力，更深入探究了其序列化推理与长期规划的技术极限。

解决学术问题

VR-Bench致力于解决视觉语言模型在空间推理能力评估方面缺乏标准化基准的学术难题。传统评估多局限于静态图像理解，而该数据集引入了动态视频推理链，能够系统性地衡量模型在时序决策、路径规划及多步骤任务执行中的性能。其通过定义不同难度等级与纹理变体，有效评估了模型的泛化能力与鲁棒性，为深入理解模型在复杂视觉环境中的认知机制提供了关键实验平台。

衍生相关工作

围绕VR-Bench数据集，学术界已衍生出一系列经典研究工作，特别是在视频推理模型与轨迹预测算法的创新方面。例如，基于该基准训练的Wan-R1模型展示了在复杂迷宫任务中的卓越性能；同时，研究团队提出的多种跟踪器（如NCC、光流与CSRT）为视频轨迹提取提供了可靠的技术方案。这些工作不仅推动了视觉推理评估方法的发展，也为后续研究者在多模态时序理解领域的探索奠定了重要基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集