VR-Bench

Hugging Face2025-11-24 更新2025-11-25 收录

下载链接：

https://huggingface.co/datasets/amagipeng/VR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VR-Bench是一个用于评估视觉语言模型和视频生成模型空间推理能力的基准数据集。它包含训练集和评估集，每个集包含多个游戏，如迷宫、陷阱场、仓库保管员等，每个游戏都有初始状态图像、游戏状态元数据和解决方案轨迹视频。

VR-Bench is a benchmark dataset designed to evaluate the spatial reasoning capabilities of vision-language models and video generation models. It comprises a training set and an evaluation set, each containing multiple games such as maze, trap field, warehouse keeper, etc. Each game is accompanied by initial state images, game state metadata, and solution trajectory videos.

创建时间：

2025-11-13

原始信息汇总

VR-Bench 数据集概述

数据集简介

VR-Bench 是一个用于评估视觉语言模型和视频生成模型空间推理能力的基准数据集。

数据集结构

数据划分

训练集：96个案例
评估集：24个案例

目录结构

dataset_VR_split/ ├── train/ # 训练集 │ ├── maze/ │ ├── maze3d/ │ ├── pathfinder/ │ ├── sokoban/ │ └── trapfield/ └── eval/ # 评估集 ├── maze/ ├── maze3d/ ├── pathfinder/ ├── sokoban/ └── trapfield/

文件类型

images/：初始状态图像（PNG格式）
states/：游戏状态元数据（JSON格式）
videos/：解决方案轨迹视频（MP4格式）

游戏类型

Maze：基于二维网格的墙壁导航
TrapField：基于二维网格的陷阱导航
Sokoban：推箱子益智游戏
PathFinder：具有弯曲路径的不规则迷宫
Maze3D：具有垂直导航的三维迷宫

使用方式

python from datasets import load_dataset

dataset = load_dataset("your-username/VR-Bench") train_data = dataset["train"] eval_data = dataset["eval"]

每个视频文件显示相应游戏状态的最优解决方案轨迹。

引用信息

bibtex @article{yang2025vrbench, title={Reasoning via Video: The First Evaluation of Video Models Reasoning Abilities through Maze-Solving Tasks}, author={Cheng Yang and Haiyuan Wan and Yiran Peng and Xin Cheng and Zhaoyang Yu and Jiayi Zhang and Junchi Yu and Xinlei Yu and Xiawu Zheng and Dongzhan Zhou and Chenglin Wu}, journal={arXiv preprint arXiv:2511.15065}, year={2025} }

许可证

MIT License

任务类别

视觉问答
视频分类

数据规模

10K < n < 100K

搜集汇总

数据集介绍

构建方式

在空间推理研究领域，VR-Bench通过结构化游戏环境构建评估框架，涵盖迷宫导航与推箱解谜等五大任务类型。该数据集采用程序化生成技术，在二维与三维空间内创建120个独立测试场景，每个场景包含初始状态图像、游戏元数据及解决方案视频三重模态数据。训练集与评估集按4:1比例划分，确保模型在复杂空间拓扑中的泛化能力得到系统验证。

使用方法

研究者可通过HuggingFace数据集库直接加载VR-Bench，使用标准接口获取训练集与评估集。针对视频生成模型的评估，需重点分析解决方案视频中蕴含的空间决策逻辑；而视觉语言模型则可结合初始图像与状态元数据进行跨模态推理。该数据集支持端到端评估流程，用户通过对比模型输出与标注的最优解轨迹，量化模型在复杂空间环境中的认知能力。

背景与挑战

背景概述

随着多模态人工智能技术的快速发展，视觉语言模型与视频生成模型在空间推理任务中的表现成为研究焦点。VR-Bench数据集由研究团队于2025年提出，通过迷宫求解任务构建系统化评估框架，涵盖二维导航、三维空间探索及物理交互等复杂场景。该数据集通过五类游戏场景的结构化设计，为衡量模型对空间关系理解、动态轨迹规划等核心能力提供标准化测试环境，推动了具身智能与场景理解领域的交叉研究。

当前挑战

在视觉语言模型领域，空间推理任务需解决动态环境下的多步逻辑推演与几何关系建模难题，传统方法对长时序动作链的因果推断存在局限性。数据集构建过程中面临三维空间轨迹标注的语义对齐挑战，不同游戏引擎生成的物理状态需保持跨模态一致性，视频序列与结构化状态的同步验证亦增加了数据复杂度。

常用场景

经典使用场景

在空间推理研究领域，VR-Bench数据集通过迷宫导航、陷阱规避及推箱任务等多样化游戏场景，为视觉语言模型与视频生成模型提供了标准化的评估框架。其精心设计的二维与三维空间环境能够系统检验模型对复杂空间关系的理解能力，视频轨迹数据则直观呈现了智能体在动态环境中的决策过程。

解决学术问题

该数据集有效解决了多模态人工智能研究中空间表征学习的核心难题，通过结构化游戏任务量化模型对几何约束与运动逻辑的认知水平。其创新性地将抽象推理能力转化为可计算的视频生成任务，为突破视觉语言模型在物理世界理解方面的瓶颈提供了重要实验依据，推动了具身智能研究范式的演进。

实际应用

在自动驾驶与机器人导航等现实场景中，VR-Bench所构建的空间推理评估体系具有显著应用价值。其路径规划与障碍规避任务可直接迁移至无人系统的环境感知模块开发，而三维迷宫导航能力则对增强现实设备的空间定位技术优化提供了关键测试基准。

数据集最近研究