VR-Bench
收藏VR-Bench 数据集概述
数据集简介
VR-Bench 是一个用于评估视觉语言模型和视频生成模型空间推理能力的基准数据集。
数据集结构
数据划分
- 训练集:96个案例
- 评估集:24个案例
目录结构
dataset_VR_split/ ├── train/ # 训练集 │ ├── maze/ │ ├── maze3d/ │ ├── pathfinder/ │ ├── sokoban/ │ └── trapfield/ └── eval/ # 评估集 ├── maze/ ├── maze3d/ ├── pathfinder/ ├── sokoban/ └── trapfield/
文件类型
images/:初始状态图像(PNG格式)states/:游戏状态元数据(JSON格式)videos/:解决方案轨迹视频(MP4格式)
游戏类型
- Maze:基于二维网格的墙壁导航
- TrapField:基于二维网格的陷阱导航
- Sokoban:推箱子益智游戏
- PathFinder:具有弯曲路径的不规则迷宫
- Maze3D:具有垂直导航的三维迷宫
使用方式
python from datasets import load_dataset
dataset = load_dataset("your-username/VR-Bench") train_data = dataset["train"] eval_data = dataset["eval"]
每个视频文件显示相应游戏状态的最优解决方案轨迹。
引用信息
bibtex @article{yang2025vrbench, title={Reasoning via Video: The First Evaluation of Video Models Reasoning Abilities through Maze-Solving Tasks}, author={Cheng Yang and Haiyuan Wan and Yiran Peng and Xin Cheng and Zhaoyang Yu and Jiayi Zhang and Junchi Yu and Xinlei Yu and Xiawu Zheng and Dongzhan Zhou and Chenglin Wu}, journal={arXiv preprint arXiv:2511.15065}, year={2025} }
许可证
MIT License
任务类别
- 视觉问答
- 视频分类
标签
- 空间推理
- 视觉语言
- 视频生成
数据规模
10K < n < 100K




