VR-Bench

github2025-12-01 更新2025-12-02 收录

下载链接：

https://github.com/ImYangC7/VR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

VR-Bench是一个全面的基准，用于通过多种益智游戏评估视觉语言模型在空间推理和规划任务上的性能。它提供了一个统一的框架，用于数据集生成、评估和分析，涵盖五种迷宫类型（常规迷宫、不规则迷宫、3D迷宫、陷阱场和推箱子），支持难度级别和纹理变化，以测试模型的泛化能力。

VR-Bench is a comprehensive benchmark for evaluating the performance of vision-language models on spatial reasoning and planning tasks via a variety of puzzle games. It provides a unified framework for dataset generation, evaluation and analysis, covering five types of mazes (regular mazes, irregular mazes, 3D mazes, trap fields, and Sokoban), and supports difficulty levels and texture variations to test the generalization capabilities of models.

创建时间：

2025-11-12

原始信息汇总

VR-Bench 数据集概述

数据集基本信息

数据集名称：VR-Bench: Visual Reasoning Benchmark for Vision-Language Models
核心用途：评估视觉语言模型在空间推理和规划任务上的性能，任务载体为各类益智游戏。
发布状态：相关论文已发布在arXiv（编号2511.15065）。
数据获取：可通过Hugging Face平台下载预生成数据集（https://huggingface.co/datasets/amagipeng/VR-Bench）。

基准测试概览

VR-Bench是一个用于通过各类益智游戏评估视觉语言模型空间推理与规划能力的综合性基准。它提供了一个统一的框架，用于数据集生成、评估和分析。

核心评估范式

视频推理范式：采用帧链推理范式，要求模型生成逐帧推理，以捕捉序列化的视觉推理过程。

任务与游戏类型

基准包含五种不同的益智游戏，每种游戏测试视觉推理的不同方面：

迷宫：在基于网格的迷宫中从起点导航至目标点。
推箱子：将箱子推到目标位置，同时避开墙壁。
3D迷宫：包含连接不同楼层的梯子的多层迷宫。
路径寻找者：在带有标记路径点的非规则迷宫中寻找路径。
陷阱场：穿越场地并避开陷阱。

泛化能力评估维度

为评估泛化能力并增强模型对不同迷宫场景的鲁棒性，引入了两个关键维度的变体：

难度等级：通过调整迷宫大小、修改迷宫分支数量和添加障碍物，定义了三个难度等级（简单、中等、困难）。
迷宫纹理：使用程序化方法和生成模型生成的纹理来改变迷宫障碍物、路径等组件的纹理，使策略暴露于广泛的视觉分布中，减轻对干净合成环境的过拟合。

数据集主要特征

程序化生成：可自动生成具有可配置难度的多样化关卡。
纹理定制：支持通过纹理皮肤自定义视觉主题。
视频渲染：生成带有平滑动画的解决方案视频（24 FPS）。
VLM评估框架：内置用于测试各种视觉语言模型的框架。
综合评估指标：包含成功率、路径比率、移动比率等。
并行处理：支持多线程生成和评估以提高效率。
去重功能：自动检测并移除重复关卡。

评估方法与指标

评估方法

视频模型评估：评估生成的视频与真实轨迹的匹配度。
视觉语言模型评估：评估模型在数据集结果上的规划/行动推理能力。

核心评估指标

PR：重采样点中保持在真实路径较小容差范围内的比例；衡量路径形状一致性。
SR：生成的轨迹是否至少一次进入目标边界框。
SD：相对于真实路径的路径长度超限率，仅在SR=1且非负时定义。
EM：当PR超过阈值且|SD|较小时的完美匹配标志，以SR=1为条件。
MF：背景稳定性得分；在屏蔽起点/目标/玩家区域后，将采样帧与第一帧进行比较。

项目结构与使用

快速开始步骤

安装：克隆代码库并安装依赖。
下载数据集：从Hugging Face下载预生成数据集。
生成自定义关卡：可通过Python脚本或辅助Shell脚本生成。

项目目录结构

主要目录包括core/（核心框架）、games/（游戏实现）、generation/（数据集生成）、evaluation/（评估模块，包含视频模型评估和VLM评估）、config/（配置）、skins/（纹理资源）和scripts/（工具脚本）。

模型训练与推理

使用DiffSynth-Studio进行扩散模型训练和推理。
提供了训练脚本参考配置和推理步骤。

配置与扩展

配置文件

生成配置：位于config/config.yaml，可配置游戏类型、纹理资源路径、难度等级等。
VLM评估配置：位于config/vlm/*.yaml，可配置评估的游戏类型、数据集路径、模型列表等。

自定义纹理

每个游戏支持自定义纹理皮肤以实现视觉多样性。用户需在skins/<game_name>/下创建新文件夹并添加所需的纹理图像文件。不同游戏所需的纹理文件不同。

添加新游戏

VR-Bench使用适配器模式以便扩展。添加新游戏需在games/下创建新目录，实现GameAdapter接口，并完成游戏特定逻辑、渲染和评估执行器的注册。

引用

如果研究中使用VR-Bench，请引用提供的BibTeX条目。

搜集汇总

数据集介绍

构建方式

在视觉语言模型评估领域，VR-Bench数据集通过程序化生成技术构建，覆盖了迷宫、推箱子、三维迷宫、路径寻找与陷阱场地五种谜题游戏。该构建过程采用可配置的难度参数，自动生成多样化的关卡布局，并支持通过纹理皮肤进行视觉主题定制。为确保数据质量，系统内置了重复关卡检测与剔除机制，并利用多线程并行处理提升生成效率，最终生成包含平滑动画的高帧率解决方案视频。

特点

VR-Bench数据集的核心特点在于其全面的评估维度和高度的可扩展性。数据集涵盖了从二维到三维的多种空间推理场景，并引入了难度分级与纹理变异两个关键维度，以检验模型的泛化能力与鲁棒性。其内置的评估框架支持对各类视觉语言模型进行多指标量化分析，包括成功率、路径精度与移动比率等。此外，模块化的适配器设计允许研究者便捷地集成新的游戏类型，进一步拓展了基准测试的边界。

使用方法

使用VR-Bench数据集时，研究者可通过官方代码库快速安装环境并下载预生成数据。进行自定义关卡生成需编辑配置文件，指定游戏类型、纹理路径与难度等级，随后调用批量生成脚本即可。对于模型评估，数据集提供了分别针对视频模型与视觉语言模型的专用评估流程，用户需根据目标模型类型配置相应的API密钥或本地服务，并执行评估脚本以获取详细的性能指标报告。

背景与挑战

背景概述

在人工智能迈向通用智能的进程中，视觉语言模型（VLMs）的推理能力评估成为关键瓶颈。传统基准多聚焦于静态图像理解，缺乏对动态、序列化空间推理的系统性测评。VR-Bench应运而生，由杨程、万海源等研究人员于2025年提出，旨在构建一个涵盖迷宫、推箱子、三维迷宫等多种益智游戏的综合性评测基准。该数据集通过程序化生成与视频渲染技术，模拟复杂空间规划场景，为核心研究问题——即评估模型在时序视觉推理与空间导航任务中的泛化能力——提供了统一框架。其引入的链式帧推理范式，推动了视觉推理评估从静态识别向动态决策的范式转移，对自动驾驶、机器人导航等领域的算法发展具有重要参考价值。

当前挑战

VR-Bench所针对的视觉空间推理领域，其核心挑战在于模型需从连续视频帧中提取并整合时空信息，以完成多步序列决策。这要求模型不仅具备高级语义理解，还需拥有对几何关系、物体运动轨迹及长期依赖的精确建模能力。在数据集构建层面，挑战同样显著：为确保评测的严谨性与泛化性，需通过程序化方法生成海量且多样化的谜题关卡，并精确控制难度梯度与纹理变异，以规避模型对合成环境的过拟合。同时，设计能够公平衡量轨迹一致性、任务成功率及背景稳定性的多维评价指标，亦是构建过程中的关键难点。

常用场景

经典使用场景

在视觉-语言模型（VLM）与视频模型的研究领域，VR-Bench作为一项专注于空间推理与规划任务的综合性基准测试，其经典使用场景在于系统评估模型在多样化迷宫游戏环境中的序列视觉推理能力。该数据集通过整合规则迷宫、不规则迷宫、三维迷宫、陷阱场及推箱子五种游戏类型，构建了一个覆盖二维与三维空间、兼具不同任务结构的统一评估框架。研究者通常利用其链式帧推理范式，要求模型逐帧生成推理轨迹，从而精确衡量模型在复杂空间环境中的路径规划与决策性能。

解决学术问题

VR-Bench主要致力于解决视觉-语言模型在空间推理任务中泛化能力不足、对合成环境过拟合等核心学术问题。通过引入难度分级与纹理多样化机制，该数据集能够系统检验模型在应对不同迷宫尺寸、分支复杂度及视觉外观变化时的稳健性。其意义在于为社区提供了一个标准化、可复现的评估平台，推动了模型在序列视觉理解、跨模态规划等方向的基础能力研究，并为衡量模型在接近真实世界视觉分布下的推理性能提供了重要依据。

衍生相关工作

围绕VR-Bench数据集，研究社区已衍生出多项经典工作，例如基于其框架训练的Wan-R1模型，该模型展示了在视频生成与轨迹推理任务上的显著性能。同时，该基准促进了视觉-语言模型在链式推理、多步骤规划等方向的算法改进，并启发了对模型在难度泛化、纹理泛化以及测试时扩展等维度的系统性分析。这些工作共同深化了对视频模型推理机制的理解，并为构建更强大、更通用的视觉推理系统提供了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集