VGRP-Bench

Name: VGRP-Bench
Creator: 瑞士联邦理工学院（EPFL）
Published: 2025-04-02 15:10:05
License: 暂无描述

arXiv2025-04-02 更新2025-04-07 收录

下载链接：

https://yufan-ren.com/subpage/VGRPBench/

下载链接

链接失效反馈

官方服务：

资源简介：

VGRP-Bench是一个视觉网格推理谜题基准，包含20种不同的可定制谜题，这些谜题强调基于网格的视觉推理，并形成了一个关于规则、属性和模式的分类法。数据集支持不同难度级别的谜题，包括简单、中等和困难，依据网格大小、所需的推理步骤数量和决策空间的大小而定。

VGRP-Bench is a visual grid reasoning puzzle benchmark containing 20 distinct customizable puzzles. These puzzles emphasize grid-based visual reasoning and establish a taxonomy of rules, attributes, and patterns. The dataset supports puzzles across three difficulty levels—easy, medium, and hard—categorized based on grid size, the number of required reasoning steps, and the size of the decision space.

提供机构：

瑞士联邦理工学院（EPFL）

创建时间：

2025-03-29

搜集汇总

数据集介绍

构建方式

VGRP-Bench通过系统化设计20种网格视觉推理谜题构建而成，涵盖数独、战舰游戏、树木与帐篷等多种类型，每种谜题均基于四类核心元语（变量、状态、约束和条件）实现统一结构。数据集采用参数化生成器动态创建不同难度级别（简单、中等、困难）的谜题实例，通过控制网格尺寸、初始线索数量和规则复杂度确保多样性与挑战性。所有视觉谜题均辅以文本版本，以分离感知与推理能力的评估，并采用轻量级图像增强技术提升模型泛化能力。

特点

该数据集具备高度多样化的规则体系，涵盖数学计算、空间匹配、顺序推理等核心认知能力，并呈现文本、数字、物体等多模态视觉模式。其评估框架设计精细，支持整体谜题解决率、单元格级感知准确性和步骤级规则遵循度等多粒度测评。区别于现有基准，VGRP-Bench首次系统整合后训练技术验证，提供超过10万组训练样本的标准化分割，且所有谜题均支持难度参数化调整，为LVLM的结构化推理能力提供深度分析基础。

使用方法

使用者可通过提供的标准化接口加载谜题图像与文本描述，调用LVLM进行端到端推理或分阶段能力评估。评估协议支持三种模式：直接输出最终解、基于链式思维的逐步推理、以及针对特定单元格或规则的动作验证。后训练实验中可采用解决方案监督微调（S-SFT）或推理过程监督微调（R-SFT）策略，使用生成的JSON格式轨迹数据优化模型。所有输出需通过定制化后处理管道解析，结合规则验证器与JSON修复工具确保评估可靠性。

背景与挑战

背景概述

VGRP-Bench由Meta GenAI、EPFL、雅典大学等机构的研究团队于2025年创建，旨在系统评估大型视觉语言模型在视觉网格推理谜题中的多维度能力。该基准涵盖20种不同类型的谜题（如数独、战舰谜题等），聚焦于模型在感知、规则遵循和逻辑推理方面的核心研究问题。通过构建可定制的谜题生成器和多粒度评估协议，VGRP-Bench填补了现有基准在结构化推理任务上的空白，为LVLM在复杂现实问题解决中的能力评估提供了重要工具。

当前挑战

领域问题挑战包括LVLM在网格布局理解、多步规则推理和长序列逻辑追踪方面的不足，例如模型难以精确定位网格单元格或维持连贯的推理链。构建挑战涉及谜题视觉多样性整合（如数值、符号和物体混合表示）、规则统一形式化（定义变量、状态、约束和条件的原语体系），以及生成高质量合成推理轨迹的复杂性，需平衡DFS回溯效率与轨迹长度限制。

常用场景

经典使用场景

VGRP-Bench作为视觉网格推理谜题的综合性基准，专为评估大规模视觉语言模型在复杂推理任务中的表现而设计。该数据集通过20种不同类型的网格谜题，如数独、战舰游戏和树木帐篷谜题等，系统检验模型在视觉感知、规则理解和多步逻辑推理方面的核心能力。其经典使用场景包括对预训练模型进行零样本评估，以及通过监督微调策略探索模型在特定谜题上的性能提升潜力。

实际应用

该数据集的实际应用价值体现在智能教育系统和自动化决策工具的研发中。例如，在编程教育平台中，集成VGRP-Bench可以评估AI助手的逻辑辅导能力；在工业自动化领域，其推理范式可迁移至物流路径规划、机器人操作序列生成等需要多步约束满足的场景。此外，数据集支持的难度分级机制使其能够适配不同能力水平的模型测试，为实际部署前的性能验证提供标准化流程。

衍生相关工作

VGRP-Bench催生了多项关于视觉推理微调技术的延伸研究。基于其提出的S-SFT（解决方案监督微调）和R-SFT（推理过程监督微调）框架，后续工作探索了强化学习与思维链蒸馏的结合方案。数据集构建的标准化评估协议被INV-VP、BALROG等后续基准所采纳，其谜题原语 taxonomy 为跨任务推理泛化研究提供了理论基础，促进了如PuzzleRL等专门针对推理训练的算法框架的诞生。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集