VisualPuzzles

github2025-04-18 更新2025-04-20 收录

下载链接：

https://github.com/neulab/VisualPuzzles

下载链接

链接失效反馈

官方服务：

资源简介：

VisualPuzzles是一个多模态基准测试，专门设计用于评估大型模型的推理能力，同时尽量减少对领域特定知识的依赖。关键特征包括：1168个多样化的谜题，5个推理类别（算法、类比、演绎、归纳、空间），难度标签（简单、中等、困难），比现有基准测试（如MMMU）更少依赖知识，更注重推理复杂性。

VisualPuzzles is a multimodal benchmark specifically designed to evaluate the reasoning capabilities of large models while minimizing reliance on domain-specific knowledge. Its key features include: 1168 diverse puzzles, 5 reasoning categories (algorithmic, analogical, deductive, inductive, spatial), difficulty labels (easy, medium, hard), lower knowledge dependence compared to existing benchmarks such as MMMU, and greater emphasis on reasoning complexity.

创建时间：

2025-04-13

原始信息汇总

VisualPuzzles数据集概述

数据集基本信息

名称：VisualPuzzles
类型：多模态基准测试数据集
设计目的：评估大型模型在最小化依赖领域特定知识情况下的推理能力
规模：1168个多样化谜题
难度分级：Easy, Medium, Hard

关键特性

推理类别：
- Algorithmic
- Analogical
- Deductive
- Inductive
- Spatial
对比特点：
- 比现有基准(如MMMU)更少依赖知识密集性
- 比现有基准(如MMMU)具有更高的推理复杂度

主要发现

所有模型表现均低于人类水平，大多数无法超过人类第5百分位表现
在知识密集型基准上的强表现不能良好迁移
更大模型和结构化"思考模式"不保证更好结果
扩大模型规模不能确保更强的推理能力

数据获取

HuggingFace地址：https://huggingface.co/datasets/neulab/VisualPuzzles
模型输出：https://hub.zenoml.com/project/2e727b03-a677-451a-b714-f2c07ad2b49f/VisualPuzzles

实验相关信息

评估工具：lmms-eval package
实验命令： bash

安装

git clone https://github.com/neulab/VisualPuzzles.git cd lmms-eval pip install -e .

运行实验

python3 -m accelerate.commands.launch --num_processes=8 -m lmms_eval --model model_type --model_args pretrained=model_name --tasks VisualPuzzles_cot --batch_size 1 --log_samples --log_samples_suffix VisualPuzzles --output_path ./logs/

知识强度评估

对比数据集：MMMU
评估内容：
- 解决问题对领域特定知识的依赖程度
- 模型是否已具备解决VisualPuzzles所需知识
知识清单文件：
- MMMU: knowledge/mmmu_questions.json
- VisualPuzzles: knowledge/puzzle_questions.json

引用信息

bibtex @misc{song2025visualpuzzlesdecouplingmultimodalreasoning, title={VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge}, author={Yueqi Song and Tianyue Ou and Yibo Kong and Zecheng Li and Graham Neubig and Xiang Yue}, year={2025}, eprint={2504.10342}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.10342} }

致谢

支持机构：DSTA Singapore, Carnegie Bosch Institute
致谢对象：CMU NeuLab同事, 参与人工评估的志愿者

搜集汇总

数据集介绍

构建方式

在人工智能多模态推理评估领域，VisualPuzzles数据集通过精心设计的构建流程脱颖而出。研究团队采用分层抽样策略，构建了涵盖算法、类比、演绎、归纳和空间五大推理类型的1168道视觉谜题，每道题目均经过难度分级标注。为降低领域知识依赖性，团队创新性地引入知识清单验证机制，通过GPT-4o生成知识概念检查表，并辅以人工校验，确保评估重点聚焦于纯推理能力而非先验知识储备。数据集构建过程中还进行了与MMMU基准的对比实验，采用LLM-as-a-judge框架量化分析知识密集度差异。

特点

该数据集最显著的特征在于其独特的评估维度设计。区别于传统多模态基准，VisualPuzzles通过精细划分的五大推理类型和三级难度体系，构建了多维评估坐标系。题目设计刻意规避知识密集型内容，使得模型性能差异更能反映真实推理能力。数据集包含丰富的元数据标注，包括知识依赖度评分和人类百分位表现参考值，为模型诊断提供立体化分析视角。实验数据表明，该基准能有效暴露现有模型在脱离知识依赖后的推理缺陷，即使参数量级增长也未能显著提升解题准确率。

使用方法

研究者可通过HuggingFace平台便捷获取该数据集，配套提供的lmms-eval评估工具包支持端到端实验复现。使用流程包含模型加载、推理模式选择（直接回答或思维链）和批量评估三个关键步骤。特别设计的知识强度评估模块允许用户生成自定义知识检查表，并运行get_knowledge_scores.py脚本量化模型知识掌握度。为保障结果可靠性，建议同时记录样本级预测日志，该功能已集成在官方提供的评估命令中。实验输出支持Zeno平台可视化分析，便于横向比较不同模型的推理模式差异。

背景与挑战

背景概述

VisualPuzzles数据集由卡内基梅隆大学NeuLab团队于2025年推出，旨在评估大型模型的多模态推理能力，同时减少对领域特定知识的依赖。该数据集包含1168个多样化谜题，涵盖算法、类比、演绎、归纳和空间推理五大类别，并按难度分级。相较于传统基准如MMMU，VisualPuzzles更注重纯粹的推理复杂度而非知识储备，为人工智能领域提供了全新的评估维度。其创新性设计对推动多模态推理研究具有重要意义，揭示了当前模型在脱离知识依赖后的真实推理能力局限。

当前挑战

VisualPuzzles面临的核心挑战在于如何准确评估模型脱离领域知识后的纯粹推理能力。现有基准往往混淆知识储备与推理能力，而该数据集通过精心设计的谜题结构实现了二者的解耦。构建过程中的主要困难包括：确保谜题答案不依赖特定领域知识、平衡不同推理类型的代表性、以及建立可靠的人类表现基线。实验结果表明，即使最先进的大模型也难以达到人类基础推理水平，这突显了当前AI系统在本质推理能力上的重大缺陷。

常用场景

经典使用场景

在人工智能领域，多模态推理能力的评估一直是研究热点。VisualPuzzles数据集通过精心设计的1168个多样化谜题，覆盖算法、类比、演绎、归纳和空间五大推理类别，为评估大模型的多模态推理能力提供了标准化测试平台。该数据集特别强调在最小化领域知识依赖的前提下，考察模型的核心推理能力，使其成为衡量模型抽象思维和逻辑处理能力的理想工具。研究人员可以借助这一基准，系统性地比较不同模型在复杂多模态场景下的推理表现。

解决学术问题

VisualPuzzles有效解决了多模态评估中知识依赖与推理能力混淆的学术难题。传统基准如MMMU往往受限于领域知识的干扰，难以准确区分模型的知识储备和真实推理水平。该数据集通过控制知识强度，首次实现了对纯推理能力的独立测量，揭示了模型规模扩大并不必然提升推理性能的重要发现。这种解耦评估方式为理解人工智能的认知机制提供了新的研究视角，推动了多模态推理研究的范式转变。

衍生相关工作

围绕VisualPuzzles数据集已催生多项创新研究。部分工作专注于扩展其评估维度，开发了结合因果推理的新型测试模块；另有研究利用该基准的细粒度标签体系，提出了针对特定推理类型的模型增强方法。数据集揭示的知识-推理解耦现象，更激发了关于模型认知架构的系列理论研究。这些衍生成果共同推动着多模态人工智能向更透明、更可解释的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集