VisualPuzzles
收藏VisualPuzzles数据集概述
数据集基本信息
- 名称:VisualPuzzles
- 类型:多模态基准测试数据集
- 设计目的:评估大型模型在最小化依赖领域特定知识情况下的推理能力
- 规模:1168个多样化谜题
- 难度分级:Easy, Medium, Hard
关键特性
- 推理类别:
- Algorithmic
- Analogical
- Deductive
- Inductive
- Spatial
- 对比特点:
- 比现有基准(如MMMU)更少依赖知识密集性
- 比现有基准(如MMMU)具有更高的推理复杂度
主要发现
- 所有模型表现均低于人类水平,大多数无法超过人类第5百分位表现
- 在知识密集型基准上的强表现不能良好迁移
- 更大模型和结构化"思考模式"不保证更好结果
- 扩大模型规模不能确保更强的推理能力
数据获取
- HuggingFace地址:https://huggingface.co/datasets/neulab/VisualPuzzles
- 模型输出:https://hub.zenoml.com/project/2e727b03-a677-451a-b714-f2c07ad2b49f/VisualPuzzles
实验相关信息
-
评估工具:lmms-eval package
-
实验命令: bash
安装
git clone https://github.com/neulab/VisualPuzzles.git cd lmms-eval pip install -e .
运行实验
python3 -m accelerate.commands.launch --num_processes=8 -m lmms_eval --model model_type --model_args pretrained=model_name --tasks VisualPuzzles_cot --batch_size 1 --log_samples --log_samples_suffix VisualPuzzles --output_path ./logs/
知识强度评估
- 对比数据集:MMMU
- 评估内容:
- 解决问题对领域特定知识的依赖程度
- 模型是否已具备解决VisualPuzzles所需知识
- 知识清单文件:
- MMMU: knowledge/mmmu_questions.json
- VisualPuzzles: knowledge/puzzle_questions.json
引用信息
bibtex @misc{song2025visualpuzzlesdecouplingmultimodalreasoning, title={VisualPuzzles: Decoupling Multimodal Reasoning Evaluation from Domain Knowledge}, author={Yueqi Song and Tianyue Ou and Yibo Kong and Zecheng Li and Graham Neubig and Xiang Yue}, year={2025}, eprint={2504.10342}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2504.10342} }
致谢
- 支持机构:DSTA Singapore, Carnegie Bosch Institute
- 致谢对象:CMU NeuLab同事, 参与人工评估的志愿者




