Visual Puzzles

github2025-05-30 更新2025-05-31 收录

下载链接：

https://github.com/Kyunnilee/visual_puzzles

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含432个手工制作的rebus谜题，每个谜题都配有精心挑选的图像和答案，并标注了11种认知技能类别。

This dataset contains 432 handcrafted rebus puzzles, each paired with carefully selected images and corresponding answers, and annotated with 11 cognitive skill categories.

创建时间：

2025-05-29

原始信息汇总

Visual Puzzles 数据集概述

基本信息

数据集名称: Visual Puzzles
官方仓库: https://github.com/Kyunnilee/visual_puzzles
相关论文: Puzzled by Puzzles: When Vision-Language Models Cant Take a Hint
作者: Heekyung Lee, Jiaxin Ge, Tsung-Han Wu, Minwoo Kang, Trevor Darrell, David M. Chan (POSTECH & UC Berkeley)

数据集内容

规模: 432个手工标注的英文rebus谜题
组成要素:
- 谜题图像
- 标准答案
- 认知技能类别标注
示例: 单词"WATER"以向下弯曲的形状书写时，答案为"Waterfall"

认知技能分类

共11个标注类别：

缺失或否定(AN)
字体样式/大小(FS)
图像识别(IR)
字母和单词操作(LWM)
语音和文字游戏(PW)
定量/数学推理(QMR)
空间和位置推理(SPR)
符号替换(SS)
文本方向(TO)
文本识别(TR)
视觉隐喻与文化引用(VMCR)

评估指标

基础匹配评估
- 脚本: eval/eval_bootstrap.py, eval/eval_human_files.py
- 方法: 模型输出与标准答案的字符串匹配
LLM评判评估
- 使用GPT-4o等模型判断语义等价性
CLIP/图像-文本检索指标
- 脚本: scripts/compute_clip_recall.py, scripts/summarize_clip_results.py
- 指标: Recall@K, Precision@1, MRR, NDCG等
技能专项评估
- 通过YAML配置文件实现
自举置信区间
- 提供95%置信区间

标注工具

标准答案标注工具: scripts/annotate_ground_truth.py
技能标注工具: scripts/annotate_skills.py

使用说明

配置实验: 编辑conf/目录下的YAML文件
安装依赖: pip3 install -r requirements.txt
运行评估脚本: python3 main.py

引用格式

bibtex @inproceedings{lee2025puzzled, title={Puzzled by Puzzles: When Vision-Language Models Cant Take a Hint}, author={Heekyung Lee and Jiaxin Ge and Tsung-Han Wu and Minwoo Kang and Trevor Darrell and David M. Chan}, year={2025}, journal={arXiv preprint arXiv:2505.23759} }

搜集汇总

数据集介绍

构建方式

在视觉语言模型研究领域，Visual Puzzles数据集通过精心设计的432个手工标注的英语谜题，构建了一个独特的评估基准。研究团队采用系统化方法，从图像采集、谜题设计到认知技能标注，每个环节都经过严格把控。数据集构建过程中，首先收集多样化的视觉素材，然后由专家团队设计具有挑战性的谜题，最后通过多轮人工校验确保谜题质量和标注准确性。这种构建方式既保证了数据集的学术严谨性，又充分体现了谜题设计的创造性和多样性。

使用方法

使用该数据集时，研究人员可通过多种评估策略全面测试模型性能。数据集提供了包括精确匹配、LLM评判、CLIP检索指标等在内的多维度评估脚本。具体操作包括配置YAML实验文件、安装依赖环境、运行评估脚本等步骤。评估结果将自动生成详细的性能指标和置信区间分析。此外，数据集还提供了标注工具，支持研究人员扩展新的谜题或进行特定认知维度的专项评估。这种模块化设计使得该数据集既适合全面的基准测试，也支持针对性的能力研究。

背景与挑战

背景概述

Visual Puzzles数据集由POSTECH与UC Berkeley的研究团队于2025年联合推出，旨在系统评估视觉语言模型（VLMs）在抽象推理、符号操作及横向思维方面的能力。该数据集包含432个手工标注的英语字谜（rebus puzzles），每个谜题均需整合图像、空间排列与符号推理等多模态信息。研究团队由Heekyung Lee、Trevor Darrell等学者领衔，其核心研究问题聚焦于突破传统视觉-文本对齐任务的局限，探索VLMs在复杂认知任务中的表现。该数据集通过11类认知技能分类体系（如语音双关识别、空间推理等），为多模态推理研究提供了标准化评估框架，对推动具身智能与认知计算领域发展具有显著意义。

当前挑战

Visual Puzzles数据集面临双重挑战：在领域问题层面，字谜求解要求模型同时处理视觉符号的隐喻性、文化语境依赖性与非线性组合逻辑，现有VLMs在语音双关（PW）、视觉隐喻（VMCR）等技能类别中表现显著弱于人类基线；在构建层面，手工标注需平衡谜题复杂度与评估可操作性，研究者通过迭代筛选确保图像质量与标注一致性，并设计LLM辅助评判、CLIP检索等多维度评估指标以克服传统准确率度量在语义等价性判断上的局限性。

常用场景

经典使用场景

在视觉语言模型（VLMs）的研究领域，Visual Puzzles数据集被广泛应用于评估模型在抽象推理、符号操作和横向思维方面的能力。通过精心设计的432个英语谜题，该数据集挑战了模型在图像、空间排列和符号推理方面的综合能力，超越了传统的图像描述或简单问答任务。

解决学术问题

Visual Puzzles数据集解决了视觉语言模型在抽象推理和符号推理方面的关键学术问题。通过11种认知技能类别的标注，该数据集系统地揭示了模型在复杂视觉语言任务中的局限性，为改进模型的高阶认知能力提供了重要依据。

实际应用

在实际应用中，Visual Puzzles数据集被用于测试和优化各类视觉语言模型，特别是在需要复杂推理的场景中，如智能教育工具、创意广告生成和文化隐喻理解。其多样化的谜题为模型的实际部署提供了丰富的测试案例。

数据集最近研究