Reasoning Riddles

Name: Reasoning Riddles
Creator: 马萨诸塞大学阿默斯特分校
Published: 2025-10-03 15:27:47
License: 暂无描述

arXiv2025-10-03 更新2025-10-07 收录

下载链接：

https://www.instagram.com/rainiersfamily/ https://www.rd.com/list/rebus-puzzles/ https://www.reddit.com/r/rebus/

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为“推理谜题”，由马萨诸塞大学阿默斯特分校的研究团队创建，包含221个跨越六个认知类别的重新谜题。这些谜题旨在探究视觉语言模型在复杂推理场景中的解释能力，数据集包含丰富的视觉元素和文本线索，需要模型将多个认知技能整合以生成抽象的解决方案。该数据集是专门为解释性研究设计的，谜题按认知维度进行了分类，可用于评估和改进视觉语言模型的推理能力和透明度。

提供机构：

马萨诸塞大学阿默斯特分校

创建时间：

2025-10-03

搜集汇总

数据集介绍

构建方式

在视觉语言模型认知能力研究领域，Reasoning Riddles数据集通过系统化采集流程构建而成。研究团队从Rainiers Family Instagram账户、Reader's Digest杂志和Rebus Puzzles子论坛三个来源精心筛选了221个字谜谜题，确保了谜题类型、难度层级和文化背景的广泛覆盖。每个谜题均经过严格的认知分类标注，涵盖空间编码、缺失推理、数量逻辑、文化象征、语音转换和视觉组合六大认知维度，同时标注了食物与烹饪、影视娱乐、音乐歌曲等六个主题域。为确保标注质量，采用三重验证机制，由主要研究者完成初始标注后，再由两位熟悉谜题解法的标注者独立复核50个谜题子集，最终达到科恩卡帕系数κ≥0.91的标注一致性。

特点

该数据集在认知评估维度展现出独特价值。其核心特征体现在多层级认知分类体系，不仅覆盖传统视觉推理任务，更特别关注缺失推理和文化象征等深层认知能力。数据分布呈现丰富多样性，单一认知类别谜题占比28.1%，而多类别组合谜题占比71.9%，其中双类别组合达7.2%，三类别组合达2.7%，有效模拟真实场景中的复合认知需求。谜题来源构成兼顾专业性与大众性，Instagram来源占81.9%，Reader's Digest占12.7%，Reddit社区占5.4%，确保了文化背景的多元表征。这种精心设计的类别平衡使数据集能够精准探测模型在并行认知处理、抽象概念理解和文化语境适应等方面的能力边界。

使用方法

该数据集支持多维度的评估框架设计，研究者可采用三种差异化提示策略展开实验。解释后求解策略要求模型先描述视觉元素及其关联性，再给出最终答案；求解后解释策略则颠倒顺序，先提供答案再阐述推理过程；组件引导策略通过明确提供认知类别和主题标签，为模型搭建结构化推理支架。评估过程需超越传统准确率指标，从正确性、连贯性、完整性和认知技能运用四个维度进行细粒度评估，每个维度采用5点制标准化评分。实验设计应确保模型配置、计算环境和谜题呈现顺序的一致性，通过多次运行评估结果稳定性，从而系统揭示模型在横向思维任务中的认知机制与局限。

背景与挑战

背景概述

在视觉语言模型快速发展的背景下，2025年由马萨诸塞大学阿默斯特分校Prahitha Movva等人构建的Reasoning Riddles数据集应运而生。该数据集聚焦于视觉文字谜题这一复杂认知任务，通过221个涵盖六类认知维度的系统标注样本，深入探索模型在侧向思维挑战中的推理机制。其核心研究目标在于突破传统性能评估框架，通过可解释性分析揭示视觉语言模型在符号解读、文化隐喻及抽象推理方面的认知边界，为多模态推理研究提供了关键的诊断工具。

当前挑战

该数据集致力于解决视觉语言模型在复杂侧向思维任务中的认知对齐问题，其核心挑战在于模型对文化符号的语境理解缺失、否定性概念的抽象表征困难，以及多认知策略的并行协调能力不足。构建过程中面临双重挑战：一是需要建立覆盖空间编码、文化象征等六维认知体系的标注系统，确保跨类别样本的平衡性与标注一致性；二是设计能有效分离推理质量与答案正确性的评估框架，通过三种提示策略的对比实验揭示模型认知过程的系统性偏差。

常用场景

经典使用场景

在视觉语言模型认知能力评估领域，Reasoning Riddles数据集被广泛应用于测评模型在复杂横向思维任务中的表现。该数据集通过221个涵盖六种认知类别的谜题，系统性地评估模型在视觉组合、空间编码、文化象征等维度的推理能力。研究者通常采用解释-求解、求解-解释和组件引导三种提示策略，深入分析模型在处理符号表征和隐喻关系时的认知过程，为理解多模态推理机制提供了标准化测试平台。

解决学术问题

该数据集有效解决了视觉语言模型在抽象推理和符号解释方面的关键学术难题。通过系统化的认知分类框架，揭示了模型在缺失推理和文化象征理解等深层认知任务中的根本性局限。其精细化的评估指标超越了传统准确率度量，从正确性、连贯性、完整性和认知技能运用四个维度全面剖析模型推理质量，为多模态可解释性研究建立了方法论基础，推动了从性能评估到认知过程分析的范式转变。

衍生相关工作

该数据集催生了多模态推理研究的重要延伸工作。PuzzleWorld基准在此基础上扩展了开放式推理评估框架，REBUS基准专注于视觉文字游戏的能力测评。后续研究借鉴其认知分类体系，开发了针对特定推理弱点的训练方法。神经符号推理架构如ViperGPT和GENOME通过模块化设计强化了多步骤推理能力，概念解释方法如SPLICE则延续了其可解释性分析路径，共同推动了多模态认知计算的纵深发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集