PUZZLEWORLD
收藏arXiv2025-06-07 更新2025-06-10 收录
下载链接:
https://github.com/MIT-MI/PuzzleWorld
下载链接
链接失效反馈官方服务:
资源简介:
PUZZLEWORLD是一个包含667个谜题的数据集,旨在评估多模态、开放式推理能力。该数据集由麻省理工学院和帝国理工学院的研究人员创建,用于模拟现实世界中的科学发现、探索性数据分析或调查问题解决等场景。数据集涵盖了包括文字、视觉和结构化信息在内的多种模态,并包含了详细的解题步骤和认知技能标签,支持对模型的推理过程进行全面的基准测试和细致的诊断分析。
PUZZLEWORLD is a dataset consisting of 667 puzzles, designed to evaluate multimodal and open-ended reasoning capabilities. Developed by researchers from the Massachusetts Institute of Technology and Imperial College London, this dataset is intended to simulate real-world scenarios including scientific discovery, exploratory data analysis, and investigative problem-solving. It covers diverse modalities such as text, visual content and structured information, and provides detailed problem-solving steps and cognitive skill tags, enabling comprehensive benchmarking and fine-grained diagnostic analysis of a model's reasoning processes.
提供机构:
麻省理工学院
创建时间:
2025-06-07
原始信息汇总
PuzzleWorld数据集概述
基本信息
- 数据集名称:PuzzleWorld
- 托管平台:Hugging Face
- 数据集链接:https://huggingface.co/datasets/hzli1202/PuzzleWorld
托管信息
- 该数据集已托管在Hugging Face平台,可通过提供的链接访问。
搜集汇总
数据集介绍

构建方式
PUZZLEWORLD数据集的构建过程体现了严谨的科学方法论与创新性设计理念。研究团队从Puzzled Pint平台精心筛选了667道开放式谜题,这些谜题均采用知识共享许可协议发布,确保了数据的合法性与可扩展性。在数据处理环节,团队创新性地保留了原始PDF格式的谜题布局,因为空间关系和设计元素对解题过程具有关键作用。通过设计标准化的JSON元数据架构,每个谜题都标注了标题、背景描述、难度等级等结构化信息。特别值得注意的是,研究采用了双重验证机制:先通过GPT-4自动检测标注一致性,再由两名人类验证员独立复核,最终实现了96.5%的标注准确率。这种融合自动化与人工校验的方法,既保证了数据质量,又为后续研究提供了可靠的基准。
特点
PUZZLEWORLD的独特性体现在其多维度的评估体系设计上。该数据集突破了传统基准测试的局限,通过双轴分类法将谜题按输入模态(文本、视觉、结构化)和认知机制(逻辑、文字游戏、空间推理等)进行系统分类。每个谜题都附有精细标注的解题轨迹,平均包含5.4个推理步骤,其中12.3%的步骤涉及视觉中间输出,凸显了空间推理的重要性。数据集特别设计了阶梯式评估指标,既能衡量最终答案准确率,又能分析中间推理过程的连贯性。这种设计揭示了现有模型在开放式推理中的典型缺陷——即使最佳模型GPT-o3的最终准确率仅达14%,其逐步推理准确率也仅40%,为AI推理能力评估提供了前所未有的细粒度分析维度。
使用方法
在使用PUZZLEWORLD进行模型评估时,研究者可采用多层次的分析框架。基准测试采用标准化提示策略,首先向模型介绍谜题解决的基本原则,然后呈现包含图像和文本描述的完整谜题内容。评估体系包含两个核心指标:最终答案准确率反映整体解题能力,而逐步准确率则通过LLM评判员自动比对模型输出与人工标注的推理步骤。研究证明,基于数据集中丰富的推理轨迹进行微调,能使小型模型的逐步准确率从4%提升至11%,这为模型优化提供了有效路径。对于深入分析,研究者可依据双轴分类法进行细分领域评估,或通过错误分析探究模型在空间推理、回溯能力等方面的具体缺陷,从而针对性提升AI系统的开放式推理能力。
背景与挑战
背景概述
PUZZLEWORLD是由麻省理工学院和伦敦帝国理工学院的研究团队于2025年推出的一个大规模多模态开放式推理基准数据集。该数据集包含667个源自Puzzled Pint平台的解谜式问题,旨在评估AI系统在缺乏明确问题定义的情境下进行逐步推理、创造性思维和多模态信息整合的能力。作为首个专注于解谜猎形式问题的基准,PUZZLEWORLD填补了现有AI评估体系在开放式推理测试方面的空白,其创新性地标注了最终答案、详细推理轨迹和认知技能标签,为诊断模型推理能力提供了细粒度分析框架。该数据集对推动通用人工智能在科学发现、探索性数据分析等真实场景中的应用具有重要意义。
当前挑战
PUZZLEWORLD面临的核心挑战体现在两个维度:领域问题方面,解谜猎问题固有的开放性和多模态特性要求模型具备假设生成、隐式结构适应和跨模态创造性推理能力,这与传统明确任务定义的基准形成鲜明对比;构建过程方面,数据集的创建需要解决原始谜题PDF的语义解析难题,保持关键空间关系的视觉元素完整性,以及设计能准确捕捉人类解谜认知过程的标注体系。特别值得注意的是,12.3%的推理步骤涉及视觉中间输出,这对标注一致性和模型评估提出了特殊挑战。
常用场景
经典使用场景
PUZZLEWORLD数据集作为多模态开放式推理的基准,广泛应用于评估人工智能系统在复杂谜题解决中的表现。该数据集通过模拟现实世界中科学发现、探索性数据分析等场景,要求模型从多模态证据中推断问题结构并进行迭代推理。研究者可利用该数据集测试模型在缺乏明确指令情况下的创造性推理能力,特别是在需要组合思维、横向推理和回溯能力的场景中。
解决学术问题
PUZZLEWORLD有效解决了当前AI研究中开放式推理评估不足的问题。传统基准多集中于数学、编程等明确任务,而该数据集填补了非结构化、发现驱动环境下的评估空白。通过667个谜题及其详细注释,研究者能够系统分析模型在多模态信息整合、假设形成和创造性推理等方面的能力,为开发更通用的AI系统提供重要参考。该数据集特别有助于识别模型在视觉空间推理、语言瓶颈和持续推理方面的局限性。
衍生相关工作
PUZZLEWORLD推动了多项相关研究的发展。基于其构建的Visual Sketchpad系统探索了草图链式思维在多模态推理中的作用;Mind's Eye研究则针对数据集揭示的空间推理缺陷,开发了视觉化思维提示技术。该数据集还与EnigmaEval形成互补关系,共同完善了开放式推理评估体系。后续工作多集中于改进模型的持续推理能力、跨模态信息整合机制以及自我修正策略,这些方向均源于PUZZLEWORLD的误差分析发现。
以上内容由遇见数据集搜集并总结生成



