PRISM-Bench

Name: PRISM-Bench
Creator: 苹果公司, 康奈尔大学, 威尔康奈尔医学院
Published: 2025-10-28 10:07:50
License: 暂无描述

arXiv2025-10-28 更新2025-10-29 收录

下载链接：

https://github.com/JornyWan/PRISM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PRISM-Bench是一个基于拼图视觉挑战的基准数据集，旨在评估多模态大型语言模型在视觉任务上的推理能力。数据集包含1044个视觉任务，分为六类，要求多步符号、几何和类比推理，以防止基于表面模式匹配的捷径解决方案。每个拼图都配有一个包含正确答案的推理链和一个包含一个错误的推理链。数据集的设计允许对逻辑一致性、错误检测和视觉推理进行细粒度评估。

提供机构：

苹果公司, 康奈尔大学, 威尔康奈尔医学院

创建时间：

2025-10-28

原始信息汇总

PRISM-Bench 数据集概述

数据集简介

PRISM-Bench是一个专门设计用于评估多模态大语言模型在复杂视觉谜题推理能力的基准数据集。

核心特性

多样化视觉推理任务：包含谜题、基于图的推理、模式识别、算法推理等
思维链标注：为每个问题提供真实推理步骤
指令破坏：包含合成的错误推理链用于鲁棒性测试
首次错误检测：标注错误推理链中的第一个错误
VQA风格评估：采用多项选择题格式，具有明确的真实答案

数据结构

数据集采用JSON格式存储，每个条目包含以下字段：

id：唯一标识符
image_url：图像外部链接（需本地下载）
question_text：问题文本
answer：正确答案
groundtruth_cot：真实思维链推理步骤
cot_corrupted：包含错误的思维链
first_error：首次错误位置

文件结构

data/ ├── PRISM-Bench.json # 主基准文件 ├── download_images_url.jsonl # 图像下载URL列表 ├── download_images.py # 图像下载脚本 └── example/ # 演示子集

评估指标

首次错误检测：评估模型是否准确识别推理链中的第一个错误步骤
VQA评估：在多项选择设置中与真实答案的对齐度

使用说明

图像需通过提供的下载脚本从外部链接获取，部分URL可能失效，建议优雅处理下载失败情况。

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，构建具有诊断能力的评估基准对理解多模态大语言模型的推理机制至关重要。PRISM-Bench通过精心设计的视觉谜题构建流程，从原始题库中人工筛选出1044个高质量谜题，涵盖符号推理、几何变换和类比推理等六种认知维度。每个谜题均配备真实推理链和人工注入单一错误的扰动推理链，通过GPT-o3系统化地重写指定步骤及后续内容，确保错误位置精确可控且逻辑连贯性得以保持。

特点

该数据集在视觉推理评估范式上展现出突破性特征，其核心创新在于双轨评估协议的设计。不同于传统仅关注最终答案准确率的基准，PRISM-Bench通过首错误检测任务实现对推理过程的细粒度诊断。数据集包含24种精心分类的推理错误类型，从属性误判到空间布局忽略等维度全面覆盖常见推理缺陷。谜题设计刻意规避表面模式匹配的捷径解决方案，要求模型进行真正的多步符号化推理，为评估模型的逻辑一致性提供了理想测试场。

使用方法

研究者可通过该数据集的双轨评估框架系统化检验多模态模型的推理能力。在答案评估轨道中，模型直接根据视觉谜题生成最终答案，测量端到端问题解决能力；在错误诊断轨道中，模型需在包含单一错误的推理链中定位首个错误步骤，评估逐步推理验证能力。评估时可采用直接输出或推理优先两种提示策略，通过对比两个轨道的性能差异，可深入分析模型答案生成与推理验证能力之间的解耦关系，为开发可信赖的多模态推理系统提供关键洞察。

背景与挑战

背景概述

PRISM-Bench由Apple与康奈尔大学的研究团队于2025年联合推出，聚焦于多模态大语言模型的推理可靠性评估。该数据集通过构建包含符号、几何与类比推理的视觉谜题，创新性地引入思维链错误检测任务，要求模型在包含单步错误的推理过程中定位首个错误步骤。这一设计突破了传统仅关注最终答案准确度的评估范式，为理解模型逻辑一致性与视觉推理能力提供了细粒度分析工具，对推动可信多模态人工智能发展具有里程碑意义。

当前挑战

该数据集核心挑战在于解决多模态推理中流畅生成与忠实推理之间的脱节问题。具体表现为：模型在视觉谜题求解时易受表面模式匹配干扰，难以实现符号与空间关系的系统性验证；在错误检测任务中，多数模型无法精准绑定视觉证据与推理步骤，常将错误归因于逻辑正确的前提。构建过程中需克服人工标注一致性难题，并通过可控错误注入机制确保思维链污染的精确性与连贯性，这对跨模态数据的语义对齐提出了极高要求。

常用场景

经典使用场景

在视觉推理研究领域，PRISM-Bench作为诊断性基准测试工具，其经典应用场景聚焦于评估多模态大语言模型的推理保真度。该数据集通过构建包含单步错误的思维链，要求模型不仅要解决视觉谜题，更要精确定位推理过程中首次出现错误的步骤。这种双重评估机制将答案生成与推理验证分离，为研究者提供了前所未有的细粒度分析能力，能够深入探查模型在符号推理、几何分析和类比推断等多步骤推理任务中的逻辑一致性表现。

解决学术问题

该数据集有效解决了多模态推理研究中长期存在的评估盲区问题。传统视觉问答基准仅关注最终答案准确性，无法区分模型是通过深层推理还是表面模式匹配完成任务。PRISM-Bench通过引入思维链错误检测任务，首次实现了对模型推理过程的系统性诊断，揭示了流畅生成与忠实推理之间的显著差距。这一突破性设计为理解模型内部推理机制提供了关键工具，推动学界从单纯追求任务性能转向关注推理可靠性的研究范式转变。

衍生相关工作

该数据集的创新范式催生了系列重要研究进展。基于其诊断理念，研究者开发了针对数学推理的StepBench、面向代码理解的DebugBench等专项基准。在方法层面，衍生出基于PRISM的自我验证训练框架，通过强化学习优化模型的错误检测能力。其思维链验证思想更被扩展到多模态对话系统评估中，形成CoT-VeriBench等新型评测体系。这些衍生工作共同构建起多模态推理诊断的研究生态，持续推动着可靠人工智能的发展进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集