PRISM-Bench

github2025-10-28 更新2025-10-29 收录

下载链接：

https://github.com/JornyWan/PRISM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

PRISM-Bench是一个基准数据集，旨在评估多模态大语言模型在复杂视觉谜题推理方面的能力。它包含多样化的视觉推理任务，如谜题、基于图的推理、模式识别和算法推理等。数据集提供思维链注释、指令损坏测试、首次错误检测以及VQA风格评估等功能。

PRISM-Bench is a benchmark dataset intended to evaluate the capabilities of multimodal large language models (LLMs) in complex visual puzzle reasoning. It contains diverse visual reasoning tasks, such as puzzles, graph-based reasoning, pattern recognition, and algorithmic reasoning. The dataset offers functionalities including chain-of-thought annotations, instruction corruption tests, first error detection, and VQA-style evaluation.

创建时间：

2025-10-26

原始信息汇总

PRISM-Bench 数据集概述

数据集简介

PRISM-Bench是一个专门设计用于评估多模态大语言模型在复杂视觉谜题推理能力上的基准测试数据集。

核心特性

多样化视觉推理任务：包含谜题、基于图的推理、模式识别、算法推理等
思维链标注：为每个问题提供真实推理步骤
指令破坏：包含合成的错误推理链用于鲁棒性测试
首错误检测：标注错误推理链中的第一个错误
VQA风格评估：采用多选题格式，具有明确的真实答案

数据结构

数据集采用JSON格式存储，每个条目包含以下字段：

id：唯一标识符
image_url：图像外部链接地址
question_text：问题文本
answer：正确答案
groundtruth_cot：真实思维链推理步骤
cot_corrupted：包含插入错误的思维链
first_error：第一个错误步骤标识

文件结构

data/PRISM-Bench.json：主基准测试文件
data/download_images_url.jsonl：图像下载URL列表
data/download_images.py：图像下载脚本
data/example/：演示子集
inference/example_inference.py：推理示例脚本
evaluation/eval_vqa.py：VQA评估代码
evaluation/eval_first_error.py：首错误检测评估代码

评估指标

首错误检测：模型是否能正确识别第一个错误推理步骤
VQA评估：在多选题设置中与真实答案的对齐程度

使用说明

用户需通过提供的脚本下载图像数据至本地，图像URL为外部链接，部分链接可能失效需妥善处理。

搜集汇总

数据集介绍

构建方式

在视觉推理研究领域，PRISM-Bench通过系统化流程构建多模态评测基准。数据集采用结构化JSON格式组织，每个条目包含图像链接、问题文本、标准答案及思维链标注。构建过程中设计了涵盖图形推理与模式识别的多样化视觉谜题，并人工标注了完整的正确推理步骤。为进一步增强数据集的鲁棒性评估能力，研究团队还合成了包含人为错误的推理链，并精确标记了首个错误发生的位置。

使用方法

研究人员可通过标准化流程使用该数据集进行模型评估。首先需要执行图像下载脚本将远程图像资源缓存至本地，确保数据完整性。推理阶段可参考提供的示例代码构建多模态输入管道，将视觉信息与文本问题有机结合。评估环节支持两种并行路径：基于准确率的传统VQA评测和专注于推理过程的首错误检测分析。完整的工具链设计使得从数据准备到性能评估的全流程实现了自动化处理。

背景与挑战

背景概述

随着多模态大语言模型在视觉理解任务中的广泛应用，对复杂推理能力的系统评估需求日益凸显。PRISM-Bench由研究团队于2024年通过arXiv预发布，专注于解决多模态模型在视觉谜题推理中的核心问题。该数据集通过设计图形推理、模式识别等多样化任务，填补了传统基准在深层认知能力评估方面的空白，为推进多模态人工智能的推理研究提供了重要基础设施。

当前挑战

视觉谜题推理领域长期面临抽象模式归纳与多步骤逻辑推演的复合挑战，要求模型同时具备空间关系解析和符号化思维能力。在数据集构建过程中，研究者需攻克链式思维标注的语义一致性难题，并设计可溯源的错误注入机制。外部图像链接的时效性维护与多维度评估指标的系统整合，进一步增加了数据集的工程复杂度。

常用场景

经典使用场景

在视觉推理研究领域，PRISM-Bench作为专门评估多模态大语言模型处理复杂视觉谜题能力的基准，其经典应用场景聚焦于系统测试模型对图形推理、模式识别及算法逻辑等任务的解决能力。通过提供包含真实推理步骤的链式标注与干扰性错误链条，该数据集能够全面衡量模型在视觉问答框架下的逻辑连贯性与抗干扰性能。

解决学术问题

该数据集有效应对了多模态推理研究中缺乏标准化评估体系的学术困境，通过构建具有因果链条标注的视觉谜题库，为量化模型推理透明度提供了可验证的解决方案。其首创的错误步骤定位机制显著推进了可解释人工智能的研究进程，使研究者能够精准诊断模型推理链中的薄弱环节，从而推动认知启发的算法设计范式发展。

实际应用

在产业实践层面，PRISM-Bench的评估框架已被广泛应用于智能教育系统的解题能力评估、工业自动化中的视觉检测算法优化，以及医疗影像分析的辅助诊断系统开发。其多模态推理基准为自动驾驶系统的场景理解模块、金融风控系统的模式识别组件提供了可靠的验证标准，促进了人工智能技术在复杂决策场景中的落地应用。

数据集最近研究