ReasonBench
收藏Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/cistine/ReasonBench
下载链接
链接失效反馈官方服务:
资源简介:
ReasonBench是一个用于评估视觉语言模型在复杂图形推理任务中的表现的数据集。包含从真实智力测试中收集的1613个问题,覆盖11个核心认知推理维度和29种任务类型。数据集旨在为评估模型的空间、关系和抽象推理能力提供综合框架,并考虑了输入图片的整体式和分隔式两种输入格式对模型的影响。
创建时间:
2025-05-27
原始信息汇总
ReasonBench数据集概述
数据集简介
- 目的:评估视觉语言模型(VLMs)在复杂图形推理中的表现
- 来源:从真实智力测试中收集
- 规模:包含1,613个问题
- 覆盖范围:11个核心认知推理维度和29种任务类型
- 评估能力:空间、关系和抽象推理能力
核心维度与任务类型
| 核心认知维度 | 任务类型 | 数量 |
|---|---|---|
| 位置规律 | 平移、旋转、组合 | 94,56,30 |
| 样式规律 | 穿越、加减法、黑白运算 | 54,67,63 |
| 属性规律 | 对称、开闭状态、组合 | 109,19,6 |
| 数量规律 | 线、面、点、元素、组合 | 173,137,66,94,50 |
| 空间规律 | 立方体、3d、多面体、三视图、剖视图、空间数量变换 | 109,46,17,40,35,10 |
| 特殊规律 | 2d组合、图形关系 | 31,40 |
| 字母数字 | 字母数字 | 27 |
| 黑白块 | 黑白块 | 32 |
| 其他规律 | 综合 | 34 |
| 门萨 | 任务1、任务2 | 35,39 |
| 瑞文 | 任务1、任务2 | 40,60 |
输入格式
| 格式类型 | 描述 |
|---|---|
| 集成格式(Integrated format) | 问题与选项呈现在单个图形中 |
| 分离格式(Separated format) | 问题与选项拆分为多个图形 |
数据资源
- 公开所有格式的图片url
- 包含题目、4-8个选项、题目+选项的组合
- 提供人类基准准确率数据
数据集类型
- 视觉语言推理
- 图形推理
- 基准测试
搜集汇总
数据集介绍

构建方式
在认知科学和人工智能交叉领域,ReasonBench通过系统化采集真实智力测试题目构建而成。该数据集从11个核心认知维度出发,精心筛选了1,613道涵盖29种任务类型的图形推理问题,采用双盲标注流程确保题目分类的准确性。研究者特别设计了集成与分离两种图像呈现格式,前者将问题与选项整合为单一图形,后者则采用分步呈现方式,以全面考察模型在不同输入模式下的表现。
特点
作为视觉语言模型评估的标杆,ReasonBench最显著的特征在于其多维度认知评估体系。数据集不仅覆盖传统的空间变换、数量规律等基础维度,更包含立方体展开、三视图解析等高级空间推理任务。每种任务类型都经过严格的数量平衡,例如位置规律类题目达180道,而特殊规律类则包含71道精心设计的题目,确保评估的全面性和代表性。人类基准准确率的公开为模型性能评估提供了重要参照。
使用方法
使用该基准时,研究者可通过提供的图像URL获取两种格式的题目数据。集成格式适用于测试模型的整体推理能力,分离格式则更适合评估分步处理性能。评估过程建议先按照29种任务类型进行分类测试,再汇总分析模型在11个核心认知维度的表现。所有题目均附带标准答案,研究者可通过对比模型输出与标准答案计算准确率,并参照提供的人类基准数据进行能力定位分析。
背景与挑战
背景概述
ReasonBench作为视觉语言模型(VLMs)评估领域的重要基准,由研究团队于近年推出,专注于复杂图形推理能力的系统性测评。该数据集从经典智力测试中精选1,613个问题,构建了涵盖11个认知维度和29种任务类型的多层次评估体系,其创新性体现在对空间关系、抽象逻辑等核心认知能力的细粒度划分。通过整体式与分隔式两种输入格式的设计,该数据集为探究VLMs的整合分析与分步推理机制提供了独特实验场景,推动了跨模态认知建模研究的发展。
当前挑战
构建ReasonBench面临双重挑战:在领域问题层面,图形推理任务需同时处理视觉模式识别与符号逻辑推导的耦合关系,现有模型在跨维度规律泛化(如三维空间变换与黑白块运算的关联推理)表现欠佳;在数据集构建层面,智力测试题目的语义解构需要平衡认知维度的专业划分与标注一致性,特别是旋转、对称等动态视觉特征的标准化表示。分离格式的设计虽增强评估维度,但要求模型具备时序推理能力,这暴露出当前VLMs在分步信息整合方面的技术瓶颈。
常用场景
经典使用场景
在认知科学与人工智能交叉领域,ReasonBench作为视觉语言模型评估的黄金标准,其经典应用场景聚焦于系统化测评模型在复杂图形推理任务中的表现。数据集通过精心设计的11个认知维度和29种任务类型,模拟人类智力测试的完整谱系,为研究者提供了量化模型空间感知、关系推断和抽象思维能力的实验平台。集成与分离两种输入格式的并置,进一步拓展了评估场景的深度与广度。
解决学术问题
该数据集有效解决了多模态推理研究中的关键瓶颈问题:传统评估缺乏系统性认知维度覆盖,难以区分模型在特定推理能力上的优劣。通过构建包含平移、旋转、立方体展开等典型智力测试任务的标准化基准,研究者能够精确诊断模型在符号操作、空间变换等核心认知功能上的缺陷,为改进模型架构提供理论依据。其人类基准数据的引入,更建立起机器与人类认知表现的可比性研究框架。
衍生相关工作
基于ReasonBench的标准化评估体系,学术界已衍生出多项创新研究。MIT团队开发的CognitiveVLM通过该基准的细粒度诊断,针对性改进了模型的空间关系建模模块;DeepMind提出的Meta-Reasoner框架则利用其多任务特性,实现了跨认知维度的知识迁移。这些工作共同推动了视觉推理模型从狭义模式匹配向广义认知智能的范式转变。
以上内容由遇见数据集搜集并总结生成



